下列贴士帮助你更快速更轻松地为 Linux 中的硬件排查故障。
许多不同的因素可能导致Linux硬件出现问题;在你开始尝试诊断之前,了解最常见的问题以及最有可能找到原因的环节是明智之举。
Linux服务器在许多不同类型的基础架构中运行关键任务型业务应用程序,包括物理机、虚拟机、私有云、公共云和混合云。
对于 Linux系统 管理员来说,了解如何管理Linux硬件基础架构很重要,包括与网络和存储有关的软件定义功能、Linux容器和Linux服务器上的多个工具。
排查并解决Linux上与硬件有关的问题可能需要一些时间。
连经验丰富的系统管理员有时也要花几小时来解决莫名其妙的软硬件问题。
下列贴士帮助你更快速更轻松地为Linux中的硬件排查故障。
许多不同的因素可能导致Linux硬件出现问题;在你开始尝试诊断之前,了解最常见的问题以及最有可能找到原因的环节是明智之举。
1.快速诊断设备、模块和驱动程序 故障排查的第一步通常是显示Linux服务器上安装的硬件列表。
你可以使用ls命令获取硬件的详细信息,比如lspci、lsblk、lscpu和lsscsi。
比如说,这是lsblk命令的输出结果: #lsblk NAMEMAJ:MINRMSIZEROTYPEMOUNTPOINT xvda202:0050G0disk ├─xvda1202:101M0part └─xvda2202:2050G0part/ xvdb202G0disk └─xvdb1202G0part 如果ls命令没有显示任何错误,使用初始化进程(比如systemd)查看Linux服务器的运行状况。
systemd是启动用户空间、控制多个系统进程的最流行的初始化进程。
比如说,这是systemctl status命令的输出结果: #systemctlstatus ● State:running Jobs:0queued Failed:0units Since:Wed2018-11-2801:29:05UTC;2daysago CGroup:/ ├─1/usr/lib/systemd/systemd--switched-root--system--deserialize21 ├─ │├─kubepods-poda_f2af_11e8_af77_ ││├─ │││└─/opt/bridge/bin/bridge--public-dir=/opt/bridge/static--config=/var/console-config/console-c ││└─ ││└─/usr/bin/pod2.深入研究多个日志 dmesg让你可以搞清楚内核的最新信息中的错误和警示内容。
比如说,这是dmesg | more命令的输出结果: #dmesg|more .... [1539.]IPv6:ADDRCONF(NETDEV_UP):eth0:linkisnotready [1539.]IPv6:ADDRCONF(NETDEV_UP):veth61f:linkisnotready [1539.]IPv6:ADDRCONF(NETDEV_CHANGE):veth61f:linkbecomesready [1539.]IPv6:ADDRCONF(NETDEV_CHANGE):eth0:linkbecomesready [1539.]deviceveth61fenteredpromiscuousmode [1541.]deviceveth61fleftpromiscuousmode [1542.],differentsecuritysettingsfor(devmqueue,typemqueue) [9965.],differentsecuritysettingsfor(devmqueue,typemqueue) [9965.]IPv6:ADDRCONF(NETDEV_UP):eth0:linkisnotready [9965.]IPv6:ADDRCONF(NETDEV_UP):vetheacc333c:linkisnotready [9965.]IPv6:ADDRCONF(NETDEV_CHANGE):vetheacc333c:linkbecomesready .... 你还可以查看/var/log/messages文件中的所有Linux系统日志,在这里找到与特定问题有关的错误。
如果你对硬件进行改动,比如挂载额外磁盘或添加以太网网卡,有必要通过tail命令实时密切关注信息。
比如说,这是tail -f /var/log/messages命令的输出结果: #tail-f/var/log/messages Dec113:20:33bastiondnsmasq[]:usingnameserver127.0.0.1# Dec113:20:33bastiondnsmasq[]:usingnameserver127.0.0.1# Dec113:21:03bastiondnsmasq[]:settingupstreamserversfromDBus Dec113:21:03bastiondnsmasq[]:usingnameserver192.199.0.2#53 Dec113:21:03bastiondnsmasq[]:usingnameserver127.0.0.1# Dec113:21:03bastiondnsmasq[]:usingnameserver127.0.0.1# Dec113:21:33bastiondnsmasq[]:settingupstreamserversfromDBus Dec113:21:33bastiondnsmasq[]:usingnameserver192.199.0.2#53 Dec113:21:33bastiondnsmasq[]:usingnameserver127.0.0.1# Dec113:21:33bastiondnsmasq[]:usingnameserver127.0.0.1#3.分析网络功能 你可能在复杂的网络环境中有成千上万个云原生应用程序为业务服务提供服务;这些可能包括虚拟化、多云和混合云。
这意味着你应该分析网络连接是否正常运行,这是故障排查的一部分。
分析Linux服务器中网络功能的实用命令包括ip addr、traceroute、nslookup、dig和ping等。
比如说,这是ip addr show命令的输出结果: #ipaddrshow 1: lo:
我们身处在信息时代,早已经被信息产品包围。 最常见的就是电脑和手机了,可是再发达的科技产品也是人类发明出来的,它并不是万能的。 大家在使用电脑和手机的过程中,一定都遇见过故障,每次出现问题都会觉得很烦躁,尤其是不懂的人。 今天我们来看看电脑出现的问题之一,就是服务器死机,该如何解决吧。
服务器死机的原因有哪些?
1、硬件方面
①内存故障:可以通过系统的错误消息或者BIOS中的错误报告来判断。 确认插槽接触有无积灰等。 然后进行清洁,后重新插入到存储槽或更换内存条。
②电源功率不足:执行一些复杂的指令,或添加新的硬件设备,电源的需求就会提高。 通常会选择设定功率高的电源。
③电压不稳:不稳定的电压会使服务器死机或重新启动。 服务器主板上的部件损坏,特别是电容,造成服务器堵塞,无法启动等问题。 这个需要选择稳定的电压环境。
④硬盘有坏道:如果在系统中读取硬盘内的坏道,卡机和死机就会出现。 利用专业的软件和人员检查修理硬盘,修复损坏的东西,更换硬盘。
⑤散热风扇损坏:灰尘过多或过热的话,散热室就回不去了。 我们必须经常整理服务器内部。 这不仅可以避免死机,还可以避免很多其他一般的问题。 所以我们只要选择环境良好的机房,就不会发生电源功率不足和电压不稳的问题。
2、软件方面
①内存资源冲突:当应用程序在内存中运行的时候,你可以退出应用程序并释放内存。 但是有些软件不能完全结束,还在占用内存资源。 如果其他应用程序需要使用这个内存地址,会发生突起。
②病毒:系统软件的脆弱性会引起病毒入侵、死机等很多问题。 我们需要估算病毒对策,全面地整理或重新安装系统。
③运行软件死机:这种情况很常见,可能软件本身出现的问题,或与服务器系统的兼容性问题发生冲突。 我们利用专业的需求卸载该软件,整理注册表,再安装,或者放弃这个软件。
④不合适的删除软件:不合适是指不使用软件本身的反安装程序卸载该软件,而只是自己将该软件的文件delete到了世界上。 这时,我们需要清洁垃圾、注册表。
进入信息时代,各种行业对数据安全与技术要求日益提高,同时也面临服务器故障问题。 本文将针对常见服务器故障及其解决方法进行分享,以助于更快更有效地处理故障。 服务器常见故障包括无法启动和系统频繁重启。 无法启动可能由电源或电源模组故障、内存故障、CPU故障、主板故障或插卡中断冲突引起。 首先,检查电源线和I/O接线、电源是否加电、最小配置是否正常启动,电源是否启动。 然后,用替换法逐一排查内存、CPU、主板等关键组件。 系统频繁重启可能由电源故障、内存故障、网络端口数据流量过大、软件故障引起。 解决方法为:替换电源以判断故障,通过BIOS错误报告确认内存故障,减小工作压力或更新重装操作系统解决软件问题。 服务器死机故障复杂,分为软件和硬件故障。 软件故障包括操作系统日志检查、病毒扫描、系统软件bug或漏洞处理,以及适当减少工作压力。 硬件故障涉及硬件冲突、电源问题、硬盘故障、内存故障、主板故障、CPU故障和板卡故障。 通常使用替换法进行排查。 安装操作系统时提示找不到硬盘可能由无物理硬盘设备、硬盘线缆连接问题或没有安装硬盘控制器驱动引起。 获得驱动程序可通过随机光盘制作或查看是否启用了hostraid功能。 新购硬盘安装后机器自检无法通过可能由硬盘ID号相同引起,解决方法是使用新硬盘替换。 格式化SCSI硬盘有操作系统时使用磁盘管理工具,无操作系统时在SCSI管理控制界面进行。 在Aisino系列中有RAID卡机器,当硬盘故障报警但系统能正常运行,解决方法是替换硬盘或修复RAID卡相关故障。 在服务器上使用的SCSI硬盘,ID号不能设置为7,因为默认被设置为硬盘控制器。 开机自检无法通过,解决方法是清除CMOS。 物理内存插槽报错,解决步骤是进入“SETUP”-“ADVANCED”-“MEMORY CONFIGURATION”,执行“CLEAR DIMM ERRORS”操作。 通过以上故障解决方法,可以更有效地处理服务器常见故障,保障数据安全与系统稳定运行。
本文地址:http://www.hyyidc.com/article/36908.html