在现代社会,服务器作为信息技术的基础设施,广泛应用于企业、组织以及个人用户。
随着服务器的广泛应用,服务器问题也随之增多。
当服务器出现故障时,如何有效应对,减少损失,是每一个管理者和用户必须面对的挑战。
本文将详细介绍有效应对服务器问题的关键步骤,帮助读者更好地应对服务器问题。
我们需要识别服务器是否出现了问题。
常见的服务器问题包括:服务器运行缓慢、无法访问、频繁崩溃、数据丢失等。
在识别问题时,我们需要关注服务器的性能、运行状态以及相关的日志信息。
一旦发现异常,应立即进行进一步的排查。
在确认服务器出现问题后,我们需要详细记录问题的现象。
这有助于我们更好地理解问题的本质,为后续的问题解决提供线索。
记录的内容应包括:问题的具体表现、出现的时间、频率、影响范围等。
我们还需要记录服务器的运行状态、系统日志、错误信息等。
在记录完问题现象后,我们可以进行初步的诊断。
检查服务器的硬件是否正常,如CPU、内存、硬盘等。
检查服务器的软件环境,包括操作系统、应用程序、网络配置等。
同时,我们还需要检查服务器的日志信息,以找出可能的错误原因。
如果初步诊断无法解决问题,或者问题比较严重,我们需要及时联系技术支持。
在联系技术支持时,我们应提供详细的问题描述、现象记录以及初步的诊断结果。
这有助于技术支持人员更快地了解问题,提供有效的解决方案。
在技术支持人员的协助下,我们需要对问题进行深入的分析与定位。
这可能涉及到分析服务器的日志文件、进行远程桌面共享以便技术支持人员操作、使用专业工具进行诊断等。
在这一阶段,我们需要与技术支持人员紧密合作,共同找出问题的根源。
在定位问题后,我们需要制定解决方案。
根据问题的性质,解决方案可能包括:修复软件漏洞、优化硬件配置、调整网络设置等。
在制定解决方案时,我们需要充分考虑服务器的实际环境,确保解决方案的可行性和有效性。
制定完解决方案后,我们需要开始实施。
在实施过程中,我们应按照解决方案的步骤进行操作,确保每一步都正确执行。
同时,我们还需要密切关注服务器的运行状态,以便及时发现并解决问题实施过程中可能出现的新问题。
在实施完解决方案后,我们需要对服务器进行验证与测试,以确保问题得到解决。
这可能包括检查服务器的性能是否恢复正常、测试相关功能是否正常运行等。
如果问题仍未解决,我们需要重新分析并调整解决方案。
为了防止类似问题再次发生,我们需要采取预防措施。
这包括:定期更新软件和操作系统、备份重要数据、优化服务器性能等。
同时,我们还需要进行后期的维护工作,包括:监控服务器运行状态、定期检查硬件和软件等。
有效应对服务器问题需要我们遵循一系列关键步骤,包括识别问题、记录现象、初步诊断、联系技术支持、问题分析与定位、制定解决方案、实施解决方案、验证与测试以及预防措施与后期维护。
只有遵循这些步骤,我们才能更好地应对服务器问题,确保服务器的稳定运行。
首先遇到这样服务器被黑的情况不要着急,按下面步骤淡定处理:1、发现服务器被入侵,应立即关闭所有网站服务,暂停至少3小时。 这时候很多站长朋友可能会想,不行呀,网站关闭几个小时,那该损失多大啊,可是你想想,是一个可能被黑客修改的钓鱼网站对客户的损失大,还是一个关闭的网 站呢?你可以先把网站暂时跳转到一个单页面,写一些网站维护的的公告。 2、下载服务器日志,并且对服务器进行全盘杀毒扫描。 这将花费你将近1-2小时的时间,但是这是必须得做的事情,你必须确认黑客没在服务器上安装后门木马程序,同时分析系统日志,看黑客是通过哪个网站,哪个 漏洞入侵到服务器来的。 找到并确认攻击源,并将黑客挂马的网址和被篡改的黑页面截图保存下来,还有黑客可能留下的个人IP或者代理IP地址。 3、Windows系统打上最新的补丁,然后就是mysql或者sql数据库补丁,还有PHP以及IIS,serv-u就更不用说了,经常出漏洞的东西,还有就是有些IDC们使用的虚拟主机管理软件,如N点虚拟主机管理软件、易方管理软件、华众管理软件等等。 4、关闭删除所有可疑的系统帐号,尤其是那些具有高权限的系统账户!重新为所有网站目录配置权限,关闭可执行的目录权限,对图片和非脚本目录做无权限处理。 5、完成以上步骤后,你需要把管理员账户密码,以及数据库管理密码,特别是sql的sa密码,还有mysql的root密码,要知道,这些账户都是具有特殊权限的,黑客可以通过他们得到系统权限!6、Web服务器一般都是通过网站漏洞入侵的,你需要对网站程序进行检查(配合上面的日志分析),对所有网站可以进行上传、写入shell的地方进行严格的检查和处理。
一,确认服务器硬件是否足够支持当前的流量。 二,优化数据库访问。 服务器的负载过大,一个重要的原因是CPU负荷过大,降低服务器CPU的负荷,才能够有效打破瓶颈。 而使用静态页面可以使得CPU的负荷最小化。 前台实现完全的静态化当然最好,可以完全不用访问数据库,不过对于频繁更新的网站,静态化往往不能满足某些功能。 缓存技术就是另一个解决方案,就是将动态数据存储到缓存文件中,动态网页直接调用这些文件,而不必再访问数据库,WordPress和Z-Blog都大量使用这种缓存技术。 如果确实无法避免对数据库的访问,那么可以尝试优化数据库的查询SQL.避免使用Select *from这样的语句,每次查询只返回自己需要的结果,避免短时间内的大量SQL查询。 三,禁止外部的盗链。 外部网站的图片或者文件盗链往往会带来大量的负载压力,因此应该严格限制外部对于自身的图片或者文件盗链,好在目前可以简单地通过refer来控制盗链,Apache自己就可以通过配置来禁止盗链,IIS也有一些第三方的ISAPI可以实现同样的功能。 当然,伪造refer也可以通过代码来实现盗链,不过目前蓄意伪造refer盗链的还不多,可以先不去考虑,或者使用非技术手段来解决,比如在图片上增加水印。 四,控制大文件的下载。 大文件的下载会占用很大的流量,并且对于非SCSI硬盘来说,大量文件下载会消耗CPU,使得网站响应能力下降。 因此,尽量不要提供超过2M的大文件下载,如果需要提供,建议将大文件放在另外一台服务器上。
服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。 导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。 下面分别举例说明各类软件故障的维修方法。 有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。 开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。 从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。 维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。 就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。 FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为,然后将从网上下载的(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。 然后在DOS下运行”FLASH /CMC ”,刷新完成后重新启动服务器后即可。 这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。 任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。 目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。 但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。 但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。 当服务器的软件故障为此类时,表现的现象也不尽相同。 一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。 查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。 由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。 以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。 如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。 但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。 服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。 这样会减少很大一部份软件故障的发生。 相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。 曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。 而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。 于是我陪着朋友去了他的公司查看。 这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。 但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。 在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。 但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息导致一个无效的数据溢出。 Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。 我立即结束掉这个进程后,再运行SQL一切正常。 对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。 目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。 还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。 人为误操作因素只要加强管理都可以避免此类故障发生。 在这里就详细说明意外关机或非正常关闭程序造成故障的方法。 正常关闭系统程序非常重要,尤其是WEB服务器。 我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。 我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。 这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。 下面以我朋友的HP web hosting server appliance为例(使用的是Unix,但思路对于其它操作系统均有效)。 正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。 另外,为了避免数据丢失,你应该按照如下的步骤操作:· 经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。 · 安装第二块硬盘并与原来的硬盘设置成镜像,一旦Server Apliance未能正确关闭,并无法重起,请按如下操作恢复:1. 当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。 2. 连接串口线的另一头到一台运行Windows的PC的串口上。 3. 运行超级链接程序(HyperTerminal),并设置端口的参数为, n-8-1, Flow control - None. 你可以看到appliance的控制提示,并要求你输入管理员口令。 4. 重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。 5. 敲入emergency并回车。 此时需要耐心等待几分钟。 然后,登录提示又将出现,此时,LCD屏又能正常工作了。 6. 在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)翻至Defaults… 并按右箭头键选中。 翻至Root Password…并按右箭头键选中。 翻至Random 并按右箭头键选中,会提示一个随机产生的密码。 记下此密码。 翻至Yes并按右箭头键选中,系统密码会立刻更改。 7. 回到超级链接的控制屏,登录appliance,用root用户名和刚才的密码,此时会出现“#”提示。 8. 为修复分区,请按如下方法操作:对于sa1100,按顺序输入:[…]#: fsck /dev/hda5[…]#: fsck /dev/hda6[…]#: fsck /dev/hda7对于sa1120,按顺序输入:[…]#: fsck /dev/sda5[…]#: fsck /dev/sda6[…]#: fsck /dev/sda7当所有的分区都被修复后,应回到“#”提示符下。 9. 输入“reboot”重新启动系统。 如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。 对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。
本文地址:http://www.hyyidc.com/article/241084.html