硬件故障管理最佳实践：优化故障处理流程，最大限度地减少影响 (硬件故障管理包括哪些内容)

文章编号：37009 / 分类：行业资讯 / 更新时间：2024-12-13 08:06:56 / 浏览：次

硬件故障管理概述

硬件故障管理是数据中心运营的关键方面，对于确保业务连续性和最小化服务中断至关重要。实施有效的故障管理策略可以帮助组织快速识别、隔离和解决硬件故障，从而最大限度地减少其对运营的影响。

硬件故障管理包括的内容

硬件故障管理涉及以下关键步骤：

故障检测：使用监测工具和告警系统及时发现硬件故障。
故障隔离：确定受影响的硬件组件或设备。
修复或更换：根据故障的严重程度采取适当的行动，例如修理、更换或采取临时措施。
故障预防：实施预防性维护和冗余措施以减少未来故障的发生。
故障管理记录和报告：记录故障事件、解决步骤和影响，以便进行分析和改进。

优化故障处理流程的最佳实践

为了优化硬件故障处理流程，应考虑以下最佳实践：

1. 建立故障响应计划

创建一份详细的故障响应计划，概述故障处理步骤、责任和沟通渠道。该计划应定期审查和更新以反映不断变化的需求和技术。

2. 实施监测和告警系统

部署监测工具和告警系统，以持续监控硬件运行状况并及时检测故障。这些系统应配置为在达到预定义阈值时自动触发告警。

3. 进行故障分类和优先级排序

建立故障分类和优先级排序系统，以便根据影响程度对故障进行分类。这有助于团队将资源优先分配给最关键的故障。

4. 使用故障管理工具

利用故障管理工具自动化故障处理流程，例如故障单管理、跟踪和分析。这些工具可以提高效率并确保故障得到及时解决。

5预防性维护计划，包括设备清洁、检查和更新。这些任务有助于识别潜在问题并防止故障发生。

6. 实施冗余措施

通过部署冗余设备和组件，例如故障转移集群、存储镜像和负载均衡，提高系统的弹性。这有助于在发生故障时提供平稳的故障转移。

7. 培训团队并分配责任

定期对团队进行故障管理流程的培训，并明确定义职责和问责制。这有助于确保所有团队成员了解他们的角色并能够有效协作。

8. 记录和分析故障事件

记录所有故障事件，包括故障详细信息、解决步骤和影响。这些记录对于识别趋势、找出根本原因和改进故障处理流程至关重要。

9. 进行定期审核和改进

定期审核故障管理流程，以评估其有效性和识别改进领域。利用故障事件数据和反馈来优化流程并提高其整体效率。

最大程度减少硬件故障影响

除了优化故障处理流程外，还可以采取以下措施最大程度减少硬件故障的影响：

1. 购买高质量设备

从信誉良好的供应商处采购高质量的硬件设备。可靠的设备可以减少故障发生的可能性并延长其使用寿命。

2. 实施环境控制

提供适当的环境控制，例如温度监控、湿度调节和防尘措施，以减少对硬件的压力并防止损坏。

3. 部署负载均衡

通过负载均衡技术将工作负载分布在多个服务器或设备上，以避免单点故障。这有助于提高系统的整体可用性。

4. 维护备份和恢复策略

实施全面的备份和恢复策略，包括定期备份、数据冗余和灾难恢复计划。这有助于在发生重大故障时恢复数据和服务。

5. 持续监控和改进

持续监控故障管理流程并进行必要的改进。利用数据分析和行业最佳实践来提高故障处理效率并最大程度减少其对业务的影响。

结论

通过实施这些硬件故障管理最佳实践，组织可以优化其故障处理流程并最大程度减少故障影响。采取积极主动的方法进行故障管理可以提高系统可用性、确保业务连续性并维护客户满意度。定期审核和改进流程对于保持组织在不断变化的IT环境中的竞争力至关重要。

互联网时代的网络自动化运维

互联网上有两大主要元素内容和眼球，内容是互联网公司(或称ICP)提供的网络服务，如网页、游戏、即时通信等，眼球则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中，越来越多的眼球在盯着ICP所提供的内容，互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验，互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务，并为业务模块间的通信建立IDC内部网络、城域网和广域网，同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长，运维部门也显得愈发重要。他们经过这些年的积累，逐步形成了高效的运维体系。本文将结合国内互联网公司的经验，重点针对IT基础设施的新一代自动化运维体系展开讨论。

一、运维的三个阶段

● 第一个阶段：人人皆运维

在早期，一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模)，不一定有专门的运维人员或部门，运维的工作分担在各类岗位中。研发人员拥有服务器权限，自己维护和管理线上代码及业务。

● 第二个阶段：纵向自动化

随着业务量的增长，IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模)，开始有专门的运维人员，从事日常的安装维护工作，扮演救火队员，收告警，有运维规范，但运维主要还是为研发提供后置服务。

这个阶段已经开始逐步向流程化处理进行过渡，运维部门开始输出常见问题处理的清单，有了自己业务范围适用的自动化脚本，开始利用开源软件的拼装完成大部分的工作。

具体表现为：各产品线有自己编写的脚本，利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。

● 第三阶段：一切皆自动

在互联网化的大潮中，越来越多的黑马团队应运而生，都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中，ICP的互联网基础服务设施是否能够很好的跟进，直接决定了业务内容能否满足海量用户的并发访问。

与此同时，运维系统需要足够地完善、高效、流程化。谷歌、腾讯、网络和阿里等规模的公司内一般都有统一的运维团队，有一套或多套自动化运维系统可供参照，运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。

图1.大型互联网公司IT基础设施情况概览

二、BAT(网络、阿里、腾讯)运维系统的分析

国内的互联网公司网络、阿里、腾讯(以下简称：BAT)所提供的主要业务内容不同，IT架构不同，运维系统在发展过程中有不同的关注点。

1.腾讯运维：基于ITIL的运维服务管理

预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功，目前正在进行自动化验收的工作。在网络设备方面，后续将实现从需求端开始的全自动化工作：设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。

图2.腾讯基于ITIL的运维服务管理

2.阿里运维系统：基于CMDB的基础设施管理+逻辑分层建模

CMDB(Configuration Management highlight=true>数据类型之间的因果关系提供保障。同时，CMDB与所有服务支持和服务交付流程都紧密相联，支持这些流程的运转、发挥配置信息的价值，同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中，CMDB常常被认为是构建其它ITIL流程的基础而优先考虑，ITIL项目的成败与是否成功建立CMDB有非常大的关系。

3.网络自动化运维：部署+监控+业务系统+关联关系

网络主要面临的运维挑战包括：突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。网络的运维团队认为，当服务器规模达到上万台时，运维视角需要转为以服务为粒度。万台并不等于百台*100;机器的运行状态，也不再代表业务的工作状态;运维部门为研发提供前置服务，服务与服务之间关系也随着集群的扩大逐渐复杂起来。

图3.网络自动化运维技术框架

网络的自动化运维技术框架，划分为部署、监控、业务系统、关联关系四大部分，整个框架更多突出了业务与IT基础设施的融合，注重关联关系的联动。所谓关联关系，主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系，分别对应到任务调度、数据传输、资源定位的服务流程中，形成了多条服务链。

关联关系的运维与业务较强相关，需要有一套系统能够理清楚关系的全貌，从而在复杂的服务链上，定位运行所在的环节，并在发生故障时预估影响范围，及时定位并通知相应的部门。在这样的一套系统中，自动化监控系统非常重要。网络的技术监控框架，主要通过数据采集、服务探测、第三方进行信息收集，进行监控评估后交给数据处理和报警联动模块处理，通过API接口进行功能扩充(如图4所示)。

图4.网络自动化技术监控框架

其实无论是BAT等互联网企业还是其他行业的企业，在IT建设中都会遵循IT基础架构库(ITIL)或ISO服务管理的最佳实践，采用自动化IT管理解决方案以实现重要的业务目标，如减少服务中断、降低运营成本、提高IT效率等等。随着ISO、ITIL v3.0的发布和推广，两者已经成为事实上的某种标准。在当今企业IT管理领域，对两个标准有着很迫切的需求。特别是ISO的认证要求，已经成为企业越来越普遍的需求。 ITIL v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理，相关方案往往覆盖了多个领域和多个产品，规划实施和工具的选择会比较纠结。如果选择开源的工具，从CMDB开始就会遇到很多的开发工作，对于很多注重成本收益比的企业，可以参考，但由于无法保证性能与效果并不一定适用。因此，成熟的商业方案会是更好的选择。

最新的iMC V7版本，围绕资源、用户、业务三个维度进行创新，发布了SOM服务运维管理(基于ISO、ITIL标准)等组件，增加了对服务器的管理，能很好的满足更多互联网化的场景需求。

通常认为，一个高效、好用的配置管理数据库一般需要满足6条重要标准，即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种，如网络设备、服务器、虚拟机等，因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足，但是随着服务器虚拟化技术的发展，虚拟机正越来越多的成为IT基础架构的一大元素。因此，针对这一需求华三通信基于CAS CVM虚拟化管理系统，对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同，华三通信的网管软件面向全行业，目前虽然没有对域名管理等特殊资源的管理，但是能够通过API接口等方式与特有系统进行联动，进而满足定制化运维的需求，尤其是在互联网化的场景中，针对不同的业务需求，可以实现很多定制化的对接需求，例如，iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接，打通了iMC工具与用户自有运维平台，很好的实现了架构融和。另外，与阿里的逻辑分层建模相似，H3C iMC+CAS软件体系在上层也做了很多的逻辑抽象、分层，形成了诸多的模块，也即是大家看到的各种组件。

三、网络自动化运维体系

哪怕是一个只有基础技术能力的陌生人，也能做专业的IT运维;哪怕是一个只有初中学历的运维人员，也能够带队完成中小型机房节点的建设，并负责数百至上千台服务器的维护管理工作--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑，但实际上依托于强大的IT运维系统，国内已经有不少互联网公司能够达到或者接近这一标准。

这些企业都经历了运维发展过程中的各个阶段，运维部门曾经也是被动的、孤立的、分散的救火队式的团队，在后来的发展过程中，IT系统架构逐渐走向标准化、模型化，运维部门建立了完整的设备、系统资源管理数据库和知识库，包括所有硬件的配置情况、所有软件的参数配置，购买日期、维修记录，运维风险看板等等，通过网管软件，进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统，不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构，在这样一套系统中，主要的IT资源包括计算、存储、网络资源，近些年随着网络设备厂商的推动，网络设备管理方面的自动化技术也得到十足的发展。

总结来看，一个企业在进行互联网化的建设初期，就需要考虑到随着用户访问量的增加，资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。

1.规划模型化

为了确保后续业务能够平滑扩容，网管系统能够顺利跟进，互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化，新增业务资源就好比点快餐，随需随取。

标准化：一是采用标准协议和技术搭建，扩展性好，使用的产品较统一，便于管理;二是采用数据中心级设备，保证可靠性、灵活性，充分考虑业务系统对低时延的要求。

模型化：基于业务需求设计网络架构模型，验证后形成基线，可批量复制，统一管理，也适宜通过自动化提高部署效率、网管效率。

图5.常见互联网IDC架构

2.建设自动化

互联网IT基础设施具备批量复制能力之后，可以通过自动化技术，提高上线效率。在新节点建设过程中，3～5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求，一共派遣了2名工程师到现场进行设备安装部署和基本配置，而后通过互联网链路，设备从总部管理系统中自动获取配置和设备版本，下载业务系统，完成设备安装到机房上线不超过1周时间。

要达到自动化运维的目标，建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。

批量复制：根据业务需要，梳理技术关注点，设计网络模型，进行充分测试和试点，输出软、硬件配置模板，进而可进行批量部署。

自动化上线：充分利用TR069、Autoconfig等技术，采用零配置功能批量自动化上线设备，效率能够得到成倍提升。

图6.批量配置与自动化上线

○ Autoconfig与TR069的主要有三个区别：

○ Autoconfig适用于零配置部署，后续一般需要专门的网管系统;TR069是一套完整的管理方案，不仅在初始零配置时有用，后续还可以一直对设备进行监控和配置管理、软件升级等。

○ Autoconfig使用DHCP与TFTP--简单，TR069零配置使用DHCP与HTTP--复杂，需要专门的ACS服务器。

安全性：TR069更安全，可以基于HTTPS/SSL。

而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能，通过TR-069协议对CPE设备进行远程管理，BIMS具有零配置的能力和优势，有灵活的组网能力，可管理DHCP设备和NAT后的私网设备。 BIMS的工作流程如图7所示。

图7.H3C iMC BIMS工作流程

3.管理智能化

对于网管团队而言，需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。早期的网管工具，往往离不开命令行操作，且对于批量处理的操作支持性并不好，如网络设备的MIB库相比新的智能化技术Netconf，好比C和C++，显得笨拙许多。因此使用的角度考虑，图形化、智能化的管理工具，往往是比较受欢迎。

智能化：使用新技术，提升传统MIB式管理方式的处理效率，引入嵌入式自动化架构，实现智能终端APP化管理(如图8所示)。

图8.消息、事件处理智能化

● Netconf技术

目前网络管理协议主要是SNMP和Netconf。 SNMP采用UDP，实现简单，技术成熟，但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。 Netconf采用XML作为配置数据和协议消息内容的数据编码方式，采用基于TCP的SSHv2进行传送，以RPC方式实现操作和控制。 XML可以表达复杂、具有内在逻辑、模型化的管理对象，如端口、协议、业务以及之间的关系等，提高了操作效率和对象标准化;采用SSHv2传送方式，可靠性、安全性、交互性较好。二者主要对比差异如表1所示。

表1 网管技术的对比

● EAA嵌入式自动化架构

EAA自动化架构的执行包括如下三个步骤。

○ 定义感兴趣的事件源，事件源是系统中的软件或者硬件模块，如：特定的命令、日志、TRAP告警等。

○ 定义EAA监控策略，比如保存设备配置、主备切换、重启进程等。

○ 当监控到定义的事件源发生后，触发执行EAA监控策略。

4.监控平台化

利用基本监控工具如Show、Display、SNMP、Syslog等，制作平台化监控集成环境，实现全方位监控(如图所示)。

;

知识管理反面案例分析

无论是在学校还是在社会中，大家都接触过知识管理吧，通过知识管理可以把我们那些零零散散的思想，聚集在一块。那么你有了解过知识管理吗？以下是我为大家收集的知识管理反面案例分析，欢迎阅读，希望大家能够喜欢。

知识管理需要什么

技术专家们从不无承诺的进行宣传：“技术是可行的。 ”事实是——这个承诺掩盖了一个问题：可以干什么？知识管理经常忽略的一个问题是询问要管理何种知识并将取得何种效果。知识管理活动全面展开：建立数据库，测度智力资本，建立企业图书库，建立内部网，共享最佳实践，安装组件，进行培训，进行企业文化转变，促进合作，创建团队——所有这些都是知识管理，每个员工都可能对此抱怨，但是没有一个人提出那个最大的问题：为什么要进行知识管理？

定义与选择

知识管理资源不被接受的最简单的理由是：那些工作没有用处。工作与知识是互补相关的。

正如管理一项业务的方法取决于所从事的行业一样——通用汽车公司生产汽车，而不是建停车场、加油站、或者高速公路——所以知识管理必须由选择需要被管理的知识的类别开始，建立一个充满知识的图书馆并没有益处。

在实施知识管理之前，首先回答三个基本问题：

1. 工作团队是什么？知识管理的第一任务是选择将之称为分析系列还是管理系列，然后，将知识管理内容的首要责任放到那里。这不是功能单位的必须组成部分。职能交叉的项目团队，例如，明确“知识空间”的共享。这并不说明首席知识官不发挥作用。有些资源是每个人所需要的，如果没有共同的知识，公司没有理由围绕一个人转。

2. 工作团队需要知道什么？重要的是将信息与知识区别开。信息是有时效性的，知识具有持久性。每个工作团队都需要信息管理与信息资源，这些可以转变为数据库。你可以通过询问判断需求，并通过最快、成本最低、最有效的方式满足他们的需求。

通过询问客户，你同样会发现客户所需的知识。多数人将知识作为一个整体来处理，只是偶尔会进行回顾。 Cigna保险公司的业务员使用决策支持软件为加利福尼亚的客户准备保险单。软件存储了大量特殊案例和精算方案。 Cigna的保险业务员实际上并不需要这些知识。对他们来说，知识管理的任务是创造一个工具，这个工具可以快速将精算师的计算与实际风险相结合，教授使用工具的方法，培养会见客户和建立客户关系的能力，当特殊问题出现的时候直接咨询专家。 Cigna公司保险精算师的知识管理问题是非常特殊的。

在这个差异的核心是知识管理的原则问题：知识应该在价值产生的地方得到管理。设计、开发、使用支持知识管理的系统必须在你的思维方式下应用，不是产业领域的，或是你的公司的那些创造价值与使用知识方式与你有差异的人的。

3. 你主张标准化管理还是定制管理？对一个公司来说，重用知识、回复已经完成的工作是不可能的，所以，成功的知识管理是建立一个包涵所有已经完成的工作记录的有效的数据库。但是对于需要创造性工作的公司，一个百科全书将是一个巨大的败笔。在普华永道，Bentley设想着Kraken将满是研究报告；他错了，由于团队成员是“创造性”的，他们的目的是“更具有创造性”。他们需要一杯咖啡，不是一个图书馆。他们的问题是新的、非结构化的，他们并不渴求答案，但是他们需要与聪明人进行交流。

对于创新型员工，知识管理的目的经常是促成专业工作团队的形成。知识管理技术的一个最大危险是它会在创新成为公司价值取向的核心时，将投资花在知识的重用上。如果没有新东西产生，那将是个浪费。

相反的，你知道新产品战略所需要的知识——任务明确、过程清晰、问题相似——这可以使用知识管理战略引导，使之定制化、自动操作，形成开发模式。即使在这种情况下，也要警惕技术问题将导致的错误。施乐公司帕洛阿尔托研究中心的John Seely Brown和Paul Duguid反对用摩尔定律解释这个问题：

“摩尔定律……错误的认为更强的功能将解决问题所在……更多信息、优化的流程、经改善的数据挖掘功能、更快的连接、更广的带宽、更强的密码系统——这是全部的答案。无需深入思考，我们只是被鼓励去加强记忆就可以了。

信息技术更适合于信息，而不是知识。它试图将知识变为类似信息的对象。 “成功之后，将出现问题，” Amrit Tiwana（《知识管理工具》的作者）说，“信息不需要被转化为知识，许多知识是隐性的，是人们头脑中固有的东西。 ”

永恒的管理话题是：技术与人、软件与硬件、理论1与理论2、理论与现实。知识管理将在争论这些问题谁是谁非的时候进入困境。对知识进行管理无疑是一件好事，重要的是管理那些对业务有用的知识——市场、客户、供应商。

Sopheon的主管Andrew Michuda提供知识管理软件，并管理一个有千余名专家和分析师的关系网络，这很好的解释了知识管理走错了方向：“知识管理被机械应用的时候必将失败。人员之间需要使用有效的技术进行丰富的交流，关注知识带动的商务应用。知识管理不仅仅是PC上孤立的一个按钮，当它与重要的商务流程结合的时候将更加有效。

你的客户希望你了解什么？智力原料——事实、知识主体、技术等——你需要哪些？这些能在文档或新闻中发现吗？客户会向你询问新想法吗？或者他们希望你的工作完美无缺吗？工作如何运转？这些问题的答案揭示了知识管理的架构和内容，如此进行知识管理将使你的公司更有见地。

知识管理六大失败案例剖析

9·11恐怖袭击事件暴露出美国有关部门在信息沟通上存在的缺陷。其实早在恐怖袭击事件发生的前几个月，联邦调查局驻明尼苏达州和凤凰城的分支机构就已经各自收集到了一些具有预兆性的相关信息。但是这两个分支机构并没有进行相关信息的沟通。如果当时他们各自的信息实现共享，提高警觉，或许能避免那场浩劫。

知识信息的封闭同样会使公司遭受重创。很多公司已经意识到知识管理的重要性，而且舍得投资，但是收效甚微。如果你审视一下公司的知识管理方法，就能发现他们在执行上存在的问题。

这里我们将列举企业实施知识管理失败的.典型案例，并进行简单分析，提出解决的思路和方法，希望能对企业知识管理的实施有所帮助。

失败原因之一：盲人摸象自说自话

失败案例：

北京一家高新技术企业的老总在EMBA的学习中接触到知识管理，认为其公司很有必要实施知识管理，于是在公司内部发起知识管理项目，并指定人力资源经理负责。而人力资源经理之前没有接触过知识管理，通过参加培训和自学，制定出知识管理实施规划，提出知识管理最重要的是共享，建议购买知识管理软件平台，让研发工程师定时提交相关的知识成果。

知识管理软件上线以后，这位人力资源经理制定了相关的制度，要求每个研发的工程师和销售人员必须每周提交多少知识文档。而研发部门经理向老总抱怨知识管理系统严重影响他们的工作，销售部门人员则是坚决不做。老总支持该人力资源经理，认为知识管理就是要共享，强制推行。

三个月后，该经理向老总汇报知识管理的工作，说知识库中有多少条记录等。但研发部门经理说那些东西他们部门的人从来不看。知识库变成了垃圾库。

半年后，该老总兴趣点转移，该公司知识管理不了了之。

案例剖析：

企业的高层领导由于直接面临着市场的竞争压力，对企业的发展都很敏感，他们大都很容易地接受知识管理的理念，并试图在自己的组织内部实施和推动。但他们的认识比较片面，没有一个全面的认知和预期。而所委托的部门经理可能对知识管理的理解也不全面、系统，各有各的想法。这导致在公司内部对知识管理根本无法形成共同的认识。

造成这种状况的原因有两个：一方面由于知识管理本身（比较新的学科、内容涉及面广、传播时间短），另一方面在于关于知识管理的传播上信息噪音比较多，人们受到误导，形成错误的认识或者以偏概全，盲人摸象，自说自话。在一个公司中，高层、中层与普通员工各有自己的知识管理认识和想法，如果不能统一这种认识形成共识，很难保证知识管理推动的持续性和有效性。

破解之道：

要解决这个问题，首先，负责推动知识管理的人和团队必须通过学习、培训、交流等形式掌握什么是知识管理，如何做知识管理，然后再在内部去影响领导和同事，最终达成一个组织内部在知识管理认识上的共识。

失败原因之二：没有规划跟着感觉走

失败案例：

某钢铁公司的知识管理项目由战略发展部的一个副部长负责，经过调研由需求最强烈的售后服务部门开始，要求售后部门的所有员工整理自己电脑上的知识，然后分门别类地存储到他们部门工作组的文档库中，共建立了12个门类，让员工去查询。

但大部分员工不知道该整理什么，哪些是知识，哪些是信息，又不知道整理好后应该放到哪个类别中，只能凭自己的感觉去添加。更重要的是，由于一些知识文件涉及到保密，这些员工也不知道该选择共享还是保密，或者共享给哪些人去使用。大部分员工都提交了一些内容，但很少有人去看，而且想看的时候也找不到或者不知道如何找。

做完这些后，售后服务的知识管理就算结束了，该副部长继续去做下一个部门的知识管理了。

案例剖析：

有不少企业在开始实施知识管理时，没有对知识管理进行规划。这致使高层领导、各部门经理和基层员工都不知道知识管理要做什么，怎么做，最后会有什么样的成果。没有规划就没有衡量效果的标准。由于没有规划，企业搞知识管理也就不知道该做什么和不该做什么，眉毛胡子一把抓，或者想起什么做什么，激情过后偃旗息鼓。

破解之道：

对于规模比较大的企业，解决这个问题的主要办法在于通过咨询顾问的协助对公司的现状进行深入调研、分析，找出存在的问题；对高层领导和各个部门进行访谈，明确知识管理实施的远期和近期目标，找到实施的方法和路径：先从哪些部门试点，然后对于不同部门如何推进，如何结合到企业的业务流程中，如何评估知识管理实施的效果等；然后制定出科学、全面的知识管理规划和实施计划，按部就班地推动。对于小规模的企业，即使不需要咨询顾问的协助，也需要制定一个知识管理规划和推动计划，只有这样才能有的放矢地去推动。

失败原因之三：没有负责人或者选错了人

失败案例：

一家大型集团型企业的知识管理实施的负责人是一个刚刚硕士毕业的小伙子。老板要做知识管理实施，发现新毕业的这位同学的硕士论文是关于知识管理的，就让该同学负责知识管理实施。

由于刚刚毕业没有工作经验，对公司本身和业务都不熟悉，小伙子要去做知识管理的调研时，根本无法设计问卷，当要去相关部门征询需求的时候，相关部门的人根本不支持。后来老板催得急，他没有办法只能建议老板先买一个软件。但由于不了解需求，老板根本不知道应该选择什么样的知识管理软件系统，所以他就建议先选择一个便宜点的，这样出了问题也少承担点责任。

案例剖析：

对于这种让人哭笑不得的安排，除了祈祷外，我们就只能盼望这个小伙子是个天才。

组织实施知识管理，必须要有专人负责。任何管理工作必须分配到人，否则他不可能自动自发地去完成。现在国内已经实施知识管理的企业中，仍然有许多没有明确的知识管理负责人。

破解之道：

选对正确的人和团队来负责知识管理。知识管理涉及到组织的各个方面，是一个需要具有高度“政治”技巧的工作，所以知识管理的负责人必须对企业了解（这个企业盈利模式是什么，是靠什么赚钱的，核心竞争力和主要资源是什么），对企业核心业务了解，最好在核心的部门中工作过，还有很重要的一点是要有影响力和鼓动性，因为知识管理的许多工作是要靠影响力而不是行政命令去推动的。

失败原因之四：被软件和咨询厂商“劫持”

失败案例：

笔者在2003年曾经参加过某个研究院知识管理案例的研讨。当时该研究院负责知识管理的某个领导介绍了他们的经验，还有许多媒体采访。这个活动是他们的软件提供厂商张罗的，双方各取所需：研究院的领导个人出名，软件厂商得利。后来了解的情况是厂商将企业内知识管理项目上的决策者、知识管理经理等“搞定”，项目还没有做就开始大肆宣传，邀请这些人出来介绍经验，在媒体上鼓吹等。

到最后，当这些人发现购买的软件根本不像当初厂商承诺的那样，甚至差得很远的时候，也没法说什么，因为自己已经四处介绍“成功”经验了，做得不好只能自作自受，打掉牙也得往肚里咽。

在2005年的时候，他们购买的知识管理软件已经不用了，也没人再提知识管理了。

案例剖析：

在知识管理实施中，许多大中型企业都会选择咨询厂商、系统提供商。有不少准备实施知识管理的企业，由于对知识管理的经验和知识极度缺乏，造成被软件和咨询厂商“忽悠”。最可怕的是，这些厂商在项目还没有开始的时候，就会帮用户大造舆论，将还没开张或者刚刚开张的项目包装为成功案例宣传，然后将负责或决策知识管理项目的人拉到自己的阵营中，“劫持”企业的知识管理人员。这样的情况下，企业即便发现咨询和系统的效果不尽如人意或者很差，也只能哑口无言。

破解之道：

解决这个问题的最根本方法是在准备请咨询机构和购买相关系统之前，必须自己先了解、理解知识管理，形成自己对知识管理的认识和观点。还有一个可采用的办法是，选择的咨询机构和软件厂商最好不是一家，这样就可以多听各方面的观点，兼听则明。

失败原因之五：额外工作和“与我无关”

失败案例：

某IT企业的知识管理，以“先有文化、再有内容、后有系统”为指引。在企业合并重组的时候，知识管理成为最容易被砍掉的业务。我们从不讳言文化对于一个企业的价值，但我们知道一种文化的建立和形成需要时间，更需要流程和制度的支撑。这个企业的知识管理之所以到最后不了了之，除了与其企业特性有关外，一个很重要的原因是知识管理没有融入企业的核心业务流程，这样的知识管理实施成为浮在水上的一层油，看起来光亮，但将油去掉后还是水。

案例剖析：

笔者曾问一家“知识管理标杆企业”的部门经理他们的知识管理状况，对方却一头雾水，说并不知道此事。不少企业的知识管理都做成孤家寡人，除了老板和知识管理部门的几个人以外，所有的员工都感觉这个东西“与我无关”，或者根本不知道有这事。

也有一些企业把知识管理做成了员工的额外工作，或者寄希望于雷锋型的员工站出来共享自己的信息和知识，或者强制要求每个部门多长时间应该奉献多少内容等。这样的结果只能是增强员工对知识管理的憎恶：在压力大的时候人们制造垃圾，在压力小的时候没有人参与。咨询顾问和销售人员在销售的时候都会告诉用户，他们会帮用户将知识管理活动与企业业务活动进行很好的结合。但由于进行知识管理分析的工作量大，耗费时间长，缺乏对企业流程和业务的深入分析，这样的知识管理与流程结合根本不可能落地。

破解之道：

有种观点是：目前在中国实施知识管理，应该有70%以上的显性知识管理融入流程和制度中，让大部分的知识管理工作成为员工工作的一部分，剩下才是激励部分。

知道知识管理需要融入流程，但关键的问题是如何融入？这就需要找到合适的方法和工具去对业务流程进行知识管理分析，明确每个流程节点上的知识产出：这个节点应该产生什么知识，这些知识是显性的还是隐性的；明确每个流程节点上的知识需求：为了完成这一步的工作，需要哪些知识，需要的知识在企业内部是否存在，是以何种形式存在，如何方便、快捷地获得。

失败原因之六：缺乏激励机制或者激励失灵

失败案例：

某房地产公司的销售部分的知识管理实施，在初期的时候规定了有经验的销售人员必须带一个徒弟，通过手把手地教来提高整个团队的销售额度和客户满意度，并对有经验的销售人员提供激励：徒弟做得好，师傅可以拿到额外的提成。从理论上说，这样的方式可以促进有经验销售人员的显性和隐性知识的传递，利于新人的成长和提高。

但同时，该销售部门的绩效考核标准是每周都要评选“业绩之星”，每个月要选出“销售冠军”，并对这些“业绩之星”和“销售冠军”进行奖励。相对于业绩之星和销售冠军的奖励，有经验的销售人员带徒弟所得到的激励微不足道，对这些人根本构不成激励。这样的结果是，整个销售部门仍然是明星员工业绩很高，而新人成长速度和空间很小。

案例剖析：

知识分为显性知识和隐性知识。显性知识可以用语言、文字等形式表达；而隐性知识则无法用语言、文字明确表达出来并被人理解。在知识密集的企业和部门中，决定企业生产率高低的主要原因取决于隐性知识的显性化、能力和扩散的速度。从隐性知识到显性知识的转化有一个过程。这个过程可能是一个月、半年甚至十年八年，而有一部分知识也许永远无法显性化。人是知识的载体，知识工作者创造和利用知识。这也就是为什么知识管理不等于管理知识的原因所在。

既然隐性知识如此重要，所以在知识管理的实施中，必须要涉及规则和方法来对隐性知识进行有效的管理。但隐性知识受制于知识工作者个人，他可以选择是否显性化（如果能显性化的话），可以选择共享给谁和是否共享。这个时候知识管理中的激励措施就显得十分重要，通过制度的设计，对于隐性知识的共享、显性化工作给予鼓励，对于私藏和不愿意共享的进行副激励，从而促进隐性知识的显性化、共享与传播。

大部分实施知识管理的企业都知道需要进行对知识管理的激励，但所设计的激励机制以某个方面看却在阻碍知识传播和分享。

破解之道：

从该案例中，我们看到企业制定了相关的激励措施。但这些措施对于需要激励的对象基本上没有价值，所以最后该部门的师傅带徒弟的方式基本就没有执行。后来我们帮他们设计的形式是“绩效之星”和“销售冠军”的评价都是按照一个师傅一个徒弟的形式进行，根据徒弟的水平设定师傅和徒弟之间的权重，根据他们两个人的绩效进行考核，并且规定徒弟如果达不到某个水平，师傅业绩再高也不能入选。加之其他辅助制度的设计，终于带来了师傅对徒弟指导得尽心、尽力，有效地促进了新员工的成长和老员工知识的分享和转移。

如何使用 Oracle Linux 中的硬件故障管理

关于硬件故障管理现代数据中心管理灵活且不断发展。它的任务是推动业务目标并保证任务关键型负载可用，包括各种硬件和软件解决方案，这些方案可能过于复杂，难以有效管理。为了控制风险和满足苛刻的服务级别承诺，各种硬件和软件特性应运而生，从而可以帮助系统管理员监视系统运行状况、及早发现问题。这些特性被称作故障管理，由多种解决方案和标准构成，旨在提供能够监视、管理、识别和解决那些困扰系统管理员的问题的工具。与数据中心最佳实践（如冗余和高可用性）相结合时，硬件故障管理特性提供强大的工具，可以提升效率、提高认识、降低风险并支持数据中心系统所担负的苛刻目标。使用 IPMI 和 ipmitoolIPMI 是一个规范，最早于 1998 年由 Intel、Dell、HP 和 NEC 共同制定。其主要目的是提供一个访问系统信息的通用命令接口。它原本是设计成与管理软件无关的；但后来却常与系统特性结合使用。 IPMI 独立于操作系统运行，这意味着您可以“带外”方式或是在操作系统启动之前访问系统。这在操作系统或系统出现故障的情况下非常有用，因为您可以使用它提供的工具在传统系统管理功能不可用时收集关键信息。 IPMI 中有一些预定义的命令和接口可用于读取温度、电压、风扇速度、电源和网络设置。而且 IPMI 规范被设计成可扩展的。因此，厂商可以自定义和创建其他的命令和传感器。例如，Oracle Integrated Lights Out Manager (Oracle ILOM) 符合 IPMI 1.5 版和 2.0 版。 HP 的 Integrated Lights-Out (iLO) 和 Dell 的 DRAC (Dell Remote Access Controller) 就是集成了 IPMI 或符合 IPMI 的方案。每个解决方案都提供了一组带外支持特性。这正是本规范的设计意图：提供通用的、跨平台的支持，同时让厂商能够定制自己的个性化解决方案的方法。在 Oracle Linux 中，使用 ipmitool 实用程序管理和配置支持 IPMI 规范的设备。从 2.4 版开始，IPMI 支持已成为 Linux 内核的一部分。 ipmitool 实用程序提供管理现场可更换部件 (FRU)、LAN 配置、传感器读取和远程机箱电源控制的功能。下一节将讨论使用 ipmitool中特性的安装和使用场景。安装第一步是在系统中安装 ipmitool。支持 IPMI 规范的系统中含有 IPMI 特性。这些系统都含有一个基板管理控制器 (BMC)，它是 IPMI 架构的智能核心。使用 OpenIPMI 和 ipmitool，您可以与 BMC 直接连接并与 IPMI 规范实现的特性交互。为了访问服务器的 IPMI 特性，本地工作站或管理计算机需要位于能访问具有 BMC 的系统的网络，且必须安装了 OpenIPMI 和 ipmitool工具。要安装这些工具，请转至服务器控制台并键入以下命令：yum install ipmitool.x86_64 OpenIPMI.x86_64然后，使用以下命令配置 ipmitool 以便在系统上使用并启动服务。启动服务后，它会加载 IPMI 内核并创建一个 /dev/ipmi0 设备。 chkconfig ipmi onservice ipmi start还可以在其他含有 BMC 的 IPMI 系统上安装 ipmitool 和 OpenIPMI 软件包，这两个软件包提供配置 IPMI 设置的选项，我们在以下示例中将看到。安装、配置并运行这些工具后，我们就可以与控制和监视系统的特性进行交互。我们来看看下面这些利用 ipmitool 和 Oracle Linux 的 IPMI 用例。远程系统访问IPMI 的一个特性是能够通过网络直接与系统相连。这个动作独立于目标系统上安装的任何操作系统，提供了一个非常有用的管理选项。它为您提供了与服务器 IPMI 接口的直接连接，让您可以远程执行 IPMI 命令。实际上，您可以使用该选项编写脚本，从而能够在一台管理计算机上控制无数台服务器。要启用此特性，必须先完成几个步骤，比如设置口令以及为 BMC 所在服务器的 IPMI 接口添加 IP 地址。需要注意的是，许多服务器都有一个单独的远程管理以太网端口。查看您的硬件文档，了解有关具体服务器远程管理的更多信息。通过网络访问 IPMI 的第一步是要为 BMC 所在的系统配置有效的 IP 地址。以下示例演示了如何使用 ipmitool 完成这一配置。（注：该示例使用 Oracle Sun Fire X4170 M2 服务器。）要使用 ipmitool 配置 IP 地址，请在服务器控制台使用以下命令：ipmitool lan set 1 ipaddr 192.168.1.120ipmitool lan set 1 netmask 255.255.255.0ipmitool lan set 1 defgw ipaddr 192.168.1.1设置完 IPMI 接口的 IP 地址之后，需要一个方法进行身份验证。在以下示例中，我们将口令改成 root 用户，从而允许使用 PASSW0rd 口令登录。注意：我们不推荐使用该方法，此处仅用来举例。我们强烈推荐使用安全口令。首先，我们需要列出用户以获得 ID 号，然后将使用该 ID 号更改口令。 [root@test1 ~]# ipmitool user list 1IDName CallinLink AuthIPMI Msg Channel Priv Limit1false falsetrue NO ACCESS2 root false falsetrue ADMINISTRATOR[root@test1 ~]# ipmitool user set password 2 PASSW0rd一旦完成这些配置步骤后，您就可以通过向服务器远程发送 chassis status IPMI 请求来测试配置结果。系统将提示您输入所连接帐户的口令。如果一切配置正确无误，机箱状态将显示在本地命令行上。在您的管理系统命令行上，键入清单 1 所示的命令：[root@mgmt-vm ~]# ipmitool -I lan -H 192.168.1.120 -U root -a chassis statusPassword:System Power : onPower Overload : falsePower Interlock: inactiveMain Power Fault : truePower Control Fault: falsePower Restore Policy : always-onLast Power Event :Chassis Intrusion: inactiveFront-Panel Lockout: inactiveDrive Fault: falseCooling/Fan Fault: false

相关标签：最大限度地减少影响、优化故障处理流程、硬件故障管理包括哪些内容、硬件故障管理最佳实践、

本文地址：http://www.hyyidc.com/article/37009.html

上一篇：服务器虚拟化配置利用虚拟化技术充分利用您...
下一篇：公众号互动与线下活动的互动线上线下联动，打...