服务器硬件是设计用于处理大量计算和存储任务的计算机系统。它们通常具有以下关键特征:
服务器硬件行业有许多标准,其中包括:
通过遵循最佳实践和行业标准,组织可以优化服务器硬件的性能、可靠性和安全性的性能。这些措施有助于确保服务器硬件能够满足不断增长的工作负载需求,同时最大限度地减少停机时间和数据丢失的风险。
互联网时代的网络自动化运维
互联网上有两大主要元素内容和眼球,内容是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,眼球则是借指海量的互联网用户。 互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的眼球笑帆袜在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。 为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块轿凳间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。 因此随着业务的增长,运维部门也显得愈发重要。 他们经过这些年的积累,逐步形成了高效的运维体系。 本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。
一、运维的三个阶段
● 第一个阶段:人人皆运维
在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。 研发人员拥有服务器权限,自己维护和管理线上代码及业务。
● 第二个阶段:纵向自动化
随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演救火队员,收告警,有运维规范,但运维主要还是为研发提供后置服务。
这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。
具体表现为:各产品线有自己编写的脚本,利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。
● 第三阶段:一切皆自动
在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。 在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。
与此同时,运维系统需要足够地完善、高效、流程化。 谷歌、腾讯、网络和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。 并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。
图1.大型互联网公司IT基础设施情况概览
二、BAT(网络、阿里、腾讯)运维系统的分析
国内的互联网公司网络、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。
1.腾讯运维:基于ITIL的运维服务管理
预计到2015年腾讯在全国将拥有60万台服务器。 随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作碰激。 在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。 整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。
图2.腾讯基于ITIL的运维服务管理
2.阿里运维系统:基于CMDB的基础设施管理+逻辑分层建模
CMDB(Configuration Management highlight=true>数据类型之间的因果关系提供保障。 同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。 可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。 在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。
3.网络自动化运维:部署+监控+业务系统+关联关系
网络主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。 网络的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。 万台并不等于百台*100;机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。
图3.网络自动化运维技术框架
网络的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重关联关系的联动。 所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。
关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。 在这样的一套系统中,自动化监控系统非常重要。 网络的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。
图4.网络自动化技术监控框架
其实无论是BAT等互联网企业还是其他行业的企业,在IT建设中都会遵循IT基础架构库(ITIL)或ISO服务管理的最佳实践,采用自动化IT管理解决方案以实现重要的业务目标,如减少服务中断、降低运营成本、提高IT效率等等。 随着ISO、ITIL v3.0的发布和推广,两者已经成为事实上的某种标准。 在当今企业IT管理领域,对两个标准有着很迫切的需求。 特别是ISO的认证要求,已经成为企业越来越普遍的需求 。 ITIL v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,相关方案往往覆盖了多个领域和多个产品,规划实施和工具的选择会比较纠结。 如果选择开源的工具,从CMDB开始就会遇到很多的开发工作,对于很多注重成本收益比的企业,可以参考,但由于无法保证性能与效果并不一定适用。 因此,成熟的商业方案会是更好的选择。
最新的iMC V7版本,围绕资源、用户、业务三个维度进行创新,发布了SOM服务运维管理(基于ISO、ITIL标准)等组件,增加了对服务器的管理,能很好的满足更多互联网化的场景需求。
通常认为,一个高效、好用的配置管理数据库一般需要满足6条重要标准,即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。 企业IT基础架构的元素类型、管理数据的类型往往有较多种,如网络设备、服务器、虚拟机等,因此对于多种信息的存储需要有合适的联合的方法。 虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足,但是随着服务器虚拟化技术的发展,虚拟机正越来越多的成为IT基础架构的一大元素。 因此,针对这一需求华三通信基于CAS CVM虚拟化管理系统,对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。 与BAT不同,华三通信的网管软件面向全行业,目前虽然没有对域名管理等特殊资源的管理,但是能够通过API接口等方式与特有系统进行联动,进而满足定制化运维的需求,尤其是在互联网化的场景中,针对不同的业务需求,可以实现很多定制化的对接需求,例如,iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接,打通了iMC工具与用户自有运维平台,很好的实现了架构融和。 另外,与阿里的逻辑分层建模相似,H3C iMC+CAS软件体系在上层也做了很多的逻辑抽象、分层,形成了诸多的模块,也即是大家看到的各种组件。
三、网络自动化运维体系
哪怕是一个只有基础技术能力的陌生人,也能做专业的IT运维;哪怕是一个只有初中学历的运维人员,也能够带队完成中小型机房节点的建设,并负责数百至上千台服务器的维护管理工作--这是一些公司对自己IT运行维护水平的一个整体评价。 看似有些夸大的嫌疑,但实际上依托于强大的IT运维系统,国内已经有不少互联网公司能够达到或者接近这一标准。
这些企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的救火队式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。 运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。 按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。
总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。 具体可以细化为规划、建设、管理、监控、运维五个方面。
1.规划模型化
为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取。
标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。
模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。
图5.常见互联网IDC架构
2.建设自动化
互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。 在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。 例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。
要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。
批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。
自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。
图6.批量配置与自动化上线
○ Autoconfig与TR069的主要有三个区别:
○ Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。
○ Autoconfig使用DHCP与TFTP--简单,TR069零配置使用DHCP与HTTP--复杂,需要专门的ACS服务器。
安全性:TR069更安全,可以基于HTTPS/SSL。
而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能,通过TR-069协议对CPE设备进行远程管理,BIMS具有零配置的能力和优势,有灵活的组网能力,可管理DHCP设备和NAT后的私网设备。 BIMS的工作流程如图7所示。
图7.H3C iMC BIMS工作流程
3.管理智能化
对于网管团队而言,需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。 早期的网管工具,往往离不开命令行操作,且对于批量处理的操作支持性并不好,如网络设备的MIB库相比新的智能化技术Netconf,好比C和C++,显得笨拙许多。 因此使用的角度考虑,图形化、智能化的管理工具,往往是比较受欢迎。
智能化:使用新技术,提升传统MIB式管理方式的处理效率,引入嵌入式自动化架构,实现智能终端APP化管理(如图8所示)。
图8.消息、事件处理智能化
● Netconf技术
目前网络管理协议主要是SNMP和Netconf。 SNMP采用UDP,实现简单,技术成熟,但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。 Netconf采用XML作为配置数据和协议消息内容的数据编码方式,采用基于TCP的SSHv2进行传送,以RPC方式实现操作和控制。 XML可以表达复杂、具有内在逻辑、模型化的管理对象,如端口、协议、业务以及之间的关系等,提高了操作效率和对象标准化;采用SSHv2传送方式,可靠性、安全性、交互性较好。 二者主要对比差异如表1所示。
表1 网管技术的对比
● EAA嵌入式自动化架构
EAA自动化架构的执行包括如下三个步骤。
○ 定义感兴趣的事件源,事件源是系统中的软件或者硬件模块,如:特定的命令、日志、TRAP告警等。
○ 定义EAA监控策略,比如保存设备配置、主备切换、重启进程等。
○ 当监控到定义的事件源发生后,触发执行EAA监控策略。
4.监控平台化
利用基本监控工具如Show、Display、SNMP、Syslog等,制作平台化监控集成环境,实现全方位监控(如图所示)。
;为了确保全球亿万用户的无缝体验,Google 设立了一支专业团队——Site Reliability Engineers (SRE),他们负责维护各项后端服务的稳定性。 业界经常引用 Google SRE 的高效实践,质疑其他公司是否也能达到 Google 的标准。 资深 SRE Chris Jones 等人合著的《Google SRE: How Google runs production systems》(简称《Google SRE》)首次揭示了 Google 的生产环境管理秘籍。 前 Google SRE 孙宇聪先生,如今 的 CTO,担任了该书的译者,使蠢枣全球互联网行业能够深入了解 Google SRE 的实际操作和最佳实践。 书中详细阐述了 Google SRE 的核心内容,包括如何平衡可用性和成本、制定服务的 Service Level Objectives (SLO)、减少运营工作、分布式系统监控、自动化平台的演进,以及 SRE 在软件发布中的角色。 这本书不仅是运维领域的宝贵指南,它揭示了 Google 生产环境的运作机制。 Google 的数据中心采用自主设计,拥有统一的硬件配置,但也有灵活性,允许不同迭代的硬件共存。 硬件服务器上运行的软件服务器并非专属,而是通过集群管理系统Borg进行资源分配。 Borg 管理任务执行,包括无限运行的服务器和批量任务,如 MapReduce,通过监控和自动重启实例来确保服务的连续性。 书中还介绍了 Google 数据中心的网络架构,使用 SDN 技术的全球骨干网络B4,提供大量带宽并优化连接。 数据中心内的服务器通过 Jupiter 交换机快速通信,而存储系统则采用集群模型,提供可靠持久的存储服务。 网络简旅控制器负责带宽管理和路由计算,减少硬件故障对业务的影响。 此外,书中还涵盖了锁服务 Chubby、监控报警系统、软件基础设施设计、研发环境的高效使用以及一个实例化的莎士比亚搜索服务,展示了整个服务从用户请求到结果返回的流程。 Google 通过严格的测试、灰度发布和故障应对策略,确保了其服务的高可用性。 《Google SRE》拦档凳中文版已在亚马逊和Coding商城上架,译文版权属于译者,商业使用需获得许可。 欲了解更多,可关注译者孙宇聪的其他文章,如“来自Google的高可用架构理念与实践”等。
7月25日,天翼云在“2023可信云大会”上荣获多项可信云认证及“最佳实践”奖项。 天翼云与主办单位中国信息通信研究院及央国企产业生态合作伙伴共同启动“央国企高质量用云创新赋能计划”,展开多维度探索,如标准规范、生态建设、产业赋能、互联合作与委托验收。 双方还共同启动了《央国企用云白皮书》研究工作,聚焦央国企用云现状,探索深度用云技术路径,为更多央国企转型提供参考。 天翼云科技有限公司副总经理兼首席技术官广小明在大会主论坛上发表演讲,与业界伙伴共同构建互联互通的算网云时代,推动算力产业繁荣。 天翼云坚持科技创新,打造云计算原创技术策源地,攻克关键核心技术,推出智能计算平台“云骁”、算力分发网络平台“息壤”、数据要素服务平台“灵泽”、云原生安全平台“红盾”等系列创新平台。 自研TeleCloudOS4.0全面商用,自研云服务器操作系统CTyunOS、自研紫金DPU以及云原生数据库TeleDB,性能与可靠性达到国内先进水平。 在算力布局方面,天翼云在中国电信“云网融合”战略指导下,构建“2+4+31+X+O”算力体系,为各类用户提供高速泛在算力,满足千行百业多元化业务场景需求。 天仔迹翼云积极落实“双碳”战略,推动数字化、绿色化协同,打造迅御高质量绿色低碳产品体系,涵盖青海零碳数据中心、天翼零碳云、绿色云电脑与边缘云终端iBox、iStack等,为客户带来更高环境价值产品服务,倡导绿色消费与低碳生活。 天翼云持续加强生态建设,与硬件、基础软件与应用软件伙伴合作,推动“一云多芯”发展路径,深化国产化布局。 目前,已与伙伴完成2000多项互认证,共建安全可信算云生态。 亩戚岩天翼云已深入千行百业数字化转型,打造200多个细分场景解决方案,为335万家企业提供上云用云服务,覆盖政府、金融、工业制造、医疗、教育等重点行业,承载20多个省级政务云,参与1000多个智慧城市项目,促进算力普惠。 作为算力时代新生产力,天翼云将持续创新算力供给模式,构建开放生态,与业界伙伴共筑算网云时代,共享算力,共建繁荣。
本文地址:http://www.hyyidc.com/article/34445.html