数字化开始从抽象化、标准化走向智能化
2020 给全民普及了什么是线上化、数字化、智能化,也加速了企业的数字化转型。 “全数字化”时代,已经不仅仅是简单粗放的数据采集、映射、抽象。 数字化开始迈入高级阶段——数据驱动的智能化 :基于云管端 + AIoT 等为代表的新技术群落开始大量涌现,数智化企业思考的核心问题转向了如何以客户运营为核心,通过智能化手段提高客户全生命周期的体验。
作为物联网大数据行业的排头兵, 深圳数联天下智能 科技 有限公司 (以下简称数联天下)倾力打造的 C-Life 大数据综合计算服务平台,致力于为个人、行业、政府提供全周期、全链条、全维度、全方位的专业级运营顾问式服务。 依托着公司强大的研发投入与技术实力,数联天下在智慧养老、智慧 健康 校园、智慧美业、智慧家庭、智慧酒店、智慧农业、智慧水生态等多个智慧领域,打造了一批又一批的标杆示范项目。
企业的敏捷性、适应性、反脆弱性,决定其在这场数字化颠覆中的胜与负
在交付各个领域的智慧项目过程当中,数联天下的研发部门逐渐发现问题:研发团队面对的是一个更加不确定、个性化、碎片化的市场需求。 行业项目虽然存在着一定的通用性,但也因地制宜的存在大量定制化需求。 如何让个性化与规模化齐头并进?多变的客户需求带动了研发组织开展与业务相适应的调整。 通过研发流程数字化提升研发流程的敏捷性、适应性、反脆弱性,数联天下开启了研发提效之路 。
数联天下研发团队和我们分享道:“客户项目周期紧张,需求变化比较频繁,开发团队需要在短时间内完成软件开发并发布上线。 而在之前的研发流程当中:发布流程长,审批环节多,发布节奏缓慢,开发运维之间没有良好协作来提升发布效率。 所以亟需打破跨部门之间的壁垒,减少开发、测试、运维之间的沟通环节、沟通成本。 DevOps 是我们在较短开发周期内开发高质量软件的首选方法,希望通过使用 DevOps 平台 —— CODING 来提升客户满意度。 ”
区别于之前通过多个工具自建研发流程,数联天下团队首先基于 CODING 的持续集成、制品库、持续部署逐步提升交付带宽,再将项目管理、研发数据管理等流程统一至 CODING ,渐进式实现研发流程从需求提出到应用部署的价值交付,从而让研发团队各个角色基于统一平台通力协作,按期保质交付项目。
持续交付驱动业务加速
在使用 CODING 的过程中,数联天下研发团队遵循着循序渐进的路线。 首先基于 CODING 持续集成、制品库、持续部署建立持续交付流水线。 区别于自建 Jenkins 与 Nexus, CODING 的持续集成与制品库开箱即用 ,研发团队通过持续集成构建好的 Docker 镜像可以直接推送到 CODING 制品库中,再通过持续部署拉取指定版本镜像进行部署。
CODING 持续集成在构建脚本语法上全面兼容 Jenkins,支持数联天下无缝地迁移 Jenkins 的构建到 CODING 中。 并且支持 Docker 镜像的构建,在基础功能上满足了研发团队对构建制品的迁移需求。
在使用上,CODING 比自建 Jenkins 要方便许多,打开浏览器就可以使用,不需要繁琐的机器配置、构建环境搭建、软件插件安装。 而且 CODING 提供了多地域境内外构建节点,并优化国内访问海外主流镜像链路,支持构建任务中开启缓存,大大提升了构建速度。 在构建资源的灵活性上,既支持数联天下使用 CODING 云主机进行构建,也支持数联天下将使用中的腾讯云机器设置为构建资源。
在使用 CODING 制品库之前,数联天下团队基于开源项目自建制品库,在使用自建私服制品库常常遇到性能问题或易用性问题,比如一上传大容量的 Docker 镜像时,自建的制品库就常常服务不可用,导致后续一系列的版本发布受阻,使用 CODING 后这类问题就迎刃而解了。 CODING 制品库是专为生产环境打造的企业级制品库 ,无论是制品库的容量、分发效率都经过产品团队精心优化。 数联天下团队将所有制品推送至 CODING 制品库,利用 CODING 制品库提供的版本策略、权限控制、安全扫描等能力对制品进行了规范管理。
不仅仅是 Docker,CODING 制品库提供了十多种主流制品类型,包括 Helm、通用文件、npm、Maven、PyPI 等等,可以支持研发团队多样化制品托管需求。 同时制品库提供的精细化的权限设置,支持每个制品库设置项目内、团队内、公开的开放范围,针对多团队并行开发的场景,数联天下可以轻松地将通用组件设置为团队内开放,将项目独有的制品设置为项目内可见,既能加速公共制品在企业研发内部的共享与流动,也能确保项目独有制品的权限安全。
对于频繁进行商业交付的研发团队,安全也是商业客户关心问题之一。 CODING 制品库除了解决数联天下团队的制品托管问题,还对制品的安全质量进行了规范。 通过制品扫描设置质量红线标准,杜绝问题组件发布至生产环境,扫描方案还提供了详细扫描记录和缺陷统计,方便研发团队快速修复。 这在一定程度上提高了制品的安全性,减少了应用在生产环境出现的安全漏洞问题。
接下来就是打通持续交付的最后一环——持续部署。 通过持续部署,研发团队可以自动、频繁地将软件部署到各种生产环境,使软件产品能够快速地交付使用。
1. 清晰灵活的流程编排
数联天下运维团队首先根据测试流程、上线流程以及部署环境规划好每个应用的 部署流程 。 针对开发环境、测试环境、类生产环境、生产环境分别创建不同的流程分支。 基于 CODING 持续部署,可以快速地编排出串行或者并行的部署流程:例如针对类生产与生产环境,必须要在类生产的集成测试(自动化+人工)通过之后,才可以进入生产环境发布;而多地域的生产环境发布,就可以并行部署,提高效率。
基于 CODING 持续部署 清晰灵活的流程编排,应用所有的部署分支流程一目了然。
2. 人工审批加上自动通知机制
针对过去运维发布过程中的多环节、多审批、多等待的情况,数联天下团队根据发布流程的级别差异将测试、产品经理等角色加入审批环节,配合自动化部署过程和通知机制,解决了从前需要人工反复确认部署环节的问题;也解决了从前开发人员只能等待运维人员定时部署版本的难题,开发和运维人员都可以随时随地按需部署应用。
每个环节的通知除了支持常见的站内通知、企业微信、钉钉、Bearychat 等方式,还支持团队通过 Webhook 的方式接入企业使用的其它协作工具,满足团队的个性化通知需求。
3. 规范的制品版本规则
在项目紧张的开发周期当中,数联天下的制品构建地十分频繁,制品数量也在急剧增长,其中包含了开发自测的 snapshot 版本和正式转测的版本。 如何确保测试环境、生产环境等能够始终选择主干发布的稳定版本,避免因为手误选到开发自测版本?通过在持续部署中的制品分支策略制定所选制品的规则,杜绝以往人工选择临时分支版本导致的错误情况。
4. 统一的部署控制台
在数联天下团队的日常应用部署管理过程当中,CODING 持续部署提供了以应用为视角的控制台。 运维人员可以对所有应用的配置信息、基础设施、资源分配、部署流程进行全面管理,无需在各个项目视图之中来回切换。 这对于需要面对繁多项目的数联天下研发团队来说, 统一的部署控制台面板,大大提升了应用部署管理效率。
在应用部署完成后,就可以在 Kubernetes 集群面板中方便地检查部署好的资源,包括集群内资源的工作负载情况。 一气呵成的部署操作帮助运维或者开发人员一站式完成部署资源准备、部署流程编排、应用部署、部署后的检查工作。
紧接着研发团队将代码管理、项目管理迁移至 CODING 的代码托管、项目协同中。 告别了过去的 SVN 代码管理,基于 CODING 代码托管进行 Git 式开发,基于代码扫描与 Code Review 建立研发质量的基线。 切换到项目协同进行项目管理后, 真正打通了从需求->代码->制品->应用的全部链路 ,数联天下研发团队基于统一云平台真正实现端到端的价值交付。 和以前基于多个工具自建研发平台的方式对比,统一研发管理平台带来的好处有:
基于 CODING 的 DevOps 实践,数联天下的交付带宽达到了较大提升。 DevOps 实践给数联天下的研发团队带来的不仅仅是流程上、工具上的改变,也进一步加深了团队的业务共识。 所有角色都坐在了一起:测试、运维、开发、产品、项目管理等,研究如何基于统一平台通力协作,按期保质地交付项目,服务好客户。
数据已经成为生产的要素之一
研发数字化不仅仅是自动化流程的搭建,更重要的是在数字化落地过程当中,如何将有机串联的研发环节发挥出 1 + 1 > 2 的效果?如何让研发数据服务于研发?
目前数联天下的研发团队已经将研发全流程切换到 CODING,慢慢积累的研发数据也给研发管理带来了新的指引。 通过效能度量,可以清晰分析成员工作负载;通过仪表盘可以清晰看到代码提交数、事项完成数、构建次数、发布次数等等多个维度的数据展示。 这些数据也将支撑着研发团队快速地调整和检视以适应更加多变的未来。
数联天下研发团队负责人告诉我们:“最开始选择 CODING,因为 CODING 持续集成全面兼容 Jenkins 的持续集成服务,支持 Java、Python、 等所有主流语言,并且支持 Docker 镜像的构建。 这与公司现有的发布方式,架构体系相吻合。 在使用了一段时间后,不仅仅是持续集成,包括 CODING 制品库、持续部署在内的 DevOps 工具给我们的研发流程带来不少提升,也期待 CODING 能够在研发工具链上给我们带来更多惊喜。 ”
在全面了解数联天下的 DevOps 实施路径之后,我们也发现企业的研发变革不是一蹴而就的,需要从流程上环环打通, 选择一个迁移成本低、使用门槛低、功能灵活的一站式研发管理工具,能够让变革事半功倍。
我们欣喜地看到,数联天下一直走在提升内部效率的道路上,这家志在提升各行业数智化水平的企业全然拥抱了研发数字化,我们期待 C-Life 凭借着变革初心与极速交付能力,逐步成为智慧生活的强有力支撑平台。 在这场数字化颠覆中,CODING 也会坚定地与研发团队站在一起,依托 DevOps、云原生、敏捷等研发利器,帮助各行各业改进、提升并创新。
分析和思考对网易轻舟云原生软件平台,其定位为网易数字经济的创新载体和技术孵化器,依托集团技术积累,提供数据智能、软件研发等基础软件,帮助企业实现数字化转型。 轻舟平台从服务内部产品出发,逐步发展为协助传统企业数字化转型的云原生解决方案平台。 平台覆盖开发、构建、发布、运维等环节,采用容器云、微服务、DevOps、中间件等技术。 平台整体架构全面,包括容器云平台、微服务平台、DevOps、中间件等,微服务平台涵盖微服务框架、应用监控、API网关等。 与自我规划的云原生解决方案对比,轻舟平台在API网关与OpenAPI能力开放平台方面有所强化。 通过对比轻舟平台,重新构画云原生架构图,增加技术服务中台,体现软件全生命周期管理能力。 底层技术平台为容器云,上层采用微服务架构,DevOps支撑平台承上启下。 平台核心逻辑更加清晰。 轻舟微服务平台支持Spring Cloud、Dubbo等框架,提供服务管理、分布式事务处理等功能,适用于快速构建微服务解决方案。 微服务框架NSF支持微服务框架统一管控,满足企业不同阶段需求。 API网关提供服务开放、统一认证鉴权、协议转换等功能,支持企业内部和外部系统服务互通。 平台关键功能包括服务注入接入、安全、流控、API生命周期管理,以及数据映射和协议转换能力。 全链路应用监控APM提供链路追踪、应用性能监控等功能,帮助定位性能瓶颈,进行依赖梳理和容量评估。 分布式事务服务GTXS支持低成本框架托管式事务,兼容多种数据源。 轻舟日志服务提供日志全生命周期管理,包括采集、清洗、存储、检索等功能,辅助开发测试及排障工作。 轻舟中间件基于Kubernetes构建,提供数据库、缓存等高性能、低成本的分布式中间件服务。 轻舟混合云平台包括容器云和DevOps平台,容器云平台提供多租户管理、网络及存储方案,支持与基础设施整合。 DevOps平台集网易DevOps实践与业界前沿理念,提供可视化的持续交付流程。 轻舟低代码开发平台面向微服务架构设计,提供接口设计的可视化搭建能力,快速开发企业应用。 平台基于模型驱动设计,通过可视化工具简化开发流程,提高效率和质量。 总结,轻舟云原生平台解决方案全面覆盖软件开发生命周期,具备微服务、DevOps和容器云关键能力。 平台优点在于基于内部实践,适应企业微服务架构转型,整体架构符合云原生架构特点。 不足之处在于实践案例较少,技术组件开放性有限,DevOps能力有待加强,数据库服务方案应用相对有限。
在面向5G的核心网络演进中,电信设备从传统设备向虚拟化、云化演进,软硬件架构发生了很大的变化。 电信业不仅引入了很多IT的软件架构,还引入了新的思维和方法。 在这样的挑战背景下,中兴通讯将自动化、智能化引入5G核心网运维,实现方案架构、运维技术、运维方式等方面的创新变革,有力推动了5G云核心网部署和运维的智能化变革。 自动化一键部署解决客户网络部署痛点 与2G、3G、4G并存,5G大规模的商用网络部署,在现有人力情况和网络形势下,为了降低部署难度,提升交付效率,端到端、自动化的核心网络交付解决方案成为迫切之需。 为了有效解决客户在虚拟化网络交付部署中的痛点,中兴通讯提供NFV AIC(Auto Integration Center)自动化集成工具平台,能全面满足运营商这一需求。 通过整合和固化NFV集成流程,AIC工具平台实现了5G核心网虚拟化建设的规划设计、网络部署和验收测试的自动化,大幅缩短网络建设时间,并通过友好的用户交互界面在网络集成全生命周期中实现工具功能与客户需求之间的“零距离”。 AIC工具平台能提供虚拟化核心网建设从规划设计、方案验证、网络部署、到集成测试等环节端到端、一站式的工具支持,实现了NFVI、MANO、VNF等各种场景的自动化集成,大幅度降低网络建设的集成难度,提高效率,保障质量,降低集成成本,加速运营商NFV网络建设,助力客户实现网络快速转型。 通过AIC工具的应用,运营商能自动化完成虚拟化网络规划、部署和测试,极大提升NFV网络集成效率和质量,真正做到了以简驭繁,实现了NFV交付部署模式的革新。 智能化快速定位解决网络运维难题 改变传统设备“三板斧”的固有维护模式,网络运维迫切需要自动化和智能化的技术支撑,真正发挥虚拟化特性的作用,将人从繁重的运维工作中解放出来,实现问题的快速定位,解决系统出现的各种问题。 完成网络交付并正式运营后,遇到问题或业务故障,如何快速定界定位?中兴通讯提供了相应的思路和解决方案。 首先,部署智能监控,当软件自动化发现系统运行异常,自动触发下一步对异常的分析,从而定位出系统异常根源,快速修复故障。 智能监控有直接方式和间接方式,直接方式下,对环境、硬件(计算、存储、网络)、Cloud OS等关键设施进行指标监控,一旦出现异常数据,进行直接的故障告警、定位。 间接方式下,对5G业务关键KPI进行监控和多维度的对比分析,通过分析发现KPI异常判断故障是否发生,从而触发故障进一步关联分析定位,多维度的对比分析可以从几个方面进行。 其次,引入自动化运维手段,通过纵向关联和横向关联两个维度进行故障根源分析,即在监控系统发现系统异常后,触发纵向分层告警、分层日志关联分析,横向关联NF内微服务间,NF-NF间进行关联分析。 在纵向架构上,网络结构包括物理层、虚拟层、业务层三个层次,当底层出现故障时,将影响上层业务,纵向关联关键识别出根故障的根源是在哪个层次PIM层、VIM层还是VNF业务本身。 在水平层次上,VNF内部的微服务间存在业务流程关联,存在相互影响的关系,微服务间横向关联用作发现出问题根本原因的微服务,横向关联关键是把一个网元的故障和另一个业务相关网元的故障关联起来,把一个微服的故障和真正出问题的微服务关联,在应用层这同一层次识别出真正出问题的微服务或组件。 自动化运维的关键技术,除了故障监控和故障根源分层关联分析,故障自愈能力、全局透视、跨域全方位数据采集能力、全网网络拓扑管理、一键自动化测试、一键自动化业务部署等,都是智能运维应具备的成熟商用能力。 网络切片实现网络运营的增值服务 网络运营催生出网络切片技术的诞生,使得各行各业依托5G网络创造出更多应用,让自动驾驶、工业控制、智能电网、大视频、AR/VR等丰富的垂直行业应用普及到我们的日常生活。 超大带宽、超低延时及海量连接场景在不久的将来将无处不在,这既是5G核心网络运营的重大挑战,也是5G核心网络走向繁荣的重要机遇。 5G核心网络本质上是一个虚拟化网络,它具备虚拟化的所有特性。 网络切片就是一个重要特性,通过对网络资源灵活分配,能力灵活组合,基于一张物理网络虚拟出网络特性不同的逻辑子网,以满足不同场景的定制化需求。 网络切片运维,实质上就是提供切片实例的全生命周期管理,包含设计、开通、SLA保障、终结等阶段。 网络切片带来极大灵活性的同时,也增大了运维管理复杂度。 基于人工智能来增强切片自动化管理能力是必然趋势。 在切片管理系统中引入人工智能,根据AI训练平台输出决策依据,自动化执行管理策略,赋予网络智能感知、建模、开通、分析判断、预测等方面的能力,实现切片灵活性和管理复杂度之间的完美平衡。 通过智能化切片开通、切片智能SLA保障、切片智能闭环运维端到端实现切片的交付维护。 可以预见, AI与5G切片网络的结合将产生耀眼的火花,推动网络高速发展和演进。 面对多样化的垂直行业应用,构建以云原生/SBA/AI为技术基石,集灵活、敏捷、智能、开放为一体的5G核心网迫在眉睫。 作为数字经济筑路者,中兴通讯基于OpenStack开源技术的云平台产品、核心网业务和硬件基础设施的三层解耦等给电信应用带来了很多便利的同时,也给网络建设、运维甚至运营方式都产生了较大的影响,促使着网络交付、运维及网络运营的智能化变革,同时为5G赋能万业提供了强劲动力。
本文地址:http://www.hyyidc.com/article/37562.html