AI-见证-以太网替换机和液冷技术-高速光模块-的改革时辰

文章编号：32613 / 分类：互联网资讯 / 更新时间：2024-11-16 21:22:54 / 浏览：次

英伟达GTC 2024大会颁布了GB200芯片及配套架构，经过优化 GPU互联带宽、驳回高性能光模块和替换机，并部署液冷技术，推进AI计算效劳与数据中心能效更新。

在英伟达 GTC 2024 大会上，黄仁勋宣布“见证 AI 的改革亮袭时辰”演讲，并推出了GB200芯片及关系架构，经过大幅优化GPU间的互联带宽并驳回1.6T光模块。

同时颁布世界首批端到端800G吞吐量的InfiniBand和以太网替换机，以及驳回液冷技术的主机处置打算，全方位推进AI计算性能改造和数据中心能效优化。

1 高速光模块在GTC 大会上，英伟达揭晓了新一代 GB200 芯片，业界正亲密关注这款芯片如何重塑光模块市场需求格式。

在去年五月末的 COMPUTEX 展会上，英伟达首度地下其 GH200 芯片。

经预算，在由256颗GH200构建的集群性能中，所需的800G光模块数量高达2304个，平均每颗芯片装备的光模块比例到达了绝后的1:9。

本次颁布会上锋芒毕露的GB200雷同秉持了这一设计理念，依据黄仁勋在演讲中的披露，单个GPU之间的双向通讯带宽曾经由先前的900GB/s跃升至1800GB/s。

而在集群性能上，一个规范机柜能装载下限为72颗BlackwellGPU，借助新一代NVLink5替换技术，可以成功多达576颗GPU的互联；并且经过InfiniBand或以太网替换机，集群规模还可进一步扩容至上万个GPU节点。

该打算在单台机架中性能了 36 颗 GRACE CPU 和 72 颗 Blackwell GPU，经过铜缆的打算将该 72 颗 Blackwell GPU 启动互联，这一点与 GH200 打算相似，即：第一层网络无需光模块互联。

正如黄仁勋主题演讲所提醒，在GB200的单机柜性能中，得益于全新一代NVLink Switch芯片的允许，GB200能够组建一个由576颗Blackwell GPU导致的计算集群，清楚逾越了前代GH200所允许的最大256颗GPU集群规模。

就互联带宽而言，集群内的每一颗Blackwell GPU都能成功双向1800GB/s的高速传输，相较于GH200，带宽性能整整翻了一番，这也象征着对应的光模块需承载的带宽加倍，从而催生了对1.6T光模块的需求。

上方咱们参照上述逻辑启动预算：据此推算得出，在GB200芯片与1.6T光模块之间，它们的现实经常使用比例雷同是576：5184=1：9，即单个芯片数与光模块的比例为1：9。

2 以太网替换机英伟达浩荡推出了Quantum-X800 InfiniBand系列与Spectrum-X800以太网替换机产品袭则，成为世界率先成功全程800GB/s数据传输速率的网络处置打算，携手英伟达的配套软件套件，能够有力地促成各种类型数据中心内人工默认义务、云端运算、大数据处置以及高性能计算运行的口头效率，此翻新雷同实用于基于Blackwell架构早先构建的数据中心环境。

英伟达 Quantum-X800 和 Spectrum-X800 替换机两者的早期运行客户有微软Azure、甲骨文云基础设备和 CoreWeave。

其中 Quantum-X800 相比上一代，经常使用 SHARPv4下的带宽容量提高 5 倍、网络计算才干参与 9 倍至 14.4TFlops。

Spectrum-X800 优化网络性能，转为多租户环境设计，可确保每个租户的 AI 上班负载的性能隔离，以坚持最佳且分歧的性能水平，从而提高客户满意度和服务品质。

在国际，新华三与华为两大企业紧随替换机技术更新的步调，相继推出了自家的800G数据中心替换机产品。

如新华三在NAVIGATE领航者峰会上世界首度推出了旗下51.2Tbps速率的800G CPO硅光数据中心替换机系列产品——H3C S9827系列。

图：新华三世界首发 800G CPO 硅光数据中心替换机这款产品内置的单芯片传输速率高达51.2T级别，允许64个800G的端口。

在保障高吞吐性能的同时，借由CPO硅光技术拍键棚的长处，进一步将单端口传输提前降落了20%，这一改良象征着在雷同的期间周期内，AIGC集群外部GPU之间的数据替换才干可以获取25%的增长，清楚优化了GPU的全体计算效劳。

一样，华为在 2023 年 6 月第 31 届中国国际消息通讯展中颁布首款 800GE 数据中心外围替换机——CloudEngine -X 系列：图：华为首发 CloudEngine -X 800GE 数据中心替换机华为宣称其CloudEngine -X允许 288 个 800GE 端口，具有3.5 微秒跨板转发时延，全体TCO可降落 36%。

3 液冷技术在英伟达 GB200 的打算中，其机架具有 2 英里长的 NVLink 布线，共 5000 根电缆，预算其功耗将达 20KW及以上。

因此，主机亟需更高效的散热模式。

为了让这些计算极速运转，英伟达将驳回液冷的设计打算，冷却液输入/输入水温区分为 25℃/45℃。

除了英伟达，AI 主机厂商超微电脑估量将在24Q2内扩产液冷机架。

GB200 NVL72 液冷机架示用意同时，国际产业链也在协同推进液冷技术的开展。

三大经营商在去年 6 月颁布了《电信经营商液冷技术白皮书》，并提出 25 年及以后液冷在 50%以上名目规模运行的愿景。

电信经营商液冷技术布局

浪潮消息ai主机怎样样

浪潮消息是中国上游的云计算、大数据和人工默认等技术服务提供商，其推出的AI服务罩启器体现优秀，具有以下特点：1. 高性能：浪潮消息AI主机装备了英特尔的Xeon Scalable处置器和NVIDIA的GPU，具有弱小的计算才干，能够允许深度学习、人工默认等高性能计算义务。

2. 高牢靠性：浪潮消息AI主机驳回了牢靠性高的配件和软件性能，如双路电源、热插拔硬盘、冗余风扇等，保障了主机的稳固牢靠运转。

3. 高密度：浪潮消息AI主机驳回了高密度设计，能够在有限的困判机柜空间内允许大规模的计算义务，提高了数据中心的资源应用率。

4. 易治理：浪潮消息AI主机装备了默认化的治理系统，可成功远程治理、监控、保养等功汪闷改能，使主机的治理愈加方便高效。

总的来说，浪潮消息AI主机体现出了优秀的性能和牢靠性，并且具有高密度和易治理等特点，十分适宜用于人工默认、深度学习等高性能计算场景。