探秘英伟达 NVLink 技术:架构、演进与应用
在前段时间介绍超节点时,众多读者对 NVLINK 的细节表现出浓厚兴趣。今天,我们就专门来深入探讨一下 NVLink 技术。
NVLink 的诞生背景
上世纪 80 - 90 年代,计算机技术迈入高速发展阶段,逐步形成了以英特尔和微软为代表的 “Wintel” 软硬件体系。在硬件方面,基本围绕英特尔的 x86 CPU 构建。为了实现计算机内部更高效的数据传输,英特尔牵头设计了 PCIe 总线。对于熟悉电脑的人来说,PCIe 并不陌生,我们常见的显卡,以及早期的网卡和声卡等,都是通过插在计算机主板的 PCIe 插槽上工作的。
然而,随着时间的推移,计算机 CPU、内存、显卡的性能不断提升,相互之间传输的数据量急剧增加,PCIe 的局限性逐渐显现出来(尽管该技术也在持续迭代),其传输速率和时延已难以满足需求。其中,显卡(GPU)的通信需求表现得尤为突出。
本世纪初,游戏产业蓬勃发展,显卡的升级换代速度极快。为了获得更流畅的游戏体验,甚至出现了同时安装 2 块显卡的情况。AMD(2006 年收购了 ATI)将这种多显卡技术命名为 Crossfire(交火),而英伟达则将其称为 SLI(Scalable Link Interface,可升级连接界面,也叫 “速力”,于 2007 年推出)。
除了个人消费领域,科研领域对显卡性能的需求也在不断攀升。科学家们使用显卡主要用于 3D 建模以及执行一些超算任务。英伟达在不断提升显卡性能的过程中,发现 PCIe 协议严重制约了显卡的对外数据传输能力。于是,他们萌生了自创一套体系来取代 PCIe 协议的想法。
2014 年,英伟达基于 SLI 技术,成功推出了用于 GPU 高速互连的新协议 ——NVLink(Nvidia Link)。英伟达 NVLink 技术的早期合作伙伴选择了 IBM。这是因为 PCIe 由英特尔牵头开发,英特尔对 NVLink 的积极性不高;而 AMD 是英伟达的竞争对手,合作不太合适。当时,IBM 在超算领域处于巨头地位,且在技术参数上与英伟达高度匹配,所以双方达成了合作。
英伟达在发布NVLink时指出:
GPU显存的速度快但容量小,CPU内存的速度慢但容量大。因为内存系统的差异,加速的计算应用一般先把数据从网络或磁盘移至CPU内存,然后再复制到GPU显存,数据才可以被GPU处理。
在NVLink技术出现之前,GPU需要通过PCIe接口连接至CPU,但PCIe接口太落后,限制了GPU存取CPU系统内存的能力,对比CPU内存系统要慢4-5倍。
有了NVLink之后,NVLink接口可以和一般CPU内存系统的带宽相匹配,让GPU以全带宽的速度存取CPU内存,解决了CPU和GPU之间的互联带宽问题,从而大幅提升系统性能。
IBM POWER CPU的带宽高于x86 CPU,PCIe瓶颈效应更为明显,所以,他们才非常积极想要和英伟达合作。
在 GTC2014 上,英伟达 CEO 黄仁勋对 NVLink 赞誉有加。他表示:“NVLink 让 GPU 与 CPU 之间共享数据的速度快了 5 - 12 倍。这不仅是全球首例高速 GPU 互联技术,也为百亿亿次级计算铺平了道路。”2014 年年底,美国能源部宣布由 IBM 和英伟达共同建造两台新的旗舰超级计算机,分别是橡树岭国家实验室的 Summit 系统和劳伦斯利弗莫尔国家实验室的 Sierra 系统,这一消息引发了行业的广泛关注。而 NVLink 正是其中的关键技术,用于 IBM POWER9 CPU 与英伟达 GPGPU(基于 Volta 架构)的连接。根据官方数据,建成的超级计算机算力高达 100Pflops。
除了超算领域,在智算领域,NVLink 也迎来了发展机遇。2012 年,AI 领域的大佬杰弗里・辛顿带着两个徒弟研发出深度卷积神经网络 AlexNet,并赢得了 ImageNet 图像识别大赛,这一成果彻底点燃了用 GPU 进行 AI 计算的热潮,为 NVLink 等技术打开了新的应用大门。在超算和智算双重浪潮的推动下,英伟达的 GPU、NVLink、CUDA 等技术开始全面崛起。
NVLink 的技术演进
NVLink 凭借其更高的速率、更低的时延,在各方面性能上明显优于 PCle。下面,我们详细了解一下它的连接方式。
英伟达在 GTC2014 上发布了 NVLink 的首个版本 ——NVLink 1.0。2016 年(GTC2016)发布的 P100 芯片搭载了 NVLink 1.0 技术。NVLink 是一种基于高速差分信号线的串行通信技术。每块 P100 GPU 集成了 4 条 NVLink 1.0 链路,每条 NVLink 1.0 链路由 8 对差分线(8 个通道)组成。
每对差分线(每个通道)的双向带宽为 5GB/s,因此每条 NVLink 1.0 链路的双向带宽可达 40GB/s。这样一来,每块 P100 GPU 的总双向带宽高达 160GB/s,是 PCIe3 x16(总带宽大约 32GB/s)的五倍。此外,NVLink 还支持内存一致性和直接内存访问(DMA),进一步提高了数据传输效率和计算性能。
迄今为止,英伟达陆续推出了NVLink 1.0~5.0,参数我就不一一介绍了,可以看下面的表格:
下面,我们来看看其拓扑结构。最简单的两张卡直接互连方式是杠铃拓扑(barbell topology),双 PCIe GPU 之间可通过 NVLink Bridge 设备实现。
四张 GPU 卡可采用十字交叉方形拓扑(crisscrossed square topology),这是一种 Full Mesh 的网状交叉互联结构。
对于 8 张 GPU 卡,情况相对复杂。在 HGX - 1 系统中实现了一种 “hybrid cube mesh” 8 GPU 互联结构。如下图所示:
每一块GPU都巧妙利用了其6条NVLink,与其他4块GPU相连。8块GPU以有限的NVLink数量,实现了整体系统的最佳性能。这个图看上去有点奇怪。实际上,如果把它以立体的方式呈现,就很清晰了:
就是串联的架构。当时英伟达发布的超级计算机DGX-1,就是采用了上面这个架构。
2016 年,英伟达 CEO 黄仁勋向刚刚成立的 OpenAI 公司赠送了世界上第一台 DGX - 1 超级计算机,价值 129000 美元。这台 DGX - 1 拥有 2 颗 Xeon 处理器和 8 颗 Tesla P100 GPU,整机拥有 170TFLOPs 的半精度(FP16)峰值性能,还配备了 512GB 系统内存和 128GB GPU 内存。这台机器为 OpenAI 的早期发展提供了有力支持,大大缩短了他们的大模型训练周期。
然而,Hybrid Cube Mesh 架构也存在一定不足,它属于串行连接,8 块 GPU 之间并非两两互联,每一块 GPU 只与其他 4 块 GPU 相连,且存在带宽不对等的情况。于是,2018 年,为了实现 8 颗 GPU 之间的 all - to - all 互连,英伟达发布了 NVSwitch 1.0。
NVSwitch 本质上是 “交换芯片”,它拥有 18 个端口,每个端口的带宽是 50GB/s,双向总带宽 900GB/s。使用 6 个 NVSWitch,可以实现 8 颗 V100 的 all - to - all 连接。引入 NVSwitch 的 DGX - 2 相比此前的 DGX - 1,性能提升了 2.4 倍。
到 NVLink 4.0 时,DGX 的内部拓扑结构增加了 NVSwitch 对所有 GPU 的全向直连,简化了 DGX 内部的互联结构。2022 年,英伟达将原本位于计算机内部的 NVSwitch 芯片独立出来,变成了 NVLink 交换机,这意味着一个计算节点不再局限于 1 台服务器,而是可以由多台服务器和网络设备共同组成。
2022 年,NVLink 4.0 发布时,英伟达将既有的 NVLink 定义为 NVLink - network,并专门推出了 NVLink - C2C(Chip to Chip,芯片到芯片之间的连接)。
NVLink - C2C 是一种板级互连技术,能够在单个封装中将两个处理器连接在一起,形成一块超级芯片(Superchip)。例如,英伟达的 GH200 就是基于 NVLink - C2C,将 Grace CPU 和 Hopper GPU 连接成 Grace Hopper 超级芯片。
目前最新的 NVLink 代际是 NVLink 5.0,由英伟达在 2024 年与 Blackwell 架构一同推出。单 GPU 可支持多达 18 个 NVLink 链接接,总带宽达到 1800GB/s,是 NVLink 4.0 的 2 倍,是 PCIe 5 带宽的 14 倍以上。
NVL72 的整体架构
接下来,我们重点关注基于 NVLink 5.0 打造的 DGX GB200 NVL72 超节点,其架构具有很强的代表性。
DGX GB200 NVL72 包含了 18 个 GB200 Compute Tray(计算托架),以及 9 个 NVLink - network Switch Tray(网络交换托架)。
每个 Compute Tray 包括 2 颗 GB200 超级芯片,每颗 GB200 超级芯片由 1 个 Grace CPU、2 个 B200 GPU 组成,基于 NVLink - C2C 技术。所以,整个机架包含了 36 个 Grace CPU(18×2),72 个 B200 GPU(18×2×2)。
8 个 DGX GB200 NVL72 可以组成一个拥有 576 个 GPU 的 SuperPod 超节点,总带宽超过 1PB/s,高速内存高达 240TB。NVL72 的 9 个 Switch Tray(网络交换托架)实际上就是 9 台 NVLink Switch 交换机,每台 NVLink Switch 交换机包括 2 颗 NVLink Switch4 芯片,交换带宽为 28.8Tb/s × 2。
NVL72 采用高速铜连接架构设计。在机架的背框中,有 4 组 NVLink 卡盒(NVLink Cartridge),即安费诺 Paladin HD 224G 连接器(每个连接器有 72 个差分对),负责计算托架、网络托架之间的数据传输。在这些连接器中,容纳了 5000 多根节能同轴铜缆(NVLink Cables,带有内置信号放大器),可以提供 130TB/s 的全对全总带宽和 260TB/s 的集合通信(AllReduce)带宽。
在功耗方面,B200 单颗芯片的功耗为 1000W,1 颗 Grace CPU 和 2 颗 B200 组成的超级芯片 GB200,功耗达到了 2700W。整个 DGX GB200 NVL72 机架功耗大约是 120kW(重量大约是 1.3 吨)。为了确保稳定的供电,NVL72 采用了新的增强型大容量母线排设计。升级后的母线排宽度与现有 Open Rack Version 3(ORV3)标准相同,但深度更大,显著提高了其电流承载能力。新设计支持高达 1400 安培的电流流动,是现行标准的 2 倍。
NVL72 是液冷机架式系统,采用了增强型免工具安装(盲配)液冷分配管(歧管)设计,以及新型可自动对准的免工具安装(浮动盲配)托盘连接,不仅可以提供 120kW 冷却能力,还极大地简化了安装和运维。在对外连接方面,NVL72 配置了 CX7 或 CX8 网卡,通过 400G 或 800G 的 IB 网络与外部进行 Scale Out 互联,对应每台 compute tray(计算托架)拥有 2 个 OSFP 800G 或 1.6T 端口。
值得一提的是,NVL72 还包括 BlueField - 3 数据处理单元(DPU),可以实现云网络加速、可组合存储、零信任安全和 GPU 计算弹性。
综上所述,GB200 NVL72 无疑是一个性能强劲的计算平台,也是打造万卡、十万卡 GPU 集群的有力工具。凭借自身强大的算力,NVL72在推出市场后,很快引发了抢购热潮。微软、Meta等科技巨头,都进行了疯狂采购。

热门文章
- 景嘉微新款图形处理芯片完成流片、封装阶段工作 2024-12-04
- 铠侠车载UFS 4.0闪存率先获得ASPICE CL2认证 2024-12-05
- Sensata(森萨塔)液位传感器产品选型手册 2024-10-16
- 英特尔高管:代工厂是否完全独立为子公司,仍需更多讨论 2024-12-13
- 华润微电子功率器件选型和应用手册 2025-04-18
- 特斯拉震撼发布:全自动驾驶Robotaxi Cybercab,搭载AI5超算硬件,算力飙升10倍! 2024-10-15
- 宁德时代发布“骁遥”超级增混电池:钠离子电池技术引领新能源车型大规模革新 2024-10-28
- Arm在边缘AI领域的三大赋能策略 2024-09-04
- 芯片霸主易主:英伟达崛起 2025-04-22
- 三星电子官宣重大结构调整,知情人士透露“很多员工已降薪” 2024-11-29