您的位置:首页 > 设计应用 > 正文

深度解析:GPU 互联技术的演进与应用

时间:2025-10-23 10:59:42 浏览:11

在当今 AI 时代,GPU(图形处理器)的重要性日益凸显,各大厂商纷纷抢占 GPU 资源,以在激烈的市场竞争中占据先机。这个假期,GPU 市场异常火热,其发展态势备受关注。今天,我们将深入探讨 GPU 之间是如何进行互联的,带您了解这一领域的技术发展与应用。

GPU 最早以单卡形式使用,但随着游戏、图形应用的不断发展,以及 AI、大模型等新兴应用的推动,多个 GPU 之间的互联技术得到了快速迭代和进步。

GPU 早期互联技术

从 GPU 诞生之初,电脑发烧友和游戏爱好者就一直在探索提升 GPU 性能的方法。在单个 GPU 性能有限的情况下,将两个或多个 GPU 连接起来成为了提升系统 GPU 性能的主流途径。

最早的 GPU 互联技术是由 3DFx Interactive 开发的 SLI(可扩展的链接接口)技术。然而,当时这项技术并未引起广泛关注,该厂商也因经营不善在 2000 年宣告破产。不过,其有价值的技术被 NVIDIA 公司收购,NVIDIA 于 2004 年首次推出 SLI 技术版本,允许两个 GeForce 6800 Ultra GPU 协同工作,显著增强了游戏时的图形性能,该技术迅速在游戏玩家和爱好者中流行起来。

2.jpg

然而,SLI 技术也存在一些局限性。它要求配置相同型号的兼容 GPU,并且需要分配单独的 PSU 来满足多个 GPU 的协调要求,这导致 GPU 之间的通信延迟较高,数据共享缺乏灵活性。

作为 NVIDIA 在 GPU 市场的长期竞争对手,AMD 推出了 CrossFire 技术参与竞争。与 SLI 技术类似,用户可使用两个或更多显卡进行渲染,以增加帧数和提高游戏运行效率。CrossFire 技术的一大优势是用户可以使用不同型号的 AMD 显卡,从而节省成本。但该技术也受到软件堆栈的批评,一些用户认为其不如 NVIDIA SLI 可靠,且配置更为复杂。

除了 SLI 和 CrossFire 技术,还有一种不太常见的多 GPU 配置方法 —— 双 GPU 卡。双 GPU 卡通过将两个 GPU 集成到一个卡槽中,节省了空间,对小型 PC 具有很大吸引力,同时简化了设置。然而,双 GPU 卡的散热和功耗问题较为突出,需要先进的冷却解决方案和强大的电源支持。由于其高成本和技术挑战,双 GPU 卡常被视为鸡肋产品。

尽管这些技术存在差异,但它们都致力于提升游戏和消费者的图形体验。然而,它们在处理更高级、数据密集型任务时的局限性,为 NVLink 等下一代解决方案的出现奠定了基础。

NVLink 出现的原因和背景

长期以来,冯・诺依曼架构面临着 CPU 计算速度与内存访问速度不匹配的问题,即业界著名的 “内存墙”。这一不均衡的发展速度对高性能计算形成了极大制约,成为训练大规模 AI 模型的瓶颈。

与此同时,随着高性能存储技术的进步,计算机组件间通信的带宽成为限制性能提升的关键因素。从 “Pascal” P100 GPU 一代到 “Blackwell” B100 GPU 一代,八年间 GPU 的性能提升了 1053 倍,其快速增长颠覆了 CPU 在计算机系统中的主导地位,传统的以 CPU 为核心设计的互联通信方式逐渐成为阻碍。

在这种背景下,单卡 GPU 的算力和显存有限,无法满足训练需求,分布式训练的诉求快速提升。为了解决带宽不足的问题,英伟达与拥有更高带宽 POWER CPU 的 IBM 合作,开发了第一代 NVLink,并提出了 NVLink 总线协议。

NVLink 的独特优势

NVLink 是英伟达提出的高速 GPU 互联协议,用于连接多个 GPU 或 GPU 与其他设备(如 CPU、内存等)。它允许 GPU 之间以点对点方式进行通信,具有比传统 PCIe 总线更高的带宽和更低的延迟,为多 GPU 系统提供了更高的性能和效率。

与传统 PCIe 总线协议相比,NVLink 有以下显著改变:

1.支持网状拓扑:NVLink 支持网状拓扑结构,与旧技术的菊花链或中心辐射型拓扑相比,网格设置允许 GPU 之间实现更通用且数量更多的连接,在数据中心和高性能计算应用中具有重要价值。

2.统一内存:NVLink 允许 GPU 共享公共内存池,实现更高效的数据共享,减少了在 GPU 之间复制数据的需求,这对于机器学习和大数据分析等应用至关重要。

3.改善延迟:NVLink 通过直接内存访问(DMA)功能,允许 GPU 直接读写彼此的内存,无需 CPU 参与,从而降低了延迟,确保了 GPU 之间更快的数据传输和同步,实现更高效的并行计算。

英伟达官方表示,NVLink 是全球首创的高速 GPU 互连技术,采用点对点结构、串列传输,可用于连接 GPU 与支持 NVLink 技术的 CPU,在内存墙无法突破的情况下,最大化提升 CPU 和 GPU 之间的通信效率,也可用于多个英伟达 GPU 之间的高带宽互连。使用 NVLink 连接两张 NVIDIA GPU,可弹性调整记忆体与效能,满足专业视觉运算的最高工作负载需求。

NVLink 的发展史

自 2014 年起,英伟达开始在其 GPU 中引入 NVLink 互联技术,并不断进行升级和改进:

●NVLink 1.0(2014 年):在 P100 GPU 芯片之间实现,两个 GPU 之间有四个 NVLink,每个链路由八个通道组成,每个通道速度为 20Gb/s,系统整体双向带宽为 160GB/s,是 PCIe3 x16 的五倍,大幅提升了数据在 CPU 内存与 GPU 显存之间的移动速度。

NVLink 2.0(2017 年):英伟达推出第二代 NVLink,两个 V100 GPU 芯片之间通过六个 NVLink 2.0 连接,每个链路由八个通道组成,每个通道速度提升至 25Gb/s,实现 300GB/s 的双向系统带宽,几乎是 NVLink1.0 的两倍。同时,为解决 GPU 之间通讯不均衡问题,英伟达引入了 NVSwitch 技术。

NVSwitch 出现(2018 年):NVSwitch 是英伟达为解决单服务器中多个 GPU 之间的全连接问题而发布的技术。当时,NVSwitch 允许单个服务器节点中多达 16 个 GPU 实现全互联,每个 GPU 都可与其他 GPU 直接通信,无需通过 CPU 或其他中介。NVSwitch1.0 有 18 个端口,每个端口带宽为 50GB/s,总带宽为 900GB/s,每个 NVSwitch 保留两个用于连接 CPU 的端口。

NVLink 3.0(2020 年):推出 NVLink 3.0 技术,通过 12 个 NVLink 连接两个 GPU A100 芯片,每个链路由四个通道组成,每个通道以 50Gb/s 的速度运行,产生 600GB/s 的双向系统带宽,是 NVLink2.0 的两倍。随着 NVLink 数量的增加,NVSwitch 上的端口数量也增加到 36 个,每个端口运行速度为 50GB/s。

NVLink 4.0(2022 年):NVLink 技术升级到第四代,允许两个 GPU H100 芯片通过 18 条 NVLink 链路互连,每个链路由 2 个通道组成,每个通道支持 100Gb/s(PAM4)的速度,双向总带宽增加到 900GB/s。NVSwitch 也升级到第三代,每个 NVSwitch 支持 64 个端口,每个端口运行速度为 50GB/s。此时,英伟达正式将其称为 NVLink - C2C,NVLink 已升级为板级互连技术,可在单个封装中将两个处理器连接成一块超级芯片。

NVLink 5.0(2024 年):随着英伟达全新 Blackwell 架构的发布,NVLink 5.0 问世。它以 100GB/s 的速度在处理器之间移动数据,每个 GPU 有 18 个 NVLink 连接,Blackwell GPU 为其他 GPU 或 Hopper CPU 提供每秒 1.8TB 的总带宽,是 NVLink 4.0 带宽的两倍,是行业标准 PCIe Gen5 总线带宽的 14 倍。NVSwitch 升级到第四代,每个 NVSwitch 支持 144 个 NVLink 端口,无阻塞交换容量为 14.4TB/s。

迄今为止,英伟达陆续推出了 NVLink 1.0~5.0,参数我就不一一介绍了,可以看下面的表格:

000.jpg

从上图可以看到,每一代NVLink的更新,其每个GPU的互联带宽都是在不断的提升,其中NVLink之间能够互联的GPU数,也从第一代的4路到第四代/第五代的18路。每个NVLink链路的速度也由第一代的20Gb/s提升至目前的1800Gb/s。此外,尽管拥有极高的带宽,NVLink却在每比特数据的传输上比PCIe节能得多。

从 NVLink 的发展历程可以看出,每一代 NVLink 的更新都显著提升了每个 GPU 的互联带宽,能够互联的 GPU 数量也不断增加,每个 NVLink 链路的速度也大幅提升。此外,NVLink 在每比特数据的传输上比 PCIe 节能得多。经过多年的发展,NVLink 已成为 NVIDIA 不可或缺的重要技术,支撑着大规模系统的构建。

2025 年 6 月,英伟达发布全新芯片 NVIDIA NVLink Fusion 等新技术和产品,并首次向第三方开放 NVLink IP 授权,允许非英伟达 CPU、ASIC 或加速器与英伟达 GPU 深度整合,宣告从单一硬件供应商向开放生态平台转型。NVLink Fusion 包含半定制 CPU 技术和 NVLink 5 Chiplet 的集成两项核心技术,为合作伙伴构建专用 AI 基础设施提供了有力支持。

DGX 和 HGX 的区别

Nvidia 为了获取更高的利润,以硬件系统的模式将 GPU 放在一个 Box 里卖给客户,推出了 DGX 和 HGX 平台。

2016 年,英伟达 CEO 黄仁勋给 OpenAI 公司赠送了世界上第一台 DGX - 1 超级计算机。Nvidia DGX 可整合高达 8 个 Tensor Core GPU 及配套的 AI 软件,致力于提升计算速度,推动 AI 应用的创新发展。该平台核心是一个机架式机箱,内置 4 或 8 个通过 NVLink 技术互联的 GPU、高性能 x86 CPU 和 Nvidia 高速网络硬件。单套 DGX B200 系统能提供高达 72 petaFLOPS 的训练性能和 144 petaFLOPS 的推理性能,为 OpenAI 的早期起步提供了极大帮助,缩短了大模型训练周期。然而,DGX 作为单机,缺乏弹性,不太适合大型互联网采购商,但其作为旗舰产品能够提升品牌形象。

对于追求定制化超级计算解决方案的原始设备制造商(OEM)来说,Nvidia HGX 平台提供了与基于 Hopper 和 Blackwell 架构的 DGX 系统相媲美的高性能,还允许根据自身需求进行深度 OEM 定制。客户可以自由选择和调整 CPU、RAM、存储和网络配置,打造符合自身业务需求的超级计算机。实际上,Nvidia HGX 是构成 Nvidia DGX 系统的基础组件,同时遵循 Nvidia 设定的严格标准,确保了性能和质量。HGX 平台提供 x4 和 x8 GPU 配置选项,最新的基于 Blackwell 架构的基板仅支持 x8 配置,HGX B200 系统性能可高达 144 petaFLOPS,增强了企业的 AI 和 HPC 计算能力,为 OEM 提供了打造可扩展解决方案的可能性。

Nvidia DGX 和 HGX 平台分别代表了企业级 AI 硬件解决方案的简易性和灵活性两个方面。DGX 提供一站式解决方案,强调简易性和便捷性,适合需要快速部署和高效运行 AI 应用的大型企业;HGX 平台更注重灵活性和定制化,为 OEM 厂商提供高度可定制的硬件平台,满足不同行业和应用场景的需求。这也导致 DGX 只能整机在 Nvidia 购买,而 HGX 可以卖独立器件再由浪潮、Dell 等进行制造组装。

NVIDIA GB300 NVL72 有何特殊之处!

目前,戴尔尔科技集团与 CoreWeave 紧密合作,宣布业界首款 NVIDIA GB300 NVL72 系统正式出货。此前,戴尔已率先成为首家出货 NVIDIA GB200 的供应商,此次里程碑式的合作进一步巩固了其在 AI 基础架构领域的领先地位。

接下来,我们重点看看基于NVLink 5.0打造的NVIDIA GB300 NVL72超节点。这个超节点的架构非常有代表性。这个系统将72个NVIDIA Blackwell Ultra GPU和36个基于Arm的NVIDIA Grace CPU整合到一个平台上,并针对测试时间扩展推理进行了优化,配备了升级版Blackwell芯片,其推理性能提升了1.5倍,HBM内存容量增加了1.5倍,网络连接能力翻倍,带来全新 AI 推理性能。

同时,与Hopper相比,GB300 NVL72用户响应速度(每用户TPS)提升10倍,吞吐量(每兆瓦TPS)提升5倍。搭配Quantum-X800 InfiniBand 或 Spectrum-X 以太网等技术进步共同作用,使英伟达GB300 AI工厂整体产出实现50倍的显著提升,即将推理模型输出效率提升5000%。

简单来说,它就像是一个超级智能的“数据中心”,能够同时处理海量的数据和复杂的计算任务。而且,这个系统还采用了液冷技术,就像给发动机装上了高效的“散热器”,在保证强大性能的同时,还能有效降低能耗,实现绿色计算。

为了让这些强大的 GPU 之间能够高效协作,NVIDIA GB300 NVL72 系统采用了第五代 NVIDIA NVLink 技术。这项技术就像是连接各个 GPU 的“神经网络”,提供了高达 130TB/s 的聚合带宽。

戴尔的集成机架解决方案让 NVIDIA GB300 NVL72 系统能够快速部署到企业的数据中心中,并无缝集成到现有的生产环境中。企业不需要花费大量的时间和精力去重新搭建复杂的 IT 基础设施,而是可以直接利用这个强大的“超级大脑”来加速自己的 AI 项目。



版权声明: 部分文章信息来源于网络以及网友投稿.本网站只负责对文章进行整理、排版、编辑.是出于传递更多信息之目的.并不意味着赞同其观点或证实其内容
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。

网址:https://www.icpdf.com/design/2377.html