您的位置:首页 > 技术方案 > 正文

全面揭秘英伟达:产品体系及命名规则深度解读

时间:2025-05-15 14:16:13 浏览:70

在当今科技飞速发展的时代,英伟达凭借其在人工智能领域的卓越表现,成为全球备受瞩目的科技巨头。随着 AI 技术的迅猛发展,英伟达的各类产品频繁出现在大众视野中,诸如 A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、HGX、Quantum、Spectrum、BlueField、CUDA 等专业名词,让人眼花缭乱,难以理解它们之间的关系和具体含义。今天,我们就来详细梳理一下英伟达的产品体系和命名规则。

算力芯片 ——V100/A100/H100/B200 等

这些常见的名词代表着英伟达的 AI 算力卡,也就是 GPU 卡的不同型号。

英伟达的GPU,每隔几年就会出一个新的架构。每个架构,都会以一个著名科学家的名字命名,如下所示:

2.webp.png

所以,基于某个架构的卡,一般就会以这个架构名称的首字母开头(游戏显卡除外)。

例如,基于Volta(伏特)架构的V100,基于Ampere(安培)架构的A100,基于Hopper(赫伯)架构的H100、H200,基于Blackwell(布莱克威尔)架构的B100、B200等。

3.webp.png

某200一般是某100的升级版。例如H200,就是H100的升级版(采用了HBM3e内存等升级)。

L40 和 L40s 的命名稍有特别,它们基于 Ada Lovelace(世界上第一个女程序员的名字)架构,L40s 是 L40 的升级版,这两款产品主要针对数据中心市场,主打低成本和高性价比。此外,H20 是英伟达因美国出口限制而推出的阉割版(特供版),据说 B200 也会有对应的阉割版 B20。

英伟达计划于 2026 年推出下一代 AI 平台 Rubin(罗宾),最初大家认为下一代 GPU 会是 R100、R200,但英伟达给出的路线图显示可能是 X100,具体情况仍有待观察。到 2028 年,英伟达还将推出下下一代平台 ——Feynman(费曼)。

超级芯片 ——GH200、GB200 等

GPU 是英伟达的算力核心硬件单元,但该公司的产品线并不局限于此。围绕 GPU,英伟达研发了众多产品和解决方案。早期,英伟达与 IBM POWER CPU 合作,后来因对 IBM 的表现不满,开始自主研发 CPU,如基于 ARM 架构研发的 Grace CPU(Vera CPU 也在研发中)。

英伟达运用 NVLink 技术,将 GPU 和 CPU 进行配对,构建了所谓的超级芯片平台(Superchip),例如 GH200、GB200 以及新发布的 GB300(Blackwell Ultra)。GB200 由一个 Grace CPU 和两个 Blackwell B200 GPU 组成(取 Grace 和 Blackwell 的首字母),据说其性能是 H100 的 7 倍。类似地,GH200 是 Grace CPU 和 Hopper GPU 的组合。

超级计算机平台 ——DGX/EGX/IGX 等

基于上述各种芯片平台,英伟达构建了对应的计算机平台,即超级计算机平台,包括 DGX、EGX、IGX、HGX、MGX 等。具体的区别如下,我就不多解释了,看下表:

5.webp.png

其中,DGX 较为常见,当年黄仁勋送给 OpenAI 的就是第一代的 DGX - 1。如今的 DGX 产品基本采用土豪金配色,价格昂贵。面向桌面市场,英伟达还推出了 DGX Spark 和 DGX Station,它们相当于工作站。

节点内部连接:Scale Up(超节点)——DGX GB200 NVL72 等

在通信技术方面,NVLINK 是英伟达推出的 GPU 卡间互连技术,主要用于取代 PCIe,同时 CPU 和 GPU 之间也采用 NVLINK 技术。当涉及多个 NVLINK 节点时,直连变得困难,因此需要引入交换芯片,即 NVLink Switch(也叫 NVSwitch),后来芯片发展成了设备。

NVLINK 可以将多个 GPU 连接起来,形成一个看似由多台计算机组成,但实际上属于一个逻辑节点(超节点)的平台。

7.webp.png

近年来,DGX GB200 NVL72 备受关注,它采用了 NVLINK5,包含 18 个 GB200 Compute Tray(计算托架)以及 9 个 NVLink - network Switch Tray(网络交换托架)。每个 Compute Tray 包括 2 颗 GB200 超级芯片,因此 DGX GB200 NVL72 包含 36 个 Grace CPU(18×2)和 72 个 B200 GPU(18×2×2)。8 个 DGX GB200 NVL72 又可以组成一个拥有 576 个 GPU 的 SuperPod 超节点。

节点外部互连:Scale Out(IB 和以太网)

在单节点内不断增加 GPU 数量属于 Scale Up(纵向扩展),但当单节点达到一定规模后,继续增加就变得困难,此时需要增加节点数量并实现节点之间的互连,即 Scale Out(横向扩展)。英伟达针对 Scale Out 提供了两种解决方案,一是 InfiniBand(IB)技术,二是以太网。

InfiniBand 原本是 Mellanox 公司的技术,英伟达在 2019 年收购了 Mellanox,使得 InfiniBand 成为其私有技术。英伟达基于 InfiniBand 推出的产品平台是 NVIDIA Quantum(“量子” 的意思),例如 2024 年 3 月发布的 Quantum - X800 网络交换机平台,其端到端吞吐量能够达到 800Gbps,该平台包括 Quantum Q3400 交换机、ConnectX - 8 SuperNIC 网卡等硬件。这些硬件都有相应的系列,Quantum - X800 的上一代是 Quantum - 2,ConnectX - 8 的前代有 ConnectX - 6、ConnectX - 7 等。ConnectX 高速网卡同样来自 Mellanox。

除了 InfiniBand,英伟达在以太网方面也有产品,即 Spectrum - X800(Spectrum 是 “光谱” 的意思)。Spectrum - X800 包括 Spectrum SN5600 交换机、BlueField - 3 SuperNIC 网卡等硬件产品,吞吐量同样高达 800Gbps。BlueField 是近年来备受关注的 DPU,英伟达于 2020 年将 Mellanox 的 ConnectX 网卡技术与自身已有技术相结合,正式推出了 BlueField - 2 DPU 和 BlueField - 2X DPU,如今已演进到 BlueField - 3。此外,前段时间英伟达还发布了 CPO 光电一体化封装网络交换机 Spectrum - X Photonics 和 Quantum - X Photonics。英伟达还有一些其他的网卡、连接器、线缆等配件,在此就不一一介绍了。据黄教主透露,新一代的 Rubin 平台发布时,可能会带来 NVLink 6、ConnectX - 9 SuperNIC 和 Quantum(Spectrum) - X1600,值得期待。

开发框架 ——CUDA

前面介绍了英伟达的算力硬件平台家族和通信网络家族,接下来看看软件方面的重要名词 ——CUDA。尽管英伟达的硬件和网络技术非常出色,但实际上,其最核心的竞争壁垒是 CUDA。

CUDA(Compute Unified Device Architecture,计算统一设备架构)是英伟达在 2006 年推出的并行计算平台和编程模型,它允许开发者直接在 GPU 上编写代码,从而大幅提升计算速度。如今,CUDA 就像智算开发的操作系统,集成了编程模型、编译器、API、库和工具,有助于用户充分发挥英伟达硬件的性能。CUDA 不仅是一个工具,还形成了强大的 AI 开发生态,是英伟达整个业务体系的神经中枢。目前,很多 AI 开发都依赖于英伟达的硬件和 CUDA,虽然更换硬件并非难事,但迁移生态系统却十分困难。

综上所述,英伟达在 AI 领域占据着核心地位,其产品体系丰富多样,命名规则也有一定的规律可循。在不同的领域,英伟达会基于这些核心产品构建不同的解决方案,有时还会衍生出升级版或阉割版产品。我们期待未来能有更多的企业向英伟达发起挑战,推动 AI 技术的进一步发展。