CXL 4.0 发布:带宽提升 100%,赋能自主人工智能发展
在当今科技飞速发展的时代,数字存储和内存技术已然成为高性能计算(包括人工智能领域)的核心要素。在最近举办的 SC25 大会上,一系列令人瞩目的数字存储和内存技术纷纷亮相。本文将着重聚焦于最新一代 CXL 技术以及 DDN 发布的 NVIDIA 认证解决方案,这些方案旨在为自主人工智能的发展提供强有力的支持。
CXL 联盟一直致力于维护 Compute Express Link 互连规范,该互连技术主要用于实现高速、高容量的 CPU 到设备以及 CPU 到内存的连接。它不仅扩展了服务器内存的容量,还允许进行超出传统 DIMM 插槽限制的内存池化。自 2019 年首次推出以来,CXL 规范已经经历了多次更新与优化,其发展历程如下图所示。

在此次 SC25 大会上,CXL 联盟正式发布了 CXL 4.0 规范。该规范具有诸多显著特性:
1.带宽翻倍:带宽直接翻倍至 128GTs,并且不会产生额外的延迟,这将极大地提升数据传输速度。
2.高速数据传输:支持 CXL 设备间的高速数据传输,能够直接提升系统的整体性能。
3.协议增强功能保留:保留了先前启用的 CXL 3.x 协议增强功能,其中包括 256B Flit 网络流控制单元格式,有助于确保不同 CXL 版本之间的性能一致性。
4.原生 x2 宽度概念引入:引入了原生 x2 宽度概念,以支持平台中更大的扇出,为系统架构提供了更多的灵活性。
5.重定时器支持:支持最多四个重定时器,能够扩大频道覆盖范围,使 CXL 技术在更广泛的场景中得以应用。
6.捆绑端口功能实现:实现了 CXL 捆绑端口功能,进一步优化了设备之间的连接方式。
7.设备端口合并:能够合并主机和 CXL 加速器(1/2 型设备)之间的设备端口,从而提高连接带宽,满足了 AI 应用对高带宽的需求。
8.内存可靠性增强:提供了内存可靠性、可用性和可维护性方面的增强功能,提高了系统的稳定性和可靠性。
9.向下兼容性:继续完全向下兼容 CXL 3.x、2.0、1.1 和 1.0 版本,确保了该规范能够更广泛地应用于行业,并为现有部署提供了更平滑的过渡。
通过在 CXL 主机和 CXL 加速器之间逻辑聚合 CXL 设备端口(或捆绑端口,如下图所示),可以显著提高主机与 CXL 设备连接之间的带宽。这对于 AI 应用来说尤为重要,因为 GPU 通常受限于数据带宽,需要尽可能利用所有可用的数据带宽来提升性能。

下图详细展示了第四代 CXL 的增强功能。可以看到,第三代和第四代 CXL 为数据中心和广域网 (WAN) 计算提供了更强大的功能。这包括内存池化,其中各种类型的内存(包括 DRAM,也可能包括非易失性内存)以及各种本地计算加速器可以在处理器和服务器之间共享,实现了资源的高效利用。

总结而言,CXL 4.0 规范将可用传输速度从 64GTs 提升至 128GTs。这一改进使得通过 CXL 连接的设备之间的数据传输速度更快,从而支持对低延迟和高吞吐量有较高要求的工作负载。此次更新保留了先前版本中引入的 256B Flit 格式,有助于确保不同 CXL 版本之间的性能一致性。
同时,CXL 4.0 引入的一项新特性是支持捆绑端口,它允许将设备上的多个端口组合起来,从而提高聚合带宽。该规范还支持原生 x2 带宽,允许更大的扇出和最多四个重定时器的使用,这可以扩展 CXL 通道在不同平台上的覆盖范围。主机系统和加速器之间设备端口的组合功能旨在为系统架构师提供更大的灵活性。该规范还提升了内存的可靠性、可用性和可维护性 (RAS)。增强的 RAS 功能旨在提高错误可见性和维护效率,同时保持与先前版本规范的兼容性。联盟声明,该规范向下兼容 CXL 3.x、2.0、1.1 和 1.0 版本,从而能够更广泛地应用于行业,并为现有部署提供更平滑的过渡。
CXL 联盟主席兼财务主管、NVIDIA 首席工程师 Derek Rohde 强调了新规范开发的协作性质。他表示:“CXL 4.0 规范的发布为推进一致性内存连接树立了新的里程碑,其带宽比上一代产品翻了一番,并具备强大的新功能。此次发布体现了我们成员公司致力于推动开放标准的承诺,这些标准能够赋能数据中心创新,支持合规性和互操作性,并使整个行业能够扩展以适应未来的使用模式。”
接下来,我们来探讨一下为什么 CXL 对人工智能至关重要。人工智能 (AI) 正步入一个前所未有的规模时代。从训练万亿参数的大型语言模型 (LLM) 到实现实时多模态推理,AI 工作负载正在重塑数据中心基础设施的根基。虽然 GPU 和加速器已成为 AI 的标志性设备,但一个关键瓶颈却隐藏在幕后:内存、带宽、延迟和可扩展性方面的挑战往往决定着 AI 系统的成败。而 Compute Express Link (CXL) 正是在此背景下应运而生,提供了一种变革性的解决方案。
造成人工智能内存瓶颈的关键因素主要包括以下几点:
◆巨大内存容量需求:训练基础模型需要巨大的内存容量,通常超过单个 GPU 的可用容量。
◆快速数据访问需求:大规模推理需要快速访问大型数据集,而无需在 GPU 之间重复分配内存。
◆传统架构效率低下:传统架构迫使 CPU、GPU 和加速器各自独立运行,造成效率低下。

如图所示,在孤立的架构中,每个 CPU 或 GPU 都绑定到各自独立的内存,导致内存容量常常未被充分利用。而通过 CXL 池化,所有处理器都可以访问统一的共享内存空间。这种转变能够实现灵活的扩展、更高的内存利用率,并提升 AI 和数据密集型工作负载的性能。
Compute Express Link (CXL) 是一种开放的行业标准互连技术,旨在满足现代工作负载(尤其是在人工智能和高性能计算领域)日益增长的性能和可扩展性需求。与针对通用 I/O 优化的 PCIe 不同,CXL 专为连接 CPU、GPU、加速器和内存设备而设计,具有低延迟和完全缓存一致性,确保数据在异构处理器之间保持同步。CXL 超越了传统的设备到主机通信,实现了统一架构,使计算和内存资源能够在整个系统甚至服务器集群中无缝共享。
CXL 引入的最具影响力的功能之一是内存池化,它允许根据工作负载需求将内存动态分配给不同的设备,而不是静态地绑定到单个 CPU 或 GPU。这消除了闲置容量,并提高了内存资源的利用率。另一个关键特性是分层内存,高性能本地 DRAM 可以与更大的 CXL 连接内存池(例如 DDR5 或持久内存)配合使用,从而在速度、容量和成本效益之间取得平衡。最后,CXL 是可组合基础架构的基石,它允许实时组装和重新组装计算、加速器和内存等资源,以适应不断变化的工作负载需求,从训练大规模语言模型到运行对延迟敏感的推理任务,都能胜任。
简而言之,CXL 代表着从静态的、孤立的架构向灵活的、基于网络的计算的转变,为下一代人工智能和数据密集型系统铺平了道路。
CXL 对人工智能基础设施的重要性主要体现在以下几个方面:
1.大型语言模型 (LLM):CXL 能够跨节点进行内存池化,从而减少代价高昂的内存重复使用,提高了资源的利用效率。
2.多 GPU 推理:共享内存池简化了部署并降低了基础设施开销,使得多 GPU 推理更加高效。
3.可组合的 AI 数据中心:CXL 不会导致内存过度配置,而是允许灵活扩展,满足了不同规模和需求的 AI 数据中心的发展。
CXL 内存池允许多个 GPU 共享一个统一的内存池,从而实现大型语言模型的有效扩展。借助 CXL ,业界正从渐进式改进迈向数据中心架构的根本性变革。通过引入光纤网络拓扑、多级交换以及跨主机的一致性内存共享,CXL 使整个服务器机架能够作为一个统一、灵活的 AI 架构运行。这对于大型语言模型等 AI 工作负载尤为重要,因为传统的 GPU 孤岛受限于内存限制,并被迫进行复杂的模型并行处理。
借助跨 GPU 访问的共享一致性内存池,训练速度更快,重复计算更少,并且能够更高效地支持更大的模型。目前,超大规模数据中心、云服务提供商和高性能计算 (HPC) 设施已经开始试点部署 CXL,从英特尔和 AMD 到三星和 HPE 等厂商也已将 CXL 纳入其产品路线图。展望未来,CXL 有望朝着更快的互连、更细粒度的组合性以及原生针对池化内存优化的 AI 框架发展。
总而言之,CXL 是一个转折点 —— 从以服务器为中心的计算到以架构为中心的 AI 基础设施 —— 为下一代可扩展的 AI 和 LLM 系统奠定了坚实的基础。
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。
网址:https://www.icpdf.com/xinpin/2501.html
热门文章
- 英飞凌(infineon)电源和传感产品选择指南2024-2025(英文版) 2024-09-13
- Hailo-10H 和 FuriosaAI 芯片亮相,推动 AI 应用迈向新高度 2025-07-24
- ASSMANN(阿斯曼)重点产品选型手册 2024-09-29
- 功率放大器在MTT检测超声医疗中的应用 2024-08-07
- 联发科天玑8400震撼发布:次旗舰新王者,全大核性能爆棚 2024-12-25
- 绝境逆袭:国产 GPU 大厂新一代 5nm 芯片完成流片 2025-09-05
- FP8 精度:国产 AI 突破算力瓶颈与标准制定的关键 2025-09-01
- 移为(Queclink )MT105 摩托车 IoT智能终端 20230901 2024-09-12
- 移为(Queclink )WR201LCN 高性能工业路由器 20230901 2024-09-12
- AMD 发布高效能 EPYC 嵌入式 8004 系列,专为嵌入式系统设计 2024-10-10