博通重磅推出 3nm Jericho4 芯片,助力分布式 AI 计算新突破
在人工智能数据中心规模日益庞大的当下,云计算公司面临着如何处理老旧、规模较小的数据中心这一难题。博通公司于周一给出了一个颇具潜力的解决方案,其发布的新版 Jericho 网络芯片,能够以更高的速度传输更大容量的数据。该公司核心交换事业部高级副总裁兼总经理 Ram Velaga 表示,这意味着客户可以连接多个小型数据中心,从而创建一个用于开发或运行人工智能模型的大型系统。
博通推出的 Jericho4 产品具有强大的性能,能够连接多个数据中心的 100 多万个处理器,处理的信息量约为上一代产品的四倍。一直以来,博通受益于对用于构建人工智能系统的设备的需求。其网络组件,如路由器和交换机,可引导图形处理单元(GPU)之间的流量,而这些昂贵的芯片是创建人工智能模型的关键。
虽然博通部分设备用于在同一机架或数据中心大楼内移动数据,但也需要能够跨楼宇甚至更远距离工作的组件。此外,巨型 GPU 集群的功耗越来越高,无法将它们全部集中到同一位置。“当他们尝试构建一个包含 20 万个甚至 10 万个 GPU 的集群时,很快就会达到 300 兆瓦的功耗,而如今一座实体建筑内根本无法提供 300 兆瓦的功率。”Velaga 说道。而 Jericho 系列网络芯片将有助于解决这一问题。
各公司也在尝试将数据中心容量迁移到更靠近客户的位置,以加快用户从 AI 模型中获得答案的速度。Velaga 表示,这意味着云计算和 AI 企业将需要利用位于拥堵大都市地区的数据中心,在这些地区,连接多个小型数据中心可能更为实际。维拉加还指出,博通的 Tomahawk 系列产品可以连接数据中心内的机架,但这些距离通常在一公里(0.6 英里)以内,而 Jericho 设备可以处理超过 100 公里的距离。
Jericho4 将于周一开始向云服务提供商和网络设备制造商等早期客户发货,这些客户将把它集成到自己的产品中。全面部署大约需要九个月的时间。
博通此次推出的全新高容量互连设备 Jericho4 以太网光纤路由器,隶属于博通 DNX 产品线,据称能够解锁跨越 100 公里甚至更远的分散式计算集群。该设备专为 AI 训练和推理工作负载而设计,使原本分散的系统能够跨区域数据中心作为统一系统运行。
博通构建了 Jericho4,以便在地理分布的数据中心之间安全地互连超过一百万个 XPU,从而将 AI 计算结构扩展到单个设施的物理和功率限制之外。每个系统支持多达 36,000 个端口,每个端口通过 Broadcom 专有的 HyperPort 接口提供 3.2 Tbps 的带宽,这是一种专为长距离、高吞吐量 AI 数据传输而构建的新架构。
HyperPort 基于博通 3 纳米工艺节点的 200 - G PAM4 SerDes 构建,是一个 3.2 Tbps 以太网端口,可将四个 800 - G 通道聚合为单个逻辑链路。虽然该设计尚未根据 IEEE 或 MSA 定义进行标准化,但每个 HyperPort 都保持完全的以太网数据包兼容性,同时在带宽效率和拥塞减少方面实现了显著提升。该技术解决了跨多个 800 - G 端口的传统 ECMP 负载均衡方法的缺陷,在 “大流量” 占主导地位的 AI 工作负载下,能有效缓解效率低下的问题。博通报告称,与 800GE 相比,带宽利用率提升高达 70%,这意味着设备间数据传输速度更快、作业完成时间更短,并且整体系统性能更佳,而无需更改现有的光纤或物理基础设施。
Jericho4 的一个显著特点是它扩展了对 RDMA Over Converged Ethernet (RoCE) 的支持,距离超过 100 公里。维持长距离以太网链路的无损传输是标准数据中心交换机设计无法解决的挑战。博通通过基于高带宽内存 (HBM) 的集成深度缓冲解决了这个问题,使路由器能够吸收拥塞,而无需将优先级流量控制 (PFC) 事件传播到相邻的数据中心域。通过这种方式,Jericho4 将长距离拥塞效应与本地计算结构隔离,从而在突发性 AI 工作负载下保持稳定性和吞吐量。
除了缓冲和拥塞管理之外,Jericho4 还在每个端口上集成了线速 MACsec 加密,以确保设施之间的流量安全。值得一提的是,MACsec 采用硬件实现,不会对性能造成任何影响,因此无论是否启用加密,吞吐量都保持一致。
与专有互连不同,Jericho4 遵循超级以太网联盟 (UEC) 制定的规范,以确保与日益壮大的 UEC 兼容网卡、交换机和软件堆栈生态系统兼容。博通在 HyperPort 接口中保留了以太网数据包结构,以简化与现有软件定义网络堆栈和监控工具的集成。这为运营商提供了跨本地和区域域的统一、基于标准的结构。符合标准的方法还使博通的技术成为未来开放架构的可扩展基础,特别是当超大规模企业寻求在通用编程和管理框架下统一分散的基础设施时。
博通表示,Jericho4 可作为广域横向扩展互连的补充,是对公司 Tomahawk 和 Trident 平台的补充。Tomahawk Ultra 和 Tomahawk 6 满足机架内和设施内互连需求,注重超低延迟和大交换基数,而 Jericho4 则支持设施间连接,同时保留相同的管理模型和路由策略。完全基于 Jericho4 的结构可以用作单个逻辑路由器,从而抽象出管理分布式系统的复杂性。这种统一的架构理念使系统设计人员能够根据延迟、规模和地理限制,将 Tomahawk 和 Jericho 元素进行组合。据博通称,Jericho4 可以使用相同的基础芯片构建容量高达 51.2 Tbps 的固定尺寸或基于机箱的路由器。该平台还支持灵活的拓扑结构,适用于中央交换平面、模块化结构元素或分解式计算节点互连。
博通认为 Jericho4 标志着以太网的成熟,使其成为能够满足最苛刻的 AI 工作负载需求的完全可行的传输方式。Infiniband 或专有架构曾经主导着横向扩展的讨论,而博通的 “以太网优先” 战略则为在 AI 和非 AI 领域实现统一基础架构提供了一条途径。

热门文章
- 解析三星先进封装技术,对比台积电与英特尔 2025-05-16
- 先进封装新势力 FOPLP,CoWoS 劲敌登场 2025-06-10
- 中国或将对博通等芯片公司发起反垄断调查 2025-02-11
- BOE携手京东,共促显示器市场高价值增长 2024-09-06
- 一文带你了解3种节能灯的电路图 2025-02-25
- 150G的DAC 突破:重塑欧洲芯片设计格局与未来 2025-06-20
- 台积电10月17日举行法说会,法人聚焦五大议题:扩产进度、价格调整等 2024-10-14
- 英伟达瞄准 SOCAMM 内存,为 AI 产品性能提升疯狂备货 2025-07-17
- 移为(Queclink )GV300W 3G全功能型车载智能终端 20230901 2024-09-12
- 特斯拉震撼发布:全自动驾驶Robotaxi Cybercab,搭载AI5超算硬件,算力飙升10倍! 2024-10-15