您的位置:首页 > 新品速递 > 正文

晶圆级加速器:环保与高性能兼得,重新定义 AI 计算格局

时间:2025-06-19 09:14:50 浏览:38

在当今科技飞速发展的时代,人工智能领域正经历着前所未有的变革。加州大学河滨分校的工程师在《设备》杂志上发表的一篇技术评论论文,为我们揭开了一种新型计算机芯片的神秘面纱,这种芯片有望重塑人工智能的未来,并且更加环保。

晶圆级处理器,尤其是由 Cerebras 制造的晶圆级加速器,成为了这场变革的关键角色。这些巨型芯片建立在餐盘大小的硅晶圆上,与传统的图形处理单元(GPU)形成了鲜明对比,传统 GPU 的大小甚至不比邮票大。加州大学河滨分校跨学科团队的论文指出,晶圆级处理器能够提供更强大的计算能力和更高的能源效率,这正是随着人工智能模型变得越来越大、要求越来越高所急需的特性。

8.png

该论文的主要作者、加州大学河滨分校伯恩斯工程学院电气与计算机工程教授米赫里・奥兹坎(Mihri Ozkan)表示:“晶圆级技术代表着一次重大飞跃,它使拥有数万亿个参数的人工智能模型能够比传统系统运行得更快、更高效。” 通过将所有东西都放在一个晶圆上,可以避免芯片间通信造成的延迟和功率损失。此外,论文还重点介绍了晶圆上芯片封装等技术,这些技术可以使晶圆级设计更加紧凑、更易于扩展,计算密度可能提高 40 倍。

当前 AI 训练硬件呈现多元化发展态势,主要分为两大阵营:采用晶圆级集成技术的专用加速器(如 Cerebras WSE - 3 和 Tesla Dojo)和基于传统架构的 GPU 集群(如 NVIDIA H100)。Cerebras WSE - 3 采用台积电(TSMC)5nm 工艺,在 46,225mm² 的晶圆上集成 4 万亿个晶体管和 90 万个 AI 优化核心,其 44GB 片上 SRAM 可实现 21PB/s 的内存带宽。相比之下,Tesla Dojo 采用模块化设计,每个训练瓦片包含 1.25 万亿晶体管和 8,850 个核心,通过特斯拉传输协议(TTPoE)实现低延迟通信。

在计算吞吐量方面,WSE - 3 在 FP16 精度下达到 125PFLOPS 的峰值性能,而 NVIDIA H100 在 FP8 精度下为 1.97PFLOPS(启用稀疏计算时)。特别值得注意的是,在碳捕获模拟中,WSE - 3 展现出比 H100 快 210 倍的性能。延迟表现上,晶圆级架构优势更为明显:WSE - 3 的片上延迟达到亚纳秒级,而 H100 的 NVLink 4.0 虽提供 900GB/s 带宽,但多 GPU 通信延迟仍较高。

能效成为评估 AI 硬件的关键指标。WSE - 3 通过消除芯片间数据传输,实现每瓦 2 倍于前代的性能提升。其创新的 “引擎块” 设计整合了水 - 丙二醇冷却回路,可处理 23kW 的热设计功耗(TDP)。Tesla Dojo 则采用去离子水直接冷却技术,每个训练瓦片功耗 15kW。相比之下,H100 GPU 的能效为 7.9TFLOPS/W,需依赖液冷系统应对 700W 的功耗。

然而,晶圆级芯片面临的最大挑战是制造良率。Cerebras 采用 SwarmX 互连架构实现缺陷核心的动态绕行,宣称达到 100 倍缺陷容限。Tesla Dojo 则采用 TSMC 的集成扇出(InFO)封装技术,将 25 个 D1 芯片集成在载具晶圆上。在工艺节点方面,WSE - 3 采用 TSMC 5nm FinFET 工艺,而 Dojo 使用 7nm 工艺,两者都代表了半导体制造的最前沿。

除了技术层面的优势,研究人员还关注到了计算对环境的影响。一个系统高达 86% 的总碳足迹可能来自制造和供应链,而不仅仅是能源使用。他们提倡使用可回收材料和低排放合金,以及全生命周期设计实践。奥兹坎表示:“效率始于工厂,为了真正降低计算的影响,我们需要重新思考整个流程 —— 从晶圆到废料。这项审查是深度跨学科合作的成果。我们希望它能成为研究人员、工程师和政策制定者探索人工智能硬件未来的路线图。”