您的位置:首页 > 新品速递 > 正文

AI 时代算力困局待解,晶圆级芯片潜力无限

时间:2025-06-30 13:12:20 浏览:51

在当今科技飞速发展的时代,AI 大模型正以前所未有的速度演进。2025 年的今天,大模型参数已经以 “亿” 为单位狂飙,仅仅过了两年,大模型所需要的计算能力就激增了 1000 倍,这一增长速度远远超过了硬件迭代的步伐。目前,支持 AI 大模型的主流方案是依靠 GPU 集群。

然而,单芯片 GPU 的局限性日益凸显。一方面,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;另一方面,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。以 GPT - 4、文心一言这类万亿参数模型为例,即便堆叠数千块英伟达 H100,依然面临 “算力不够、电费爆表” 的困境。

目前,业内在 AI 训练硬件领域形成了两大阵营:采用晶圆级集成技术的专用加速器(如 Cerebras WSE - 3 和 Tesla Dojo)和基于传统架构的 GPU 集群(如英伟达 H100)。其中,晶圆级芯片被视为未来的重要突破口。

在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并进行单独封装,每片裸片封装后成为一颗完整的芯片。芯片算力的提升通常依靠增加芯片面积,但目前算力芯片的单 Die 尺寸接近曝光窗大小,且曝光窗大小多年来维持不变,这成为制约芯片算力增长的因素之一。

晶圆级芯片则提供了全新的思路。它通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。未经过切割的晶圆上的电路单元与金属互连排列更紧密,形成了带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。因此,在相同算力下,由晶圆级芯片构建的算力集群占地面积对比 GPU 集群能够缩小 10 - 20 倍以上,功耗可降低 30% 以上。

1.png

全球有两家公司已经成功开发出了晶圆级芯片产品。一家是 Cerebras,该企业自 2015 年成立后,不断推进技术研发。2019 年推出 WES - 1,经过持续迭代,目前已推出第三代晶圆级芯片 WES - 3。WES - 3 采用台积电 5nm 工艺,晶体管数量达到惊人的 4 万亿个,AI 核心数量增加到 90 万个,缓存容量达到 44GB,可支持高达 1.2PB 的片外内存。其能力足以训练比 GPT - 4、Gemini 大 10 倍的下一代前沿大模型。四颗并联情况下,一天内即可完成 700 亿参数的调教,支持最多 2048 路互连,一天便可完成 Llama 700 亿参数的训练。与英伟达 H100 相比,WES - 3 在各项性能指标上都具有显著优势,片上内存容量是 H100 的 880 倍、单芯片内存带宽是 H100 的 7000 倍、核心数量是 H100 的 52 倍,片上互连带宽速度是 H100 的 3715 倍。

另一家是特斯拉,其晶圆级芯片被命名为 Dojo。这是马斯克在 2021 年就开始的大胆尝试,并且 Dojo 的技术路线与 Cerebras 不同。它采用 Chiplet 路线,在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒(裸 Die)。D1 芯粒在 645 平方毫米的芯片上放置了 500 亿个晶体管,单个芯粒可提供 362 TFlops BF16/CFP8 的计算能力。合起来的单个 Dojo 拥有 9Petaflops 的算力,以及每秒 36TB 的带宽。特斯拉的 Dojo 系统专门针对全自动驾驶(FSD)模型的训练需求进行定制,通过独特的架构设计,从 25 个 D1 芯粒逐步构建出强大的超算系统,最终一套 ExaPOD 超算系统能够提供 1.1EFlops 的计算性能。

接下来对比一下晶圆级芯片与 GPU 在不同方面的表现。在算力性能上,Cerebras WSE - 3 凭借单片架构,在 AI 模型训练中展现出独特潜力。其 FP16 训练峰值性能达到 125 PFLOPS,支持训练高达 24 万亿参数的 AI 模型,且无需进行模型分区处理,这种特性使其特别适合以精简高效的方式处理超大模型。而英伟达 H100 采用模块化和分布式方法,虽然单个 H100 GPU 可为高性能计算提供一定的计算能力,多个互连的 H100 GPU 组成的系统也能实现较高的 AI 性能,但分布式架构存在的数据传输问题,在训练超大型模型时会影响训练速度。在 AI 训练表现中,Cerebras WSE - 3 在处理超大型模型方面更具优势,2048 个 WSE - 3 系统组成的集群,训练 Meta 的 700 亿参数 Llama 2 LLM 仅需 1 天,相比 Meta 原有的 AI 训练集群,速度提升达 30 倍。

从延迟与吞吐量来看,WSE - 3 的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。与传统 GPU 集群相比,WSE - 3 可将软件复杂度降低高达 90%,同时将实时 GenAI 推理的延迟降低 10 倍以上。特斯拉 Dojo Training Tile 属于晶圆级集成,能大幅降低通信开销,但在跨区块扩展时仍会产生一定延迟。目前,Dojo 能实现 100 纳秒的芯片间延迟,并针对自动驾驶训练优化了吞吐量,可同时处理 100 万个每秒 36 帧的视频流。英伟达 H100 基于 Hopper 架构,虽然通过 NVLink 和 NVSwitch 系统实现了 GPU 间高速通信,但多 GPU 架构的数据传输仍会带来延迟问题,延迟高于晶圆级系统。不过,晶圆级系统如 WSE - 3 和 Dojo 也面临着可扩展性有限、制造成本高和通用工作负载灵活性不足等问题。

在成本方面,不同芯片因架构和应用场景不同,价格差异较大。据报道,特斯拉单台 Tesla Dojo 超级计算机的成本估计在 3 亿至 5 亿美元之间,其采用成熟晶圆工艺加上先进封装的技术路线,能保证较高的良品率,便于实现系统的规模化生产和芯粒的更新迭代。Cerebras WSE 系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本,据报道,Cerebras WSE - 2 每个系统成本在 200 万至 300 万美元之间。相比之下,英伟达单 GPU 的采购成本较低,这使得许多企业在搭建 AI 计算基础设施初期更倾向于选择英伟达 GPU,但英伟达 GPU 在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。

常规形态下,集群算力节点越多,通信开销越大,集群效率越低。英伟达通过提升集群内的节点集成密度来控制集群尺寸规模、提升效率,但如果想要进一步提升算力密度,最终可能会走向晶圆级芯片的发展道路。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态,具有巨大的发展潜力。