您的位置:首页 > 新品速递 > 正文

LPU——GPU 替代者,究竟有何独特之处?

时间:2025-08-04 13:39:54 浏览:28

在人工智能技术飞速发展的当下,对于高效硬件的需求也愈发迫切。2025 年 8 月 3 日消息,Moonshot 的 Kimi K2 最近在 GroqCloud 上发布了预览版,这引发了开发人员的广泛关注,大家不断询问:Groq 如何能够如此快速地运行 1 万亿参数模型?答案或许就在于 LPU 这一新兴硬件。

传统硬件一直面临着一个难题,即需要在推理速度和质量之间做出选择。要么追求更快的推理速度,但会导致质量下降;要么选择更精确的推理速度,但延迟又令人难以接受。这一权衡的根源在于,传统的 GPU 架构主要是针对训练工作负载进行优化的。而 LPU 作为专为推理而设计的硬件,在保持推理质量的同时,成功消除了造成延迟的架构瓶颈。

无需权衡的准确性:TruePoint Numerics

传统加速器通常采用激进的量化方式来提高速度,这会迫使模型采用 INT8 或更低精度的数值,从而在整个计算过程中引入累积误差,导致推理质量下降。而 Groq 采用的 TruePoint 数值技术则改变了这一现状。TruePoint 是一种仅在不影响准确度的区域降低精度的方法。结合 LPU 架构,该方法能够在保持高精度数值的同时保证推理质量。TruePoint 格式可以存储 100 位中间累积结果,无论输入位宽如何,都能确保无损累积。这意味着 LPU 可以以较低的精度存储权重和激活函数,同时以全精度执行所有矩阵运算,然后根据下游误差敏感度选择性地量化输出。

我们的编译器策略性地应用精度:

●FP32 用于 1 位错误传播的注意逻辑;

混合专家 (MoE) 权重的块浮点,其中稳健性研究表明没有可测量的退化;

容错层中激活的 FP8 存储。

这种精确的控制使得推理速度比 BF16 提升了 2 - 4 倍,并且在 MMLU 和 HumanEval 等基准测试中,准确率没有明显损失。随着 AI 推理和硬件需求的指数级增长,业界纷纷效仿 MXfp4 等格式以减少模型占用空间。而 Groq 并非牺牲质量来换取速度,而是从架构层面消除了导致这种权衡的限制。

内存架构:SRAM 作为主存储器

传统加速器的内存层级结构是为训练设计的,通常以 DRAM 和 HBM 作为主存储,并配备复杂的缓存系统。然而,DRAM 和 HBM 在每次提取权重时都会引入显著的延迟,每次访问延迟可达数百纳秒。这种设计适用于高批量训练,因为训练过程中的时间局部性可预测且运算强度较高。但推理需要按顺序执行层,运算强度较低,这就凸显了 DRAM 和 HBM 带来的延迟问题。

LPU 则采用 SRAM 作为主存储器,显著降低了访问延迟。这种设计允许计算单元全速加载权重,通过将单层拆分到多个芯片上实现张量并行,为快速、可扩展的推理提供了有力支持。

执行模型:静态调度

GPU 架构依赖动态调度,包括硬件队列、运行时仲裁以及软件内核,这会引入非确定性延迟。在集体运算中,数百个核心必须同步激活张量,任何延迟都会影响整个系统。

1.png

而 Groq 的编译器会预先计算整个执行图,包括芯片间通信模式,精确到单个时钟周期。这种静态调度方式消除了缓存一致性协议、重新排序缓冲区、推测执行开销和运行时协调延迟等问题。

确定性执行可以实现动态调度系统上无法实现的两项关键优化:

●无尾延迟的张量并行:每一层分布在多个芯片上,保证同步,消除困扰 GPU 集体操作的延迟。

张量并行之上的流水线并行:第 N+1 层开始处理输入,而第 N 层继续计算,这是 GPU 难以实现的,因为存在动态调度和无法有效平衡流水线阶段的问题。

并行策略:延迟优化分布

数据并行通过运行多个模型实例来扩展吞吐量。GPU 可以通过数据并行实现良好的扩展性——在不同的输入上运行同一模型的多个副本。这可以提高吞吐量,但如果您正在等待单个响应,则无济于事。

张量并行通过将单个操作分布在多个处理器上来降低延迟。对于实时应用来说,张量并行是关键的优化。我们的 LPU 架构专为张量并行而构建。我们将每一层划分到多个 LPU 上,这样单次前向传递就能更快完成,而无需并行处理更多请求。正是这种架构选择,让 Moonshot AI 的 Kimi K2 尽管拥有数万亿的参数,却依然能够实时生成令牌。

推测解码:在张量并行硬件上执行

推测解码是一种利用较小、较快的 “草稿” 模型预测未来令牌序列,然后在较大的目标模型的单次批量前向传递中验证这些令牌的技术。然而,在 GPU 等传统硬件上,验证步骤通常会受到内存带宽的限制,影响性能提升。

LPU 采用独特的架构设计,能够通过流水线并行更高效地处理推测性 token 批次的验证,加快验证步骤的处理速度,并支持每个流水线阶段接受多个 token(通常为 2 - 4 个)。结合利用张量并行的快速草稿模型,为推理带来了复合性能提升。

软件调度网络:RealScale 芯片到芯片互连

Groq 使用准同步芯片间协议消除自然时钟漂移,将数百个逻辑处理器 (LPU) 对齐,使其如同单个核心一样工作。这样,软件编译器就可以准确预测数据到达时间,便于开发人员进行时序推理。周期性软件同步可以调整基于晶体的漂移,不仅支持计算调度,还支持网络调度,避免了传统架构中复杂的协调问题。

基准测试:Groq 的表现如何

2.png

Groq 非常重视模型质量,为此发布了 OpenBench—— 一个与提供商无关的、面向 LLM 的开放评估框架。在 Groq 和基于 GPU 的 API 提供商上,在 Kimi-K2-Instruct 上运行了 OpenBench 0.1.1 的 MMLU 实现,您可以看到准确率得分很高——这充分展现了 Groq 堆栈的强大功能。

Groq 从底层架构开始构建推理系统,致力于实现速度、规模、可靠性和成本效益的平衡。其第一代 LPU 于 2019 年推出,采用 14nm 制程工艺,就取得了优异的运行效果。Groq 高度重视开发者的反馈和实际性能,结合行业领先的设计和严格的技术基准,致力于为开发者提供极致的 AI 推理体验。未来,Groq 将继续加速硬件和软件的开发,让开发者能够专注于快速构建应用。