深度解读特斯拉 Dojo 芯片:应对核心故障与设计缺陷的绝技
在半导体行业中,芯片的性能和稳定性至关重要。特斯拉的 Dojo 芯片作为目前全球最大的两款处理器之一,备受关注。近日,让我们对特斯拉 Dojo 芯片进行超详细的解读。
在大型处理器上检测故障核心并将其禁用是一项极具挑战性的任务,但特斯拉开发了 Stress 工具。该工具功能强大,不仅能够在 Dojo 处理器上检测容易出现静默数据损坏的核心,还能在拥有数百万个核心的 Dojo 集群中进行核心检测,且无需将其离线。这一功能意义重大,因为特斯拉指出,单个静默数据错误就可能让需要数周才能完成的整个训练过程功亏一篑。
特斯拉的 Dojo 采用了整块 300 毫米晶圆的巨大晶圆级芯片,这使得一次性构建更大的计算能力几乎无法实现。每个 Dojo 晶圆级处理器最多可容纳 8,850 个核心,然而,部分核心在部署后可能会引发静默数据损坏(SDC),进而破坏大规模训练运行的结果。
鉴于 Dojo Training Tile(大型晶圆尺寸芯片)的极端复杂性,即便在制造过程中,检测有缺陷的芯片也并非易事,而涉及到静默数据损坏(SDC)时,情况则更为复杂。所有类型的硬件都不可避免地会出现 SDC,而 Dojo 处理器电流消耗高达 18,000 安培,功耗高达 15,000 瓦,这无疑会产生影响。所有核心都必须按预期运行,否则特斯拉的 AI 训练将变得更加复杂,因为数据损坏导致的一个错误就可能使数周的 AI 训练付诸东流。
特斯拉将每个晶圆级 Dojo 处理器称为 “训练块”。每个训练块包含 25 个 645 平方毫米 D1 “芯片”,这些芯片具有 354 个定制的 64 位 RISC - V 内核,配备 1.25 MB SRAM 用于数据和指令(特斯拉称之为节点,为便于理解,我们将其称为内核)。这些内核以 5×5 集群的形式组织,并使用具有 10 TB/s 定向带宽的机械网络互连。每个 D1 还支持 4 TB/s 的片外带宽。因此,每个 “训练块” 包含 8,850 个内核,支持 8 位、16 位、32 位或 64 位整数以及多种数据格式。特斯拉使用台积电的 InFO_SoW 技术封装其晶圆级 Dojo 处理器。
为了应对核心故障风险,特斯拉最初部署了一种差分模糊测试技术。该初始版本需要生成一组随机指令,并将相同的序列发送到所有核心,执行后比较输出以查找不匹配项。但由于主机和 Dojo 训练模块之间的通信开销巨大,该过程耗时过长。为提高效率,特斯拉改进了方法,为每个核心分配一个由 0.5 MB 随机指令组成的独特有效载荷,核心在 Dojo 训练模块内相互检索有效载荷并依次执行,利用了 Dojo 训练模块的高带宽通信,显著缩短了测试时间。随后,特斯拉进一步增强该方法,允许内核多次运行每个有效载荷且无需在每次运行之间重置其状态,引入额外随机性以暴露细微错误。同时,使用 XOR 运算定期将寄存器值集成到指定的 SRAM 区域,将识别有缺陷的计算单元的概率提高了 10 倍,且不显著降低性能。
特斯拉的方法不仅适用于 Dojo 训练模块级别或 Dojo Cabinet 级别(包含 12 个 Dojo 训练模块),还适用于 Dojo Cluster 级别,能够从数百万个活动核心中识别出故障核心。报告显示,经过适当调整后,压力监控系统在 Dojo 集群中发现了大量存在缺陷的核心。检测时间分布差异较大,大多数缺陷在几秒到几分钟的运行时间内即可发现,而更难检测的缺陷可能需要几个小时的执行时间。值得注意的是,特斯拉的压力测试工具运行轻量级且独立于核心内部,可在后台进行测试,无需核心离线。只有被识别为故障的核心才会被禁用,每个 D1 芯片能容忍少数核心被禁用而不影响整体功能。
此外,特斯拉还提到,压力工具除了检测到故障核心外,还发现了一个罕见的设计级缺陷,工程师通过软件调整成功解决了该缺陷。在监控系统更广泛的部署过程中,还发现并纠正了低级软件层中的几个问题。目前,Stress 工具已完全集成到 Dojo 集群中,用于在 AI 主动训练期间对硬件健康状况进行现场监控。该公司表示,通过此监控观察到的缺陷率与 Google 和 Meta 发布的缺陷率相当,表明该监控工具和硬件与其他公司使用的水平相当。
特斯拉目前计划利用其压力测试获得的数据来研究硬件因老化而导致的长期性能下降。此外,该公司还计划将该方法扩展到硅片投产前的测试阶段和早期验证工作流程,以便在生产前就能发现上述故障。尽管由于老化可能导致系统缺陷(SDC),实现这一目标颇具挑战,但特斯拉的创新举措无疑为芯片行业的发展提供了新的思路和方向。
开发和制造晶圆级处理器是一项极其复杂的任务,业内仅有 Cerebras 和特斯拉完成了这项任务。与其他处理器一样,这些设备容易出现缺陷和性能下降,但特斯拉开发了自己的方法,可以在不让处理器核心下线的情况下识别故障处理器核心,这凸显了其取得的重大进展。为 Cerebras 和特斯拉制造这些巨型处理器的台积电(TSMC)表示,未来几年将有更多公司采用其 SoIC - SoW 技术的晶圆级设计,可见业界正在为此做准备并积累经验。

热门文章
- KYOCERA AVX 线对线连接器产品选型手册(英文版) 2024-09-13
- 因交叉许可协议,AMD或阻止英特尔的出售计划 2025-02-20
- 美国《CHIPS》法案补贴即将落地,台积电、格芯等企业或将受益 2024-11-07
- 印度拟提供至少27亿美元补贴电子零组件,全力支持当地制造业 2025-01-08
- 库存高企,Microchip 宣布关闭 Fab 2 晶圆厂并下调季度财务指引 2024-12-04
- 美国政府正讨论救助计划,助力英特尔渡过难关 2024-11-04
- 宽带隙半导体:军事应用中的卓越之选 2025-05-22
- LITTELFUSE(力特) 电涌保护器产品目录(英文版) 2024-09-23
- 荷兰携手英伟达,共筑AI超级设施硬件技术基石 2025-01-10
- 博通推出3.5D XDSiP封装平台:一颗芯片面积顶4颗H200 2024-12-10