英伟达AI芯片机架过热问题引发关注,微软等客户削减订单
近日,据多家媒体报道,英伟达最新推出的AI芯片Blackwell在机架部署中出现了过热问题,这一问题已经引起了其最大客户群的广泛关注。微软、亚马逊网络服务公司(AWS)、谷歌和Meta等科技巨头纷纷削减了对搭载Blackwell芯片的机架——GB200的订单,这一消息在业界引发了广泛讨论。
据报道,英伟达Blackwell AI芯片在装有72个处理器的服务器中使用时,每个机架的功耗可能高达120千瓦,这导致了严重的过热问题。过热不仅限制了GPU的性能,还增加了组件损坏的风险,对数据中心的散热和电力供应构成了挑战。这一问题不仅影响了数据中心的部署进程,还可能对客户的AI项目整体进度造成延误。
首批搭载Blackwell芯片的机架GB200还出现了芯片连接方式故障,这些问题可能与芯片设计或制造过程中的缺陷有关,导致了连接不稳定或不兼容的情况。这些问题虽然在新型芯片中并不罕见,但对于依赖英伟达技术的客户来说,却是一个不小的打击。因此,微软、AWS、谷歌和Meta等四大主要客户已经削减了对Blackwell GB200机架的订单,转而等待其他版本的机架或购买更老款的AI芯片。
例如,由于Blackwell GB200的延迟交付,微软原本计划在其凤凰城数据中心安装大量GB200机架,但现在已经装满了H200芯片。这一变化不仅影响了微软的部署计划,还可能对其AI项目的性能产生一定影响。
英伟达发言人对此问题回应称,公司正在与领先的云服务提供商合作,共同设计和优化GB200系统,以解决当前的过热和连接方式故障问题。发言人还表示,工程迭代是正常且符合预期的,将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与客户共同设计。
然而,这一回应并未完全平息客户的担忧。部分客户表示,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。尽管英伟达强调搭配机架能够发挥更好的芯片效能,但许多客户可能更倾向于单独购买Blackwell芯片,以避免机架带来的额外风险。
英伟达CEO黄仁勋在之前的财报电话会上曾表示,他预计Blackwell将为公司贡献“大量”收入。然而,过热问题以及可能导致的发货延迟,可能会对英伟达的财报产生负面影响。华尔街等金融市场也在密切关注英伟达关于Blackwell发货时间的更多信息,以及过热问题对其长期竞争力的影响。
此次事件也折射出AI芯片市场的竞争态势。英伟达作为全球领先的AI芯片制造商,其产品在市场上占据重要地位。然而,随着AMD、Intel等其他AI芯片制造商的快速崛起,英伟达需要保持警惕并持续优化其产品线。尤其是在面临技术问题时,英伟达需要迅速修复故障,以恢复客户的信心并维持其市场领先地位。

热门文章
- 揭秘 1.4nm 技术亮点,英特尔更新晶圆代工战略路线 2025-04-30
- NAND闪存价格Q1预计环比下滑10%~15% 2025-01-08
- Intel 18A工艺细节曝光,英特尔这次稳了? 2025-04-23
- 基于 T2L 的 HIPERFACE DSL:工业编码器通信的新选择 2025-05-23
- TE Connectivity (TE) 混合动力与电动交通电池解决方案产品概述(英文版) 2024-09-09
- ABLIC(艾普凌克)汽车IC(电源管理IC)产品选型手册 2024-09-27
- 汽车操作系统开源成风,背后原因大揭秘 2025-05-14
- 小米4nm SoC芯片曝光,预计2025年上半年亮相 2024-08-28
- 芯片测试关键:Trim 技术原理、应用与趋势解析 2025-05-06
- 美国拟管制16nm芯片技术,全球半导体产业面临新挑战 2025-01-13