英伟达AI芯片机架过热问题引发关注,微软等客户削减订单
近日,据多家媒体报道,英伟达最新推出的AI芯片Blackwell在机架部署中出现了过热问题,这一问题已经引起了其最大客户群的广泛关注。微软、亚马逊网络服务公司(AWS)、谷歌和Meta等科技巨头纷纷削减了对搭载Blackwell芯片的机架——GB200的订单,这一消息在业界引发了广泛讨论。
据报道,英伟达Blackwell AI芯片在装有72个处理器的服务器中使用时,每个机架的功耗可能高达120千瓦,这导致了严重的过热问题。过热不仅限制了GPU的性能,还增加了组件损坏的风险,对数据中心的散热和电力供应构成了挑战。这一问题不仅影响了数据中心的部署进程,还可能对客户的AI项目整体进度造成延误。
首批搭载Blackwell芯片的机架GB200还出现了芯片连接方式故障,这些问题可能与芯片设计或制造过程中的缺陷有关,导致了连接不稳定或不兼容的情况。这些问题虽然在新型芯片中并不罕见,但对于依赖英伟达技术的客户来说,却是一个不小的打击。因此,微软、AWS、谷歌和Meta等四大主要客户已经削减了对Blackwell GB200机架的订单,转而等待其他版本的机架或购买更老款的AI芯片。
例如,由于Blackwell GB200的延迟交付,微软原本计划在其凤凰城数据中心安装大量GB200机架,但现在已经装满了H200芯片。这一变化不仅影响了微软的部署计划,还可能对其AI项目的性能产生一定影响。
英伟达发言人对此问题回应称,公司正在与领先的云服务提供商合作,共同设计和优化GB200系统,以解决当前的过热和连接方式故障问题。发言人还表示,工程迭代是正常且符合预期的,将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与客户共同设计。
然而,这一回应并未完全平息客户的担忧。部分客户表示,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。尽管英伟达强调搭配机架能够发挥更好的芯片效能,但许多客户可能更倾向于单独购买Blackwell芯片,以避免机架带来的额外风险。
英伟达CEO黄仁勋在之前的财报电话会上曾表示,他预计Blackwell将为公司贡献“大量”收入。然而,过热问题以及可能导致的发货延迟,可能会对英伟达的财报产生负面影响。华尔街等金融市场也在密切关注英伟达关于Blackwell发货时间的更多信息,以及过热问题对其长期竞争力的影响。
此次事件也折射出AI芯片市场的竞争态势。英伟达作为全球领先的AI芯片制造商,其产品在市场上占据重要地位。然而,随着AMD、Intel等其他AI芯片制造商的快速崛起,英伟达需要保持警惕并持续优化其产品线。尤其是在面临技术问题时,英伟达需要迅速修复故障,以恢复客户的信心并维持其市场领先地位。

热门文章
- 迈来芯IVT电流传感器通过ASIL C(D)安全认证 2024-09-02
- 江波龙:首颗32Gbit 2D MLC NAND Flash完成流片验证 2024-11-26
- 创新手机芯片,赋能代理人工智能在智能手机的应用 2025-06-16
- 突破传统!全球首款热力学计算芯片 CN101 流片成功 2025-08-15
- 苹果投资印尼承诺增至10亿美元 以解除iPhone 16禁售令 2024-12-04
- 突发!因苹果未完成对印尼约定投资金额,印尼禁止iPhone16在该国销售 2024-10-29
- 因交叉许可协议,AMD或阻止英特尔的出售计划 2025-02-20
- 跨越 20 年芯片拆解,洞察半导体行业的变革式进化 2025-08-21
- 长飞先进武汉基地首批设备搬入,预计明年5月量产通线 2024-12-23
- 英飞凌(infineon)电源和传感产品选择指南2024-2025(英文版) 2024-09-13