您的位置:首页 > 行业资讯 > 正文

英伟达AI芯片机架过热问题引发关注,微软等客户削减订单

时间:2025-01-14 14:26:20 浏览:24

近日,据多家媒体报道,英伟达最新推出的AI芯片Blackwell在机架部署中出现了过热问题,这一问题已经引起了其最大客户群的广泛关注。微软、亚马逊网络服务公司(AWS)、谷歌和Meta等科技巨头纷纷削减了对搭载Blackwell芯片的机架——GB200的订单,这一消息在业界引发了广泛讨论。

据报道,英伟达Blackwell AI芯片在装有72个处理器的服务器中使用时,每个机架的功耗可能高达120千瓦,这导致了严重的过热问题。过热不仅限制了GPU的性能,还增加了组件损坏的风险,对数据中心的散热和电力供应构成了挑战。这一问题不仅影响了数据中心的部署进程,还可能对客户的AI项目整体进度造成延误。

首批搭载Blackwell芯片的机架GB200还出现了芯片连接方式故障,这些问题可能与芯片设计或制造过程中的缺陷有关,导致了连接不稳定或不兼容的情况。这些问题虽然在新型芯片中并不罕见,但对于依赖英伟达技术的客户来说,却是一个不小的打击。因此,微软、AWS、谷歌和Meta等四大主要客户已经削减了对Blackwell GB200机架的订单,转而等待其他版本的机架或购买更老款的AI芯片。

例如,由于Blackwell GB200的延迟交付,微软原本计划在其凤凰城数据中心安装大量GB200机架,但现在已经装满了H200芯片。这一变化不仅影响了微软的部署计划,还可能对其AI项目的性能产生一定影响。

7.png

英伟达发言人对此问题回应称,公司正在与领先的云服务提供商合作,共同设计和优化GB200系统,以解决当前的过热和连接方式故障问题。发言人还表示,工程迭代是正常且符合预期的,将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与客户共同设计。

然而,这一回应并未完全平息客户的担忧。部分客户表示,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。尽管英伟达强调搭配机架能够发挥更好的芯片效能,但许多客户可能更倾向于单独购买Blackwell芯片,以避免机架带来的额外风险。

英伟达CEO黄仁勋在之前的财报电话会上曾表示,他预计Blackwell将为公司贡献“大量”收入。然而,过热问题以及可能导致的发货延迟,可能会对英伟达的财报产生负面影响。华尔街等金融市场也在密切关注英伟达关于Blackwell发货时间的更多信息,以及过热问题对其长期竞争力的影响。

此次事件也折射出AI芯片市场的竞争态势。英伟达作为全球领先的AI芯片制造商,其产品在市场上占据重要地位。然而,随着AMD、Intel等其他AI芯片制造商的快速崛起,英伟达需要保持警惕并持续优化其产品线。尤其是在面临技术问题时,英伟达需要迅速修复故障,以恢复客户的信心并维持其市场领先地位。