英伟达AI芯片机架过热问题引发关注,微软等客户削减订单
近日,据多家媒体报道,英伟达最新推出的AI芯片Blackwell在机架部署中出现了过热问题,这一问题已经引起了其最大客户群的广泛关注。微软、亚马逊网络服务公司(AWS)、谷歌和Meta等科技巨头纷纷削减了对搭载Blackwell芯片的机架——GB200的订单,这一消息在业界引发了广泛讨论。
据报道,英伟达Blackwell AI芯片在装有72个处理器的服务器中使用时,每个机架的功耗可能高达120千瓦,这导致了严重的过热问题。过热不仅限制了GPU的性能,还增加了组件损坏的风险,对数据中心的散热和电力供应构成了挑战。这一问题不仅影响了数据中心的部署进程,还可能对客户的AI项目整体进度造成延误。
首批搭载Blackwell芯片的机架GB200还出现了芯片连接方式故障,这些问题可能与芯片设计或制造过程中的缺陷有关,导致了连接不稳定或不兼容的情况。这些问题虽然在新型芯片中并不罕见,但对于依赖英伟达技术的客户来说,却是一个不小的打击。因此,微软、AWS、谷歌和Meta等四大主要客户已经削减了对Blackwell GB200机架的订单,转而等待其他版本的机架或购买更老款的AI芯片。
例如,由于Blackwell GB200的延迟交付,微软原本计划在其凤凰城数据中心安装大量GB200机架,但现在已经装满了H200芯片。这一变化不仅影响了微软的部署计划,还可能对其AI项目的性能产生一定影响。
英伟达发言人对此问题回应称,公司正在与领先的云服务提供商合作,共同设计和优化GB200系统,以解决当前的过热和连接方式故障问题。发言人还表示,工程迭代是正常且符合预期的,将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与客户共同设计。
然而,这一回应并未完全平息客户的担忧。部分客户表示,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。尽管英伟达强调搭配机架能够发挥更好的芯片效能,但许多客户可能更倾向于单独购买Blackwell芯片,以避免机架带来的额外风险。
英伟达CEO黄仁勋在之前的财报电话会上曾表示,他预计Blackwell将为公司贡献“大量”收入。然而,过热问题以及可能导致的发货延迟,可能会对英伟达的财报产生负面影响。华尔街等金融市场也在密切关注英伟达关于Blackwell发货时间的更多信息,以及过热问题对其长期竞争力的影响。
此次事件也折射出AI芯片市场的竞争态势。英伟达作为全球领先的AI芯片制造商,其产品在市场上占据重要地位。然而,随着AMD、Intel等其他AI芯片制造商的快速崛起,英伟达需要保持警惕并持续优化其产品线。尤其是在面临技术问题时,英伟达需要迅速修复故障,以恢复客户的信心并维持其市场领先地位。

热门文章
- 小米澎湃OS 2代码泄露:高通第二代骁龙8至尊版芯片细节初现端倪 2024-12-02
- 美《芯片法案》助力半导体产业链:Absolics与英特格获巨额补贴 2024-12-06
- 超声导波的混沌振子检测研究中射频功率放大器的应用 2024-08-07
- 智驾供应商地平线将在香港IPO,筹资目标高达6.96亿美元 2024-10-23
- 2024年TOREX(特瑞仕)产品选型手册(中文版) 2024-09-20
- 解构天玑9400:揭秘顶级SoC芯片设计精髓 2024-10-12
- KYOCERA AVX 欧洲航天局和 CECC 陶瓷电容器产品选型手册(英文版) 2024-09-13
- CTS Temperature Solutions - 泳池和水疗产品手册(英文版) 2024-09-19
- 如何选择与计算MCU最小系统电路中晶振电路的规格参数 2024-08-19
- 威兆半导体发布700V SiC MOSFET,赋能新能源与储能市场 2024-09-02