据媒体报道,NVIDIA新一代旗舰AI芯片Blackwell被曝在高容量服务器机架中存在严重的过热问题,可能导致交付延迟。
有知情人士爆料称,Blackwell芯片在装有72个处理器的服务器中使用时会产生过热问题,这些机器预计每个机架的功耗高达120kw,过热会限制GPU性能并有损坏组件的风险。
对此,NVIDIA发言人回应媒体称:“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”
虽然面临技术问题,但NVIDIA的AI芯片需求依然强劲,全球近90%的市场仍由其控制,NVIDIA表示:“目前客户正在抢占GB200系统的市场先机”。
值得注意的是,这并不是Blackwell芯片首次因设计缺陷而延迟交付,NVIDIA于今年3月推出了Blackwell芯片系列,但在年中的时候,市场上开始流传Blackwell存在架构设计隐患的消息。
10月晚些时候,NVIDIACEO黄仁勋表示,在长期合作伙伴台积电的帮助下,NVIDIABlackwell AI芯片的设计缺陷已经修复。
他当时预计,Blackwell芯片将在第四季度发货,而如今据预计,改良后的Blackwell GPU最快要明年1月底才能出货。