媒体:英伟达新款AI芯片面临延期交付,配套服务器还出现过热问题
原标题:媒体:英伟达新款AI芯片面临延期交付,配套服务器还出现过热问题
导读:
光环工作室的首席参谋官因其公开支持群体引发了部分玩家的失望和争议在的领英页面上清晰可见一条象征的彩虹色横幅而她的推特个人简介也标明了的性别代词和彩虹标志表明其对多样性与包容性的...
《光环》工作室的首席参谋官(ChiefofStaff)MelissaBoone因其公开支持LGBTQ+群体,引发了部分玩家的失望和争议。在MelissaBoone的领英页面上,清晰可见一条象征LGBTQ+的彩虹色横幅,而她的推特个人简介也标明了“her/she”的性别代词和彩虹标志,表明其对多样性与包容性的支持。
11月17日消息,继英伟达首席执行官黄仁勋近日承认新一代高性能GPU Blackwell确实存在设计上的缺陷之后,该芯片又遇到配套服务器过热的情况。近几个月,英伟达多次要求供应商修改服务器机柜设计,以 过热问题。这一消息已引起了客户的焦虑,他们担心这可能会导致服务器的延迟使用。
这些新的服务器机柜设计之所以引人注目,是因为它们能够集成72颗英伟达的人工智能芯片。人工智能开发者希望,这种高集成度能够使他们更快地训练更大的人工智能模型。包括微软、Meta和埃隆·马斯克(Elon Musk)的xAI在内的主要客户,对英伟达在今年3月发布的Blackwell表现出浓厚的兴趣。
有大型云服务提供商的高管们担心,Blackwell推迟上市,可能会影响他们明年启动GPU集群的计划。他们指出,至少需要几周时间来 系统并 潜在的问题,尤其是考虑到Blackwell机柜新颖的设计和前所未有的复杂性。
微软等客户计划通过更换一些组件来定制他们的Blackwell机柜,以更好地适应他们的数据中心,但最终的设计仍然取决于英伟达如何同它们进行配合。
英伟达发言人没有对Blackwell机柜设计的最终确定情况发表评论。该发言人提到,英伟达的“GB200系统是有史以来最先进的计算机”,并且“将它们集成到多样化的数据中心环境中需要与客户共同协作。”
英伟达的客户们面临着巨大的压力,因为他们希望能够在竞争对手之前推出数据中心服务器集群。英伟达首席执行官黄仁勋今年9月曾在旧金山高盛科技大会上表示:“我们组件、技术和基础设施以及软件的交付,直接影响到客户的收入,直接影响到他们的竞争力。我们有着许多情绪更为激动的客户。”
黄仁勋在今年3月举行的年度GTC大会上不仅发布了Blackwell系列芯片,还推出了Blackwell服务器的机柜 方案。英伟达已生产了连接其芯片的电缆,黄仁勋的推销点是,客户可以通过订购机柜以及芯片和电缆来确保更快的连接。加载72颗GPU的机柜重达3000磅(约合1.5吨),英伟达宣称它是连接芯片以获得最快性能的最佳方式。
机柜及其密集的多个GPU布局是英伟达迄今为止最复杂的设计。在公开推出机柜几个月后,英伟达工程师在 新系统时发现机柜无 常工作。连接太多高度复杂的芯片会导致它们过热,使机柜中的服务器变得不太可靠,并影响它们的性能。机柜还需要液冷,而不是传统的空气冷却。大多数人工智能开发人员和数据中心提供商以前从未使用液冷技术,这也是英伟达客户对此种设计感到焦虑的另一个原因。
与此客户正在考虑替代方案。一家已经订购了机柜的云公司的高管表示,Blackwell的相关问题导致该公司考虑购买更多的英伟达Hopper芯片,也就是H100或H200。客户可能会选择购买更多的Hopper芯片,而不是等待Blackwell芯片的上市。分析师和投资者认为,Hopper系列的高利润率可能会提升英伟达的短期收入。
这种选择可能会影响英伟达的长期收入增长。原因是那些转向Hopper芯片的客户,未来可能不会大量购买Blackwell芯片和NVLink服务器。这样一来,英伟达未来的销售额可能会减少。(腾讯科技特约编译/无忌)