设为首页|收藏本站|
开启左侧

[科技] AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训

[复制链接]
24086 2
陈秀芳 发表于 2024-7-16 13:16:33 | 只看该作者 打印 上一主题 下一主题
 
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第1张图片





  新智元报道  



编辑:桃子【新智元导读】马斯克官宣xAI建造的世界最大超算集群,由10万块H100搭建,预计本月末开始投入训练。另一边,OpenAI再次加码,将打造由10万块GB200组成的超算,完全碾压xAI。


为了抵达AGI,全世界的公司们准备要烧掉所有的GPU!

Information独家报道称,OpenAI的下一个超算集群,将由10万块GB200组成。
这可用上了英伟达迄今为止最强的AI芯片
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第2张图片


另一边,xAI也在打造号称「世界上最大超算集群」,由100k H100组成,并将在本月末投入训练。
在马斯克最新帖子中,针对报道——xAI与甲骨文终止服务器交易谈判,立即做出了回应。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第3张图片


他表示,xAI已经向甲骨文购买了24000块H100,并在这些芯片上训练的Grok 2。
Grok 2目前正在进行微调、错误修复,预计下个月准备就绪发布。


与此同时,xAI也在自行建设10万块H100搭建的集群,目标是实现最快的训练完成时间,计划本月晚些时候开始训模型。


这将成为世界上最强的训练集群,优势不言而喻。


我们决定自行建设10万块H100芯片系统,以及下一代主要系统的原因是,我们的核心竞争力取决于能否比其他AI公司更快。这是赶上竞争对手的唯一途径。


甲骨文是一家优秀的公司,还有另一家公司(暗指微软)在参与OpenAI的GB200集群项目中也表现出很大潜力。但是,当我们的命运取决于成为速度最快的公司时,我们必须亲自掌控,而不能只做一个旁观者。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第4张图片


简言之,在这个日新月异的时代下,想要超越竞争对手,必须确保有绝对的速度优势。
xAI甲骨文谈崩,百亿美元打水漂





今年5月,Information曾报道,xAI一直在讨论一项多年协议,即从甲骨文租用英伟达AI芯片。
这笔交易预计高达100亿美元,却因一些问题陷入僵局。
其中就包括,马斯克要求超算建造的速度,完全超越了甲骨文勺想象。还有甲骨文勺担心xAI首选地点没有足够的电力供应。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第5张图片


为了改变这一现状,只能依靠自力更生了。
现在,xAI在田纳西州孟菲斯市,正建起自己的AI数据中心,其中用到了Dell和Supermicro出货的英伟达芯片。
根据参与谈判的人士透露,甲骨文并没有参与这个项目。
其实,在此之前,xAI已经从甲骨文租用了许多英伟达芯片,成为这家云计算GPU供应商最大的客户之一。
尽管更广泛的谈判失败,但这项协议目前仍将继续。
从马斯克最新回应中,可以看出,甲骨文芯片数量已经从5月份的16000块增长到了24000块。
10万块H100串联


不过,马斯克依旧希望建造一台配备10万块英伟达GPU的超级计算机,将其称为「Gigafactory of Compute」。
他表示,xAI需要更多的芯片,来训练下一代AI模型——Grok 3.0。
老马在5月曾向投资者表示,希望在2025年秋季之前让这台超级计算机运行起来,而且他将个人负责按时交付超级计算机,因为这对于开发LLM至关重要。
他多次公开称,10万个H100组成的液冷训练集群,将在几个月后上线。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第6张图片


之所以Grok模型迭代至关重要,因其为X社交应用订阅套餐的一部分,起价为每月8美元,包含了各种功能。
就在上周,xAI还发布了马斯克和其他员工,在数据中心合照。照片后背景中,摆满了服务器。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第7张图片


虽然帖子中,并没有指明位置。但在6月的时候,Greater Memphis Chamber的主席表示,xAI正在孟菲斯的伊莱克斯工厂建造一台超算。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第8张图片


位于田纳西州孟菲斯的新xAI工厂的公用设施布局
戴尔公司CEO Micael Dell表示,戴尔正帮助xAI建立一个数据中心。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第9张图片


另外,Supermicro的CEO Charles Liang还曾发布了一张自己与马斯克在数据中心的合影,也证实这家公司和xAI的合作关系。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第10张图片


值得一提的是,上个月马斯克宣布xAI已经完成,惊人的60亿美元B轮融资,公司估值达到240亿美元。
B轮融资的投资者包括Andreessen Horowitz、红杉资本、Valor Equity Partners、Vy Capital和Fidelity Management&Research等8位投资者。
他个人表示,最新一轮融资中,大部分资金将投入到算力建设之中。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第11张图片


显然,xAI建设的超算项目,是其追赶OpenAI努力的一部分。
10万块GB200超算,两年租用50亿美金





其实,另一边,OpenAI也在马不停蹄地加速研发速度,不敢有一丝懈怠。
两位知情人士透露,甲骨文与微软的交易,涉及一个由10万块英伟达即将推出的GB200芯片组成的集群。
等这一超算建成之时,马斯克10万块H100也就不算什么了。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第12张图片


有网友对此惊叹道,集群中英伟达GB200芯片数量,大致相当于英特尔80286处理器中的晶体管数量 我很惊讶在我的有生之年能看到这一幕。
还有人对此分析道,「GB200的训练性能将是H100的4倍」。
GPT-4是在90天内用25,000个A100(H100的前代产品)训练出来的。


所以理论上你可以用100,000个GB200在不到2天内训练出GPT-4,尽管这是在理想条件下,可能并不完全现实。


但这确实让人不禁想象,他们用这个超级计算机集群在90天内能训练出什么样的AI模型,而这个集群预计将在2025年第二季度投入运行。
在GTC 2024大会上,老黄曾介绍道,H100比A100要快4倍,B200比H100快3倍。
据熟悉GPU云定价的人士称,假设两家公司签署了一份多年期协议,那么租用这样一个集群的成本可能会在两年内达到50亿美元左右。
这一集群,预计在2025年第二季度准备就绪。
甲骨文将从英伟达购买芯片,然后租给微软,微软再把芯片提供给OpenAI。毕竟,这已经成为微软和OpenAI互利互惠一贯的做法了。
微软向OpenAI投钱,作为回报,获得OpenAI新模型的访问权。
AI争霸开启!OpenAI建10万块GB200超算,马斯克备10万块H100开训 第13张图片


根据参与规划的人士称,甲骨文计划将这些芯片放在德克萨斯州阿比林的一个数据中心。
这笔交易同时表明,微软自己还无法获得足够的英伟达芯片。
而且,云计算供应商之间相互租用服务器的情况,其实并不常见,但对英伟达芯片的强烈需求,才导致了这场不寻常的交易。
去年,微软曾与CoreWeave达成了类似的租用服务器协议,以增加英伟达服务器的容量。

参考资料:


上一篇:无畏转辅助堪称多米诺骨牌,花海cat久哲老林都被影响,梦之队格局改变
下一篇:自动驾驶出租车火了,美国的经验是什么?
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 

精彩评论2

正序浏览
跳转到指定楼层
沙发
终南老人门生 发表于 2024-7-16 14:36:24 | 只看该作者
 
[点赞][点赞][点赞]
回复 支持 反对

使用道具 举报

 
 
马斯克必胜
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-9-13 07:23