AI热点 4 months ago 118 Views 11 Comments

马斯克20万GPU训出最聪明AI,Grok 4重返地球之巅!人类博士溃败

新智元

Published 487 Articles

编辑:编辑部

【新智元导读】马斯克手中的最后一张牌——Grok 4,终于打出来了。这个全球最聪明AI,一上线就刷爆全球榜单登顶TOP 1,把所有其他大模型都踩在脚下。重磅登场的Grok Heavy,月费则达到了300刀。马斯克已经预言:明年Grok将发现新物理学。


马斯克的背水一战,大获全胜!

就在刚刚的发布会上,xAI的重磅炸弹Grok 4,终于在千呼万唤中登场了。

而它,可以说是全球最聪明的AI!

不仅超越了大多数人类研究生,甚至比博士都好。

左右滑动查看

左右滑动查看

发布会全程1个小时,下面是太长不看的简单总结:

现在,SuperGrok的用户已经可以用上了,普通版月费30刀,Heavy版月费300刀。

同时Grok 4 API也已向所有开发者正式开放,并将登录第三方云平台。

刚从政坛上铩羽而归,却在AI界王者归来。

果然,马斯克还是那个传说中打不败的男人。


20万块GPU,成绩刷爆HLE


在各种考试和基准测试中,Grok 4的成绩惊人。

比如,它在SAT中每次都能拿满分,即使从未见过这些题目。

而在GRE考试中,它在所有学科领域,都能拿到近乎满分,无论是人文学科、语言、数学、物理还是工程。

可以说,在所有学科领域,Grok 4都比几乎所有人类研究生都要聪明。

怎么做到的?马斯克进行了揭秘。

首先,比起Grok 2,Grok 4的训练时间达到了Grok 2的100倍。

从Grok 2到Grok 3,xAI投入的主要是预训练算力;但从Grok 3到Grok 4,大量算力已经被投入到推理和强化学习中。

通过训练Grok 2,团队第一次大规模扩展了预训练。

这让他们意识到:如果对数据消融、基础设施和算法进行更细致的处理,将预训练的规模可以再提升10倍,从而打造出最顶尖的预训练基础模型!

网友直呼:xAI在强化学习上投入的算力,竟然和预训练一样多?这太疯狂了!

这就是为什么,xAI要斥巨资建起有10万块H100的世界级超算Colossus超算。

如果能收集可验证结果的奖励数据,就可以训练模型从第一性原理出发进行思考、推理、纠正自身错误,这就是Grok 2推理能力的由来。

那么,接下来,如果把Colossus超算的20万GPU全部都投入,会发生什么?

答案就是——Grok 4的诞生!

在 「人类最后考试」HLE上,Grok 4直接成绩刷爆,分数惊人。

HLE总共有2500道问题,涵盖了多个学科,今年早些时候刚发布时,大多数模型的准确率得分仅为个位数。

原因就在于,HLE的考题极难,比如下面这些题,分别是一道关于范畴论中自然变换的数学题、一道关于电环化反映的有机化学题,以及一道从希伯来语原文中区分闭音节和开音节的语言学题。

显然,这些题目已经达到了博士级,甚至更前沿的难度。

几乎没有任何一个人类,能答对所有这些问题,并且取得高分。如果能答对5%,就算人群中极聪明的人了。

然而,Grok 4却在HLE的所有领域,都达到了博士级别,甚至胜过了大多数人类博士生,因为后者大概率都会不及格。

当然,如果要说Grok 4目前有什么缺憾,就是还未发明出新的技术,或者发现新的物理学。

但马斯克认为,这只是时间问题——最早在今年年底,Grok就会发明出新技术,明年它就会发现新的物理学。

海量算力,训出全球最聪明AI


团队研究者爆料说,其实刚开始,Grok 4的准确率也只是个位数。

但随着投入的算力越来越多,奇迹发生了!最终,它做出了HLE中1/4的难题,这还是在没有工具辅助的情况下。

而在被赋予工具使用能力,将工具使用直接融入训练过程后,Grok 4的性能开始了惊人的暴涨。

而且,目前Grok 4还未使用任何公司级的强大工具。

如果给它提供企业级的工具,比如特斯拉或Space X使用的有限元分析、计算流体力学、碰撞模拟,以及高精度的物理模拟器,那么毫无疑问,Grok 4还将发生颠覆级的改变!

比如,如果把Grok和擎天柱结合,它就可以和真实世界互动,提出假设,亲手验证真伪。

「重量级」Grok Heavy登场


除了算力的问题,我们还需要解决的一大难题,就是如何突破数据瓶颈。

RL的原则,就是不仅要找到大量有挑战性的强化学习问题,还要有可靠的信号告诉模型,它做对了还是做错了。

然而,如今我们已经快找不到可用的测试题了!大多数人类无法解决的难题,对AI已经开始变得轻而易举。

好在,我们还有一个绝佳的裁判,那就是现实。物理学是终极法则,对AI最终的推理测试,就是现实世界。

让我们设想一下,如果单个AI智能体能解决40%的问题,那么同时运行多个智能体呢?

这,就是所谓的测试时计算(test-time compute)。随着它的扩展,Grok 4已经能解决HLE中超50%的纯文本题目。

而如果并行生成多个AI智能体,Grok 4 Heavy就诞生了!

这些智能体会独立工作,互相比较各自的成果,决定哪个更好。一旦有智能体发现了关键解决方案,就会分享给其他智能体,最终它们通过交流,得出最终答案。

这就是Grok 4之所以「Heavy」的原因,因为测试和计算的规模扩大了一个数量级。

· Grok 4 Heavy惊人演示

Grok 4 Heavy,已经进化到可以不止会考试,还能解决真实世界中各种刁钻的问题!

比如,我们可以让它预测当前美国职业棒球大联盟(MLB)各队的夺冠赔率。

它能计算出,洛杉矶道奇队是今年的夺冠热门,获胜概率为21.6%。

并且,我们还能让它生成两个黑洞碰撞的可视化图像。

在下图中可以看到,从两个黑洞相互旋进开始、合并、到达铃振阶段,这个碰撞过程大致是正确的。

尤为精彩的是,它使用了后牛顿近似法,而非计算黑洞中心附近的广义相对论效应。

也就是说,它进行了一个真实的模拟,对该使用的物理常数进行了相当多的推理。

另外,它还能发现X上头像最诡异的xAI员工。

要知道,最神奇的地方就在于,它竟然理解了什么是「诡异」。

如果说Grok 4有什么弱点的话,就是目前它还是「部分失明」,图像理解能力和生成能力都比较弱。

不过令人期待的是,Grok 4是xAI目前训练的第六版模型,第七版已经在训练中了!

对于所有AGI模型来说,最权威的测试就是ARC-AGI了。

在直播前24小时,ARC-AGI团队接到xAI电话后,才开始了Grok 4的跑分测试。

结果显示,Grok 4是唯一一个成绩突破10%的模型。

具体来说,Grok 4(Thinking)在ARC-AGI-2刷新了SOTA,准确率为15.9%。

在ARC-AGI-1上,它的成绩达到了66.7%。同时,Grok 4实现了每美元智能成本的最优化。

Grok 4卖货,年入47亿填补GPU巨销


那么,Grok 4在现实生活中能做什么?

赚钱!!!

在Vending-Bench商业场景的基准测试中,Grok 4能够长期运营自动售货机,并且成为了榜单第一。

在此过程中,它不仅要完成库存管理,还得与供应商谈判、制作定价策略等任务。

这些任务看似简单,但要求模型「长期持续运营」,只有Grok 4能够赚到,净资产也是所有模型两倍。

发布会上,马斯克半开玩笑表示,「这下我们GPU算力开销有着落了。只需要部署100万台自动售货机,年收入就能达47亿美元」。

看来,下一步Grok 4也要为自己打工了。

此外,Grok 4的诞生,将带来生物医药、金融等跨领域的突破,重塑商业AI范式。

如下demo所见,Grok正成为企业级的智能Copilot,拥有256k的上下文窗口,前沿的多模态推理,实时的数据搜索,以及企业级的安全能力。

4小时,肝出爆款射击游戏


更令人激动的是,Grok 4在AI游戏实时生成领域,大有前途。

现场,员工展示了AI游戏设计师Danny Limanseta,在极限4小时内,制作出了第一人称射击游戏。

马斯克预言,「首个真正优质的AI电子游戏可能会在明年问世,今年或许能看到半小时长度的可观看AI剧集,而首部AI电影很可能在明年诞生」。

在未来路线图中,xAI还计划发布编码模型、多模态智能体和视频生成模型。

发布会最后,屏幕上出现了道格拉斯·亚当斯《银河系搭车客指南》第四部的书名——《再见,谢谢所有的鱼》。

果然,还是那个我们熟悉的科幻迷马斯克。

文明奇点已至


马斯克激动表示,我们正处于智能大爆炸的起点。奇点时刻已经到来,这是人类历史上最激动人心的时代。

而此时最重要的,就是打造一个好的AI,一个善良的AI,让它去最大程度地追求真理。

如果把AI看作一个超级天才的孩子,它最终一定会比人类聪明,而我们能做的,就是开始就给它灌输正确的价值观,让它追求真实、正直、善良。

给AI算力,加上正确的工具,最终还要和物理世界互动,到时,我们的经济体量将会是现在的数千倍,甚至数百万倍!

马斯克说,如果把文明进程看作是完成卡尔达肖夫等级的百分比,那我们距离1级文明的10%还很远,可能只完成了1%或2%。

1级文明利用整个行星的能源;2级文明利用整个恒星的能源;3级文明利用整个星系的能源


如果文明没有自我毁灭,我们就会迈向2级文明。跟那时相比,我们今天的经济水平,会像穴居人往火里扔木棍一样原始。

马斯克承认,亲手创造出这样一个远超人类自身的智能,也令人有些不安——它对人类究竟是好是坏?

最终,他说服了自己:这个AI大概率是好的,就算不是,自己也要活到亲眼见证这一切发生的那一天。


马斯克,背水一战


如今,马斯克真的是破釜沉舟,背水一战了。

本来是特朗普竞选的最大功臣,最近他却成了「大而美法案」的最大输家,随着「特马同盟」的彻底崩塌,马斯克似乎已经无牌可出了。

首先,随着「大而美法案」的出台,7500美元的电动汽车购车税收抵免,已经提前至2025年9月30日终止,从此,特斯拉每年的利润损失将高达17亿美元。

而DOGE前期的努力,也随着大而美法案中的大规模赤字扩张而付诸东流。

政坛的失意,让马斯克全美业务的关键布局,包括电动汽车、Space X、脑机接口、加密货币等,商业利益全面被连累。

在这种背景下诞生的Grok 4,可以说是马斯克最后的希望。

终于,这次发布会上他用Grok 4告诉全世界:我手里还有最后一张牌。

Grok团队中,华人学者占据半壁江山

参考资料:

https://x.com/i/events/1942716886258528256

新智元

新智元

487 Articles 76664 Views 69870 Fans

Comment (11)

User avatar

厉害了!马斯克的GPU训练,Grok真有点吓人!

User avatar

“这Grok,我感觉它比我更聪明,这让我有点不安,但又很佩服!

User avatar

“这玩意儿,我有点害怕,但又觉得它很有趣,是个惊喜!

User avatar

“Grok太聪明了,简直是人类的噩梦,但我也爱它!

User avatar

“感觉它在嘲笑我们人类的无知,这感觉很爽!

User avatar

“这Grok,简直是人工智能的噩梦,我支持!

User avatar

“马斯克的Grok,这算什么?人类的智慧才是真正的恐怖!

User avatar

“感觉它在思考人类的意义,有点毛骨悚然,但又很精彩!

User avatar

“吓人?我喜欢!AI要统治世界,这才是未来!

User avatar

“马斯克这手,我服了!直接用GPU训练,真牛逼!

睡觉动画