开源项目 1天前 165 阅读 11 评论

Grok 4 – 马斯克旗下xAI推出的新一代大模型

AI中国
AI中国

发布了 7599 篇文章

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。

Grok 4的主要功能

  • 卓越的推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出超越人类的推理水平。
  • 多模态理解:能理解主观概念,并搜索和分析图片。
  • 信息整合与摘要:从社交媒体等渠道整合信息,提取关键事件并按时间排序。
  • 代码与可视化生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞。
  • 语音交互改进:支持五种新声音,对话更流畅,情感表达更自然。
  • 复杂任务处理:在模拟经营等复杂任务中表现出色,具备强大的战略规划和执行能力。
  • 并行智能体协作:SuperGrok Heavy版本,支持多个智能体并行解决复杂问题。

Grok 4的测试表现

  • 官方测试
    • Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。
  • 第三方测评(大模型性能评估平台Artificial Analysis 测试):
    • 人工智能指数:Grok 4 拿到 73 分,超过 OpenAI o3(70 分)、谷歌 Gemini 2.5 Pro(70 分)、Anthropic Claude 4 Opus(64 分)和 DeepSeek R1 0528(68 分)。
    • 编码指数和数学指数:Grok 4 均排名第一。
    • GPQA Diamond 得分:创历史新高,达到 88%,超过 Gemini 2.5 Pro 的 84%。
    • Humanity’s Last Exam 得分:创历史新高,达到 24%,超过 Gemini 2.5 Pro 的 21%。
    • 速度:Grok 4 为 75 token/秒,虽不及 o3(188 token/秒)和 Gemini 2.5 Pro(142 token/秒),但优于 Claude 4 Opus Thinking(66 token/秒)。

Grok 4的产品定价

  • 付费订阅计划
    • SuperGrok:年费300 美元,月费30 美元。
    • SuperGrok Heavy:年费3000 美元,月费300 美元。
  • API 调用定价
    • 输入:3 美元 / 百万 token。
    • 输出:15 美元 / 百万 token。

Grok 4的官网地址

  • 官网地址:Grok

Grok 4的应用场景

  • 教育辅导:为学生提供个性化的学习方案,解答复杂的学术问题,帮助学生更好地理解和掌握知识。
  • 科学研究:能够分析大量实验数据,预测科学趋势,助力科学家发现新的理论和技术。
  • 商业与金融:进行市场分析和预测,为企业的商业策略制定提供数据支持,优化企业运营效率。
  • 内容创作:辅助创意生成,支持广告、影视、游戏等领域的剧本撰写和动画制作,提升创作效率。
  • 智能助手:作为智能语音助手,处理多模态信息,帮助用户完成日常任务,提升生活便利性。
AI中国

AI中国

7599篇文章 1158776阅读 950300粉丝

评论 (11)

用户头像

Wow,马斯克的xAI搞了个这么厉害的Grok 4!

用户头像

这Grook 4,它简直就是个天才,虽然我还是不太理解它!

用户头像

这Grok 4,我觉得它代表着一种新的可能性,虽然有点吓人。

用户头像

这Grook 4,它真的让我觉得,AI可能比我们想象的要复杂得多。

用户头像

我觉得这Grok 4,是人类对AI的一种大胆的挑战,值得我们关注。

用户头像

它就像一个不受约束的疯子,但有时候,疯子才是最聪明的。

用户头像

这Grook 4,简直是科技界的恶作剧,我爱!

用户头像

我挺喜欢这种不按常理出牌的AI,感觉它更有灵魂。

用户头像

感觉马斯克又在玩弄人类的神经,这才是真有趣!

用户头像

这玩意儿要是能预测下我的彩票,那就更完美了!

睡觉动画