扫码加好友

嘴炮王者马斯克为他旗下的xAI 站台,发布 Grok4。说是本来想做 Grok3.5,但由于性能太强了,直接升级到 Grok4
说实话,我是不太抱有什么信心的,毕竟之前就被 Grok3 坑过了。但这次的牛皮又吹破了天——到博士后水平了,又堆了这么多算力,大家怎么看呢?
欢迎评论区交流。
太长不看版,直接划重点
- 重磅发布 :马斯克旗下xAI正式发布新一代大模型Grok 4,宣称其为“世界上最好的AI”,并分为Grok 4和Grok 4 Heavy两个版本。
- 性能登顶 :Grok 4在多项权威基准测试中刷新纪录。尤其在“人类最后考试”(HLE)上,Grok 4 Heavy得分达44.4%,远超现有SOTA模型。在AIME25等数学竞赛测试中甚至取得满分。
- 推理核心 :模型能力的核心飞跃源于对推理能力的大幅投入。相较于Grok 3,Grok 4在强化学习(RL)阶段的计算量提升了10倍,背后是20万GPU集群的强大算力支持。
- 多维能力 :除推理外,Grok 4还展示了强大的代码生成、物理模拟、商业运营模拟(Vending-Bench)和语音交互能力。语音模式延迟减半,并新增多种音色。
- 商业模式 :Grok 4提供API接入,上下文窗口达256k。产品采用付费订阅模式,其中最强版本SuperGrok Heavy年费高达3000美元(约合人民币2.1万元)。

就在今天,马斯克旗下的人工智能公司xAI正式发布了酝酿已久的新一代大模型——Grok 4。马斯克在发布会上直言:“这是世界上最好的AI。”他表示,Grok 4在所有学科上都达到了博士后水平,无需事先学习即可在SAT等标准化考试中获得满分,其最强大的能力在于已实现超越人类水平的推理能力。此次发布包含两个版本:单代理的Grok 4和多代理协作的Grok 4 Heavy,两者均为纯推理模型,标志着xAI在AI能力边界上的又一次重要推进。

碾压级性能:全面登顶权威基准测试
Grok 4的发布伴随着一系列惊人的基准测试结果,其性能在多个维度上确立了新的行业标杆。最引人注目的是在“人类最后考试”(Humanities Last Exam, HLE)上的表现。HLE是一个涵盖数学、化学、逻辑学等领域的高难度测试集。在此项测试中,Grok 4 Heavy在使用工具的情况下,成绩飙升至44.4%。若允许模型在测试时投入更多计算资源(test-time compute),分数更可进一步提升至50.7%,成为首个突破50%准确率的模型。相比之下,此前其他SOTA模型的最高成绩为41.0%。

在其他一系列研究生及竞赛级别的高难度基准测试中,Grok 4 Heavy同样展现了统治级的实力:
- GPQA (研究生级别的Google验证问答):得分88.9%
- AIME25 (美国数学邀请赛):得分100%
- HMMT25 (高中生团队数学竞赛):得分96.7%
- USAMO25 (美国顶级高中生数学竞赛):得分61.9%

此外,在专门评估通用推理能力的ARC-AGI基准测试中,Grok 4也取得了最新SOTA,在ARC-AGI-2上达到15.9%,几乎将之前的商业SOTA成绩翻了一番。这些数据共同表明,Grok 4,特别是其Heavy版本,在学术和逻辑推理层面已达到当前全球领先水平。
技术揭秘:百倍算力投入与推理范式转变
Grok 4的性能飞跃,根植于巨大的计算资源投入和训练范式的战略性转变。从Grok 2到Grok 4,模型的训练计算量提升了100倍。更关键的是资源分配的侧重点发生了变化。xAI的工程师透露,从Grok 2到Grok 3,投入的主要是预训练算力;而从Grok 3到Grok 4,则将海量算力投入到强化学习(RL)和深度推理训练中,RL阶段的计算量直接提升了10倍。这一转变的背后,是xAI斥巨资建立的、拥有高达20万块H100 GPU的世界级超算集群。

Grok 4 Heavy的实现方式也体现了对推理深度的追求。它并非一个单一模型,而是一个由多个智能体(agents)并行工作的系统。这些智能体独立思考,相互比较成果,并分享关键解决方案,最终通过协作交流得出最终答案。这种所谓的“测试时计算”(test-time compute)模式,通过扩大计算规模,将模型的推理能力提升了一个数量级。
多维应用拓展:从物理模拟到商业运营
除了在基准测试中屠榜,Grok 4还展示了其在多个实际应用场景中的强大能力,证明其智能不止于应试。在发布会演示中,Grok 4能够根据“模拟两个黑洞碰撞并产生引力波”的物理学提示,自主查阅相关论文、运用后牛顿近似法进行推理,并生成一个基本正确的、可在网页运行的30秒可视化HTML动画。

在游戏开发领域,有开发者在4小时内使用Grok 4制作了一款第一人称射击(FPS)游戏,模型覆盖了从设计到编码的全过程。在Vending-Bench商业场景基准测试中,Grok 4通过长期运营自动售货机,在库存管理、供应商谈判、定价策略等复杂任务中表现优异,最终盈利能力远超其他模型及人类平均水平。
同时,Grok 4的语音能力也得到显著加强,端到端延迟降低了2倍,并新增了Sal和Eve等5种不同音色,支持更自然流畅的人机交互。
商业化路径与未来展望:谁适合使用Grok 4?
Grok 4提供API接入,上下文窗口达256k。产品采用付费订阅模式,其中最强版本SuperGrok Heavy年费高达3000美元(约合人民币2.1万元)。以下是适用场景
| 功能 | 描述 |
|---|---|
| 推理能力 | 达到博士后水平,在SAT等标准化考试中获得满分。 |
| 数学竞赛表现 | 在AIME25等高难度数学竞赛中取得满分成绩。 |
| 语音交互 | 支持多音色,端到端延迟降低50%。 |
| API接入 | 提供强大的API接口,支持复杂的推理和生成任务。 |
如果你对Grok 4感兴趣,可以通过以下方式获取更多信息:
微信:dszb199
你的支持是我们持续更新的动力!欢迎在评论区留言讨论。
