嘴炮王者马斯克为他旗下的xAI 站台，发布 Grok4。说是本来想做 Grok3.5，但由于性能太强了，直接升级到 Grok4

说实话，我是不太抱有什么信心的，毕竟之前就被 Grok3 坑过了。但这次的牛皮又吹破了天——到博士后水平了，又堆了这么多算力，大家怎么看呢？

欢迎评论区交流。

太长不看版，直接划重点

重磅发布 ：马斯克旗下xAI正式发布新一代大模型Grok 4，宣称其为“世界上最好的AI”，并分为Grok 4和Grok 4 Heavy两个版本。
性能登顶 ：Grok 4在多项权威基准测试中刷新纪录。尤其在“人类最后考试”（HLE）上，Grok 4 Heavy得分达44.4%，远超现有SOTA模型。在AIME25等数学竞赛测试中甚至取得满分。
推理核心 ：模型能力的核心飞跃源于对推理能力的大幅投入。相较于Grok 3，Grok 4在强化学习（RL）阶段的计算量提升了10倍，背后是20万GPU集群的强大算力支持。
多维能力 ：除推理外，Grok 4还展示了强大的代码生成、物理模拟、商业运营模拟（Vending-Bench）和语音交互能力。语音模式延迟减半，并新增多种音色。
商业模式 ：Grok 4提供API接入，上下文窗口达256k。产品采用付费订阅模式，其中最强版本SuperGrok Heavy年费高达3000美元（约合人民币2.1万元）。

就在今天，马斯克旗下的人工智能公司xAI正式发布了酝酿已久的新一代大模型——Grok 4。马斯克在发布会上直言：“这是世界上最好的AI。”他表示，Grok 4在所有学科上都达到了博士后水平，无需事先学习即可在SAT等标准化考试中获得满分，其最强大的能力在于已实现超越人类水平的推理能力。此次发布包含两个版本：单代理的Grok 4和多代理协作的Grok 4 Heavy，两者均为纯推理模型，标志着xAI在AI能力边界上的又一次重要推进。

碾压级性能：全面登顶权威基准测试

Grok 4的发布伴随着一系列惊人的基准测试结果，其性能在多个维度上确立了新的行业标杆。最引人注目的是在“人类最后考试”（Humanities Last Exam, HLE）上的表现。HLE是一个涵盖数学、化学、逻辑学等领域的高难度测试集。在此项测试中，Grok 4 Heavy在使用工具的情况下，成绩飙升至44.4%。若允许模型在测试时投入更多计算资源（test-time compute），分数更可进一步提升至50.7%，成为首个突破50%准确率的模型。相比之下，此前其他SOTA模型的最高成绩为41.0%。

在其他一系列研究生及竞赛级别的高难度基准测试中，Grok 4 Heavy同样展现了统治级的实力：

GPQA (研究生级别的Google验证问答)：得分88.9%
AIME25 (美国数学邀请赛)：得分100%
HMMT25 (高中生团队数学竞赛)：得分96.7%
USAMO25 (美国顶级高中生数学竞赛)：得分61.9%

此外，在专门评估通用推理能力的ARC-AGI基准测试中，Grok 4也取得了最新SOTA，在ARC-AGI-2上达到15.9%，几乎将之前的商业SOTA成绩翻了一番。这些数据共同表明，Grok 4，特别是其Heavy版本，在学术和逻辑推理层面已达到当前全球领先水平。

技术揭秘：百倍算力投入与推理范式转变

Grok 4的性能飞跃，根植于巨大的计算资源投入和训练范式的战略性转变。从Grok 2到Grok 4，模型的训练计算量提升了100倍。更关键的是资源分配的侧重点发生了变化。xAI的工程师透露，从Grok 2到Grok 3，投入的主要是预训练算力；而从Grok 3到Grok 4，则将海量算力投入到强化学习（RL）和深度推理训练中，RL阶段的计算量直接提升了10倍。这一转变的背后，是xAI斥巨资建立的、拥有高达20万块H100 GPU的世界级超算集群。

Grok 4 Heavy的实现方式也体现了对推理深度的追求。它并非一个单一模型，而是一个由多个智能体（agents）并行工作的系统。这些智能体独立思考，相互比较成果，并分享关键解决方案，最终通过协作交流得出最终答案。这种所谓的“测试时计算”（test-time compute）模式，通过扩大计算规模，将模型的推理能力提升了一个数量级。

多维应用拓展：从物理模拟到商业运营

除了在基准测试中屠榜，Grok 4还展示了其在多个实际应用场景中的强大能力，证明其智能不止于应试。在发布会演示中，Grok 4能够根据“模拟两个黑洞碰撞并产生引力波”的物理学提示，自主查阅相关论文、运用后牛顿近似法进行推理，并生成一个基本正确的、可在网页运行的30秒可视化HTML动画。

在游戏开发领域，有开发者在4小时内使用Grok 4制作了一款第一人称射击（FPS）游戏，模型覆盖了从设计到编码的全过程。在Vending-Bench商业场景基准测试中，Grok 4通过长期运营自动售货机，在库存管理、供应商谈判、定价策略等复杂任务中表现优异，最终盈利能力远超其他模型及人类平均水平。

同时，Grok 4的语音能力也得到显著加强，端到端延迟降低了2倍，并新增了Sal和Eve等5种不同音色，支持更自然流畅的人机交互。

商业化路径与未来展望：谁适合使用Grok 4？

Grok 4提供API接入，上下文窗口达256k。产品采用付费订阅模式，其中最强版本SuperGrok Heavy年费高达3000美元（约合人民币2.1万元）。以下是适用场景

功能	描述
推理能力	达到博士后水平，在SAT等标准化考试中获得满分。
数学竞赛表现	在AIME25等高难度数学竞赛中取得满分成绩。
语音交互	支持多音色，端到端延迟降低50%。
API接入	提供强大的API接口，支持复杂的推理和生成任务。

如果你对Grok 4感兴趣，可以通过以下方式获取更多信息：

微信：dszb199

你的支持是我们持续更新的动力！欢迎在评论区留言讨论。

马斯克震撼发布Grok 4：史上最强AI碾压博士，推理登顶，20万GPU加持，年费2万+引发热议！

扫码加好友

嘴炮王者马斯克为他旗下的xAI 站台，发布 Grok4。说是本来想做 Grok3.5，但由于性能太强了，直接升级到 Grok4

太长不看版，直接划重点

碾压级性能：全面登顶权威基准测试

技术揭秘：百倍算力投入与推理范式转变

多维应用拓展：从物理模拟到商业运营

商业化路径与未来展望：谁适合使用Grok 4？

扫码加好友

嘴炮王者马斯克为他旗下的xAI 站台，发布 Grok4。说是本来想做 Grok3.5，但由于性能太强了，直接升级到 Grok4

太长不看版，直接划重点

碾压级性能：全面登顶权威基准测试

技术揭秘：百倍算力投入与推理范式转变

多维应用拓展：从物理模拟到商业运营

商业化路径与未来展望：谁适合使用Grok 4？

相关推荐