Grok 3 发布：20万 GPU 训练的新一代模型

xAI 发布 Grok 3 系列模型

模型系列

xAI 发布 Grok 3 系列模型，包括 Grok 3 (Beta)、Grok 3 mini、Grok 3 Reasoning (Beta)、Grok 3 mini Reasoning，以及智能体 DeepSearch，被马斯克称为“地表最强的 AI”。

马斯克介绍 Grok 的名字来自小说《异乡异客》，主角是在火星上长大的人类，Grok 也是一个“火星词”，代表充分而深刻地理解事物。

性能大幅提升

性能对比

Grok 3 在多个基准测试中超越现有主流模型。

推理模型性能对比

Reasoning 版本在推理能力上表现突出，超越 o3-mini 和 DeepSeek-R1，另外 Grok 3 允许模型在测试时进行更长时间的思考和推理，提高准确性。

登顶竞技榜

Grok 3 在数学、科学、编码等多个基准测试中超越了包括 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro 在内的现有模型。在 AIME 2025 考试中，Grok 3 Reasoning 和 mini Reasoning 分别获得了 93 分和 90 分的优异成绩。另外在 LMSYS Arena 评测中首次突破 1400 分，成功登顶，较 Grok 2（1280分）提升约 10%。

超大规模算力支持

Grok 3 的训练使用了 20 万块 NVIDIA H100 GPU 的超算集群 Colossus，计算量是 Grok 2 的 10 倍。超算中心分两个阶段建设完成，第一阶段 122 天建成 10 万卡集群，第二阶段 92 天扩建至 20 万卡规模，总耗电量达到 1/4 吉瓦。

Think 和 Big Brain 模式

用户界面提供两种模式：Think 可以让模型进行较为仔细的思考与自我检验，Big Brain 适合更复杂的问题，模型会调用更强的推理流程与内部逻辑来给出更缜密、深入的结果。

推出 DeepSearch 智能体

DeepSearch 智能体

这是一个基于 Grok 3 的深度搜索工具，能够进行更深入的网络搜索，分析信息并提供详细、合理的答案，同时过程更透明。支持 X 平台实时数据，用户可以控制信息源选择。

新的订阅模式

订阅模式

X Premium+ 用户可优先体验 Grok 3，xAI 还推出了 SuperGrok 订阅计划（$30/月或年付 $300），提供完整推理能力、DeepSearch 高级功能和无限量图像生成等特性。

未来计划

一周内上线所有功能（包括语音模式），几周内对企业用户推出 API，几个月后开源 Grok 2。语音模式将支持语音理解和生成，API 将包含推理和深度搜索功能。

xAI 还承诺将持续优化模型性能，保持每日更新迭代。

点评

算力驱动创新：xAI 通过 20 万张 H100 GPU 的投入，在短短一年内就达到了业界领先水平，再次证明了在当前阶段，算力资源对 AI 发展的关键作用。这也提醒我们需要关注算力分配的普惠性问题。
性能领先但竞争激烈：虽然 Grok 3 在多个基准测试中展现出领先优势，但考虑到 Claude 4 和 GPT 4.5 即将发布，AI 领域的竞争格局可能很快会发生变化。
社交平台协同有待加强：作为 X 平台背景的模型，Grok 3 与平台的深度整合还有提升空间。相比之下，微信与 DeepSeek 的结合展示了更多社交场景下的 AI 应用可能性。
使用门槛与普惠性：目前 Grok 3 仅向 Premium+ 和 SuperGrok 会员开放，API 也将优先面向企业客户。这种策略虽然合理，但与开源社区的期待存在一定差距。期待在稳定性验证后能更快地向更广泛的用户群体开放。