xAI 发布 Grok 3 系列模型
xAI 发布 Grok 3 系列模型,包括 Grok 3 (Beta)、Grok 3 mini、Grok 3 Reasoning (Beta)、Grok 3 mini Reasoning,以及智能体 DeepSearch,被马斯克称为“地表最强的 AI”。
马斯克介绍 Grok 的名字来自小说《异乡异客》,主角是在火星上长大的人类,Grok 也是一个“火星词”,代表充分而深刻地理解事物。
性能大幅提升
Grok 3 在多个基准测试中超越现有主流模型。
Reasoning 版本在推理能力上表现突出,超越 o3-mini 和 DeepSeek-R1,另外 Grok 3 允许模型在测试时进行更长时间的思考和推理,提高准确性。
Grok 3 在数学、科学、编码等多个基准测试中超越了包括 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro 在内的现有模型。在 AIME 2025 考试中,Grok 3 Reasoning 和 mini Reasoning 分别获得了 93 分和 90 分的优异成绩。另外在 LMSYS Arena 评测中首次突破 1400 分,成功登顶,较 Grok 2(1280分)提升约 10%。
超大规模算力支持
Grok 3 的训练使用了 20 万块 NVIDIA H100 GPU 的超算集群 Colossus,计算量是 Grok 2 的 10 倍。超算中心分两个阶段建设完成,第一阶段 122 天建成 10 万卡集群,第二阶段 92 天扩建至 20 万卡规模,总耗电量达到 1/4 吉瓦。
Think 和 Big Brain 模式
用户界面提供两种模式:Think 可以让模型进行较为仔细的思考与自我检验,Big Brain 适合更复杂的问题,模型会调用更强的推理流程与内部逻辑来给出更缜密、深入的结果。
推出 DeepSearch 智能体
这是一个基于 Grok 3 的深度搜索工具,能够进行更深入的网络搜索,分析信息并提供详细、合理的答案,同时过程更透明。支持 X 平台实时数据,用户可以控制信息源选择。
新的订阅模式
X Premium+ 用户可优先体验 Grok 3,xAI 还推出了 SuperGrok 订阅计划($30/月或年付 $300),提供完整推理能力、DeepSearch 高级功能和无限量图像生成等特性。
未来计划
一周内上线所有功能(包括语音模式),几周内对企业用户推出 API,几个月后开源 Grok 2。语音模式将支持语音理解和生成,API 将包含推理和深度搜索功能。
xAI 还承诺将持续优化模型性能,保持每日更新迭代。
点评
-
算力驱动创新:xAI 通过 20 万张 H100 GPU 的投入,在短短一年内就达到了业界领先水平,再次证明了在当前阶段,算力资源对 AI 发展的关键作用。这也提醒我们需要关注算力分配的普惠性问题。
-
性能领先但竞争激烈:虽然 Grok 3 在多个基准测试中展现出领先优势,但考虑到 Claude 4 和 GPT 4.5 即将发布,AI 领域的竞争格局可能很快会发生变化。
-
社交平台协同有待加强:作为 X 平台背景的模型,Grok 3 与平台的深度整合还有提升空间。相比之下,微信与 DeepSeek 的结合展示了更多社交场景下的 AI 应用可能性。
-
使用门槛与普惠性:目前 Grok 3 仅向 Premium+ 和 SuperGrok 会员开放,API 也将优先面向企业客户。这种策略虽然合理,但与开源社区的期待存在一定差距。期待在稳定性验证后能更快地向更广泛的用户群体开放。