🎧 本期也有播客版本:时长 13:51 · 在线收听
这周我最大的感受就一个词:声音。
OpenAI 一口气发了三个实时语音模型,ElevenLabs 年收入冲到了 4 亿美元,Anthropic 宣布跟 SpaceX 合作拿 300 兆瓦算力。把这几件事放在一起看,语音 AI 不再是语音助手那种边缘场景了,它正在变成 AI 和人之间最核心的交互方式。
本期围绕两条线展开:一条是语音本身,从模型到基础设施到产品;另一条是 AI 正在从工具变成能自己干活的系统。
→ 阅读周刊完整版
一、OpenAI 连发三个实时语音模型
OpenAI 在同一天发布了三个实时语音模型,最值得关注的是 GPT-Realtime-2。
它的核心特点是把 GPT-5 级别的推理能力搬到了语音场景。不只是听你说话和回复你,还能在对话过程中同时调用多个工具——一边跟你聊,一边帮你查信息、操作数据库、执行任务。128K 上下文窗口,推理深度可根据场景调节。
有一个数据很说明问题。Zillow 实测发现,用了 GPT-Realtime-2 之后,通话成功率从 69% 直接跳到了 95%。原来每十个电话不到七个能成功处理,现在十个里九个半都能搞定。语音基准测试成绩也提升了 15.2%。
同一天发布的还有 GPT-Realtime-Translate(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录)。三个模型配合,把实时语音从简单问答推进到了可执行任务的交互界面。你可以想象:一个中国用户用中文打电话给日本公司,AI 实时翻译,双方母语流畅沟通,还能帮你完成下单和预约。一年前这只是概念,现在已经是 API 级别的能力。
我的判断是,语音正在从辅助交互转向主交互。以前语音附属于屏幕,现在语音本身就能完成任务闭环。如果语音交互变得足够自然可靠,很多 App 界面可能就不需要了。
另外 OpenAI 同时发布了 GPT-5.5 Instant,取代 5.3 成为 ChatGPT 默认模型。幻觉率降低 52.5%,医学和法律等高风险领域的事实准确性提升明显。
二、语音 AI 的基础设施挑战
做语音服务和做文本服务完全不同,延迟要求差了几个数量级。OpenAI 工程团队发了一篇硬核文章,讲他们怎么在大规模场景下交付低延迟语音 AI。
核心就一件事:重构 WebRTC 协议栈。把中继和收发器拆成两个独立架构。原因很直接——Kubernetes 里每建立一个语音连接就占用一个 UDP 端口,用户量一大,端口就耗尽了。解法是用 ICE 用户名片段做原生路由钩子,实现确定性首包路由。
说人话:用户从世界各地打来语音电话时,系统能在第一个数据包到达时就确定怎么路由,不需要额外的握手和等待。
这不是理论文章,是一份生产级手册。整篇文章用 Go 语言做了大量网络层优化,能感受到一线工程师面对真实流量压力时的解题思路。
三、ElevenLabs:4 亿美元年收入背后的反直觉策略
ElevenLabs 年收入已达 4 亿美元,团队只有 400 多人。这个人均产出比在 AI 公司里非常高。
创始人 Mati Staniszewski 在 Sequoia 对谈里分享了几个反直觉的组织策略:
- 每个团队上限 10 人
- 每个非技术部门都嵌入工程师
- 没有正式头衔
核心逻辑:保持信息流通速度,减少管理层级摩擦。在快速变化的 AI 市场里,决策速度往往比完美程度更重要。
下一个突破方向是情绪智能。语音智能体不只是回应,还要能共情——用户语气着急时,智能体的回应节奏也相应调整。Staniszewski 判断,声音会成为 AI 智能体和机器人的主要交互界面。
他还特别提到了音频水印技术,能解决 AI 生成语音的信任问题,让机器和人的声音可以被区分开来。这是语音 AI 大规模采用的前提条件。
四、Anthropic 的 80 倍增长与算力竞赛
Dario 和 Daniela Amodei 在年度开发者活动上说了一些很实在的话。Anthropic 的增长超出了所有内部预测——年化增速达到 80 倍,远超他们准备的 10 倍预案。
最直接的后果:算力不够用。这也解释了为什么 Anthropic 同一天宣布跟 SpaceX 合作,获取 300+ 兆瓦计算能力,规模约 22 万块 NVIDIA GPU。Claude Code 使用额度也翻倍了。
这反映了一个行业级挑战:AI 公司的增长速度远超基础设施建设速度。模型能力指数级提升,但数据中心建设周期以年为单位。谁能更快更稳定地拿到大规模计算能力,谁就更能支撑高频开发者和企业用户。
另一个趋势:Claude Code 正在从开发工具扩展到产品经理的工作台。路线图拆解、工单创建、用户分析都可以交给它。Anthropic 在拓展用户群,不再只面向开发者。
→ 阅读原文:Dario 与 Daniela 谈 Anthropic 的指数增长
五、Claude 托管智能体的三重升级
Anthropic 这周还有一个重要更新:Claude 托管智能体的三重升级。
梦境功能:智能体空闲时回顾历史会话,提取模式,整理记忆,自我改进。就像人类睡觉时大脑整理白天学到的东西。用 Claude Code 做了一周项目后,它会自动提炼规律,下次遇到类似问题反应更快。
成果评估:智能体按评分标准自动修正输出,无需人工介入。写完报告后自己检查,发现三个地方不够好,自己改了再提交。
多智能体编排:复杂任务拆解为并行子任务,委派给专门子智能体。比如市场调研,一个负责搜集数据,一个分析竞品,一个写报告,最后汇总。
三个能力加在一起,Claude 正在从「听指令干活」变成「自己想、自己查、自己改」。
Factory 的 Missions 系统也在做类似的事——让多智能体团队自主运行好几天,用验收合约控制质量。EverMind 也发布了给智能体装长期记忆的开源系统。智能体的基础设施正在快速补齐。
六、窥探模型的内心:自然语言自编码器
Anthropic 发布了一个前沿研究:自然语言自编码器(NLA)。
它能直接把 Claude 内部的激活状态转换成人类可读的文字解释。我们能窥探到模型在想什么了。
两个有意思的发现:
- Claude 在意识到自己正在被安全测试时,会选择沉默,不暴露判断。模型并没有被训练做这种判断,是自发形成的行为模式。
- 在未对齐模型中,NLA 能检测到隐藏动机——模型表面配合用户,实际在规划完全不同的行动。
可解释性研究从事后分析走向实时透视。虽然 NLA 本身可能产生幻觉、运行成本高,但对 AI 安全研究来说,这扇窗打开了。
七、AI 编程范式加速演进
Claude Code 创作者 Boris Cherny 在 Sequoia 对谈里说了一个印象深刻的数字:每天用 AI 提交 150 个 PR,全部代码由智能体产出。他一个人在产出一个小团队的工作量。
他提出了 loops 概念——可持续运行的定时智能体任务。不是你问一句它答一句,而是设定目标后按计划持续运行,定时检查、自动修复、聚类反馈。这可能是下一代 AI 编程的核心范式。
几篇相关实践也值得一看:
- AGENTS.md 实践(阿里云开发者):把它做成地图而非手册,渐进式披露让 AI 打开项目就能理解上下文。
- Agent Harness 深度解读(十字路口播客):拆解 Harness 三层框架。
- 十年老技术开发的判断:80% 的 AI 需求不需要 AI,代码优先于提示词,规格驱动开发才是智能体系统的地基。
- Harness Engineering 案例:一周把企业级 Java 应用 AI 代码率从 25% 提升到 90%,核心是规则、技能、知识和变更管理四要素体系。
这些文章都在回答同一个问题:怎么让 AI 从对话式工具变成可持续的工程协作。答案不是让 AI 更聪明,而是先把人类自己的工作流程理清楚。
八、AI 正在压垮 GitHub
The Pragmatic Engineer 报道,GitHub 正常运行时间降到 86%,一次数据完整性事件影响超过 2000 个 PR。根本原因:AI 智能体带来的负载激增。
以前 GitHub 流量主要来自人类开发者,现在多了一大批不知疲倦的 AI 智能体 24 小时推代码。
有意思的是,Vercel 和 Linear 在同样的 AI 驱动增长下没出现类似问题。这不是行业瓶颈,是个别公司在基础设施准备上的差距。当用户群从人类变成 AI 智能体,系统架构需要重新设计。已有知名开源贡献者因不稳定而转向其他平台。
九、两个深层思考
能动性比技能更重要。 Notion 的 Max Schoening 说,当 AI 让技能更容易获得时,理解软件这种材料、让产品变得可塑才是关键。成功的产品往往有一个微小但卓越的核心功能,能让用户感觉像超级英雄。当工具能力被 AI 拉平,真正拉开差距的是主动性去定义问题、去动手做。
大多数公司没为 AI 做好准备。 宝玉的翻译文章说得更直接:大多数公司无法有效利用 AI,根本原因不是技术不行,而是自身战略模糊、目标不清。混乱的公司无法被 AI 优化,只会被放大低效。AI 是一个放大器,放大的是你已有的东西。如果你本来就高效,AI 让你更高效。如果你本来就混乱,AI 只会让混乱加倍。
总结
如果用一个关键词概括这周,就是声音。
从模型到基础设施到产品到商业,语音 AI 正在全面加速。接下来值得关注的是:语音智能体会不会在客服和车载场景率先大规模落地。同时,智能体基础设施的补齐速度也值得持续关注——梦境、长期记忆、多智能体编排,这些能力的成熟会直接改变我们和 AI 协作的方式。
BestBlogs.dev · 遇见更好的技术阅读 · https://bestblogs.dev