本周有一个关键词贯穿了多篇文章:驾驭。
martinfowler.com 上发表的文章提出,开发者的核心工作正在从写代码转向构建 Agent 运行所依赖的驾驭工程。AI 炼金术播客的标题更直白:别干活了,给 AI 布置办公室去吧。OpenAI 团队用 Codex 生成了百万行代码,靠的不是更强的模型,而是结构化知识库和刚性架构约束。
当 Agent 越来越能干,真正的竞争力不在于会不会用 AI,而在于能不能驾驭它。
本周 BestBlogs.dev 也在大幅使用 AI 编程推进 2.0 版本开发,重点是支持添加自定义订阅源和个性化 Feed,让每个人都能按自己的兴趣塑造阅读体验。同时,我也在基于开放接口开发 Skills,用于内容搜索、深度阅读和日常运营,目标是真正驾驭好未来的阅读需求。

GPT-5.4:AI 从助手到智能体的跨越

本周最大的新闻是 GPT-5.4 的发布。
这是 OpenAI 首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型,而且没有牺牲任何单项性能。过去这些能力分散在不同模型和工具中,开发者需要自己编排调度,现在一个模型就能覆盖全部。
其中最值得关注的是原生计算机使用能力。模型通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。另一个细节同样重要:工具搜索机制让 Agent 任务的 Token 消耗降低了 47%。高能力与低成本首次实现同步,这直接扩大了 Agent 场景的可行性边界。
这不只是又一次模型升级。它意味着 AI 正在从对话助手跨越到自主智能体,从回答问题变成完成任务。对于开发者来说,这意味着你可以把更多工作交给 Agent,前提是你能构建好驾驭它的体系。
与此同时,GPT-5.3 Instant 把优化重心放在了使用体感上。减少说教语气,提升意图识别,优化搜索整合,联网幻觉率下降 26.8%。很多时候,用起来不别扭,比跑分更高更重要,这是 ChatGPT 走向日常工具的一次实质性进步。
小模型正在刷新性能认知
大模型向全能化演进的同时,小模型在垂直场景中的表现也让人刮目相看。
Qwen3.5 发布了 0.8 B 至 9 B 四款小模型,全部 Apache 2.0 开源,消费级显卡即可微调。其中 4 B 的多模态和 Agent 能力尤为亮眼,9 B 性能逼近更大规模模型。对于需要端侧部署或低成本落地的场景,这可能是目前最实用的选择之一。
小红书开源的 FireRed-OCR 走了另一条路。他们用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型,在 OmniDocBench v1.5 综合评分达到 92.94%,端到端方案排名第一,支持公式、表格、手写体等复杂场景。2 B 参数登顶,精准的训练策略比盲目堆参数更有效。
如果你正在为项目选型开源模型,ByteByteGo 的架构对比 是一个好的起点。文章横向对比了六大开源 LLM 在 MoE 设计、注意力机制选型和训练策略上的差异,能帮你快速建立全景认知。
驾驭工程:软件开发的范式转移

本周含金量最高的内容来自工程方法论。多篇文章从不同角度指向同一个结论:软件工程师的核心能力正在发生根本性转移,从写代码到构建驾驭体系。
martinfowler.com 本周发表了两篇文章,构成一组完整的思考框架。
ThoughtWorks 的 Kief Morris 在 第一篇 中提出了一个清晰的定位:人在回路上(human-on-the-loop)。他认为开发者的核心工作正在从编写代码转变为构建和维护 Agent 运行所依赖的驾驭工程(Harness Engineering),即规格、质量检查和工作流指引的集合。
文章区分了两个循环。外层是 why loop,迭代的是想法和可用软件,这个循环由人类驱动,因为只有人知道自己想要什么。内层是 how loop,迭代的是代码、测试、设计等中间产物。过去开发者同时跑这两个循环,现在 Agent 正在接管内层循环的执行。
关键问题在于:你能不能完全放手让 Agent 跑内层循环?Morris 的回答是不能。纯粹的 vibe coding 在简单项目上可以工作,但在生产级系统中会导致外部质量失控。他提出的解法是构建驾驭体系,包含规格定义、自动化质量门禁和工作流编排,然后让 Agent 在这个体系内运行。更有意思的是,他描述了一个智能体飞轮:Agent 不仅执行任务,还能反过来改进驾驭体系本身,形成自我增强的循环。
ThoughtWorks 的 Rahul Garg 在 第二篇 中把问题推进到了具体操作层面。他观察到一个普遍存在的陷阱:AI 会直接跳过设计阶段生成代码,把所有架构决策静默地嵌入实现中。当你第一次看到 AI 的设计思考时,你已经在读代码了,而代码是发现分歧成本最高的地方。
这就是为什么审查 AI 生成的代码比审查同事的代码累得多。审查同事的代码时,你在检验一个你已经理解并同意的设计方案的实现。审查 AI 代码时,你需要同时评估范围、架构、集成、接口和代码质量,所有维度交织在一起,大脑根本不是为了这种负载设计的。
Garg 提出的解法是设计先行(Design-First):在生成任何代码之前,按能力、组件、交互、接口、实现五个层级逐步对齐设计。这不是给流程增加仪式感,而是把设计决策拉回到成本最低的阶段。Barry Boehm 在 1980 年代就证明了这一点,同样的经济学规律完全适用于 AI 协作。
这两篇文章放在一起读,会得到一个完整的图景:Morris 告诉你驾驭工程是什么、为什么重要;Garg 告诉你在日常 AI 编程中如何避免最常见的陷阱。两者结合,就是当下 AI 协作编程最值得实践的方法论。
从 Boris Cherny 到阿里大淘宝:实践者的声音

方法论需要实践来检验。本周有几篇来自一线实践者的内容,正好从不同维度印证了驾驭工程的核心判断。
Pragmatic Engineer 与 Claude Code 创造者 Boris Cherny 的 深度对话 还原了这款工具从 Anthropic 内部业余项目到增长最快开发者工具的完整历程。Boris 每天提交 20 到 30 个 PR,全部由 AI 生成,从不手动改一行代码。他用了一个贯穿始终的比喻:印刷术发明后,抄写员没有消失,而是变成了作者。软件工程师正在经历同样的转变。对话中还涉及 Anthropic 内部关于能否对外发布 Claude Code 的真实争论,以及 AI 时代代码审查的演变和 Claude Code 架构背后的安全分层设计。
来自淘天集团天猫技术的 深度思考 则把焦点放在了一个很多人忽视的瓶颈上:企业级 AI Coding 的核心问题不是 Agent 的执行能力,而是如何准确向 AI 传达复杂任务目标。他们的解法是构建分层统一的专家知识库,实现系统性降熵,推动从工具提效到知识驱动的范式演进。
OpenAI 工程团队的 Codex 实践 印证了同一判断。5 个月内 1500 个 PR、零人工编码,规模化落地靠的不是更强的模型,而是结构化知识库管理、刚性架构约束和周期性的代码熵增清理。他们有一个很形象的说法:给 Codex 一张地图,而不是一本千页的使用手册。
腾讯云开发者发布了目前最详尽的中文 OpenClaw 上下文管理源码解析,覆盖三层防御体系:预防性裁剪、大模型摘要压缩、溢出后恢复,并额外分析了各操作对服务商 KV Cache 成本的影响。对于正在构建长会话 Agent 的开发者,这是一份难得的实战参考。
InfoQ 的 一篇文章 则从更宏观的视角提出了一个犀利判断:AI 智能体不是让软件开发生命周期(SDLC)变快了,而是直接终结了它。需求变成迭代的副产品,设计在协作中涌现,测试与代码同步生成,PR 流程成为历史遗留。最终结论是新的核心能力只剩两件事:上下文工程和可观测性。
AI 炼金术的 这期播客 从创业者视角展示了新工作方式的真实面貌。两位嘉宾分享了 Agent 时代的三步开发法:看计划、放手干、验收结果。其中一句话让我印象深刻:真正的瓶颈已经从执行力转移到了判断力带宽,你的单位时间决策质量就是你的新产能上限。
设计流程已死,但设计没有

驾驭工程不只影响工程师,设计师同样站在变革的风暴中心。
Anthropic 设计负责人 Jenny Wen 在 Lenny's Podcast 的 访谈 中分享了她的一线观察,内容密度很高。
她的核心判断是:传统的设计流程已经死了。那套我们曾奉为圭臬的「发现、发散、收敛、再发散、再收敛」,已经不适用于当下。但引发变化的不是设计师自己,而是工程师借助 AI 工具获得的极速交付能力,倒逼设计跟着改变。用她的话说,不只是设计师觉得自己需要跟上工程师的步伐,连工程师自己都在想,怎么跟上自己的步伐,怎么跟上那 7 个同时运行的 Agent。
Jenny 把当下的设计工作分成了两类。第一类是支持执行的实时协作。工程师可以随时启动云端实例快速构建功能原型,设计师没有时间再去制作精美的设计稿然后交付,而是需要和工程师紧密结对,在构建过程中负责打磨和细节把控。她自己制作设计稿的时间已从 60% 到 70% 降至 30% 到 40%,直接参与代码实现的比例大幅上升。
第二类是愿景设计。过去设计师会做 2 年、5 年甚至 10 年的长期规划,现在技术变化太快,愿景周期缩短到了 3 到 6 个月。形式也变了,不一定是精美的演示文稿,可能只是一个能指明方向的原型。但这类工作在今天反而更加重要,因为当每个人都能用 Agent 随时启动功能开发时,你需要一个共同的方向感来确保大家在做正确的事情。
她还提到了一个关于产品开发的洞察:使用 AI 模型构建产品时,你不可能穷举所有状态,因为模型的行为是非确定性的。你无法仅凭理论推导或可点击原型来验证设计,必须真正把模型跑起来,观察真实用户的使用方式,再在过程中发现新的用例。这本质上是在说,AI 时代的产品设计不是先画好再做,而是先做出来,再在使用中打磨。
这个观察和前面 Rahul Garg 提出的设计先行看似矛盾,实际上是同一枚硬币的两面。Garg 说的是架构决策要先对齐再写代码,Jenny 说的是产品体验要在真实场景中迭代而非纸上推演。一个解决的是代码层面的实现陷阱,一个解决的是产品层面的认知局限。
Zapier 产品副总裁在 Product School 的 分享 展示了企业级 AI 智能体编排的实践。Zapier 内部已运行 800 个 AI Agent,核心经验是技术采用与业务转型必须做清晰区分,领导层必须亲自使用 AI 工具,转型才能真正落地。
Nano Banana 2 的深度实测 则展示了 AI 生图从尝鲜到日常生产力的进阶。Gemini 3.1 Flash Image 在图文渲染、角色一致性和极端画幅比例上都有显著提升,文章附带大量实操提示词,适合设计和内容创作场景。
AI 炼金术的 另一期播客 从商业视角审视 AI 产品创新。核心观点很有启发:你卖的不是工具,你卖的是工作。工具的市场跟工作的市场相差几十倍甚至上百倍。拆、塑、翻三步法和四条 AI 原生创业路径都有真实案例支撑。
人何以自处

本周分数最高的内容是一期播客,也是我个人最喜欢的一期。
孟岩与李继刚的三小时长谈 从一个简洁却有分量的判断出发:工业革命拿走了体力,AI 正在拿走脑力。留给人的,是心力。
不是你知道什么,而是你想要什么。不是你能想出什么,而是你能感受到什么。
李继刚用三个底层的秩来构建他的认知体系:贝叶斯公式、奥卡姆剃刀和万有理论。在此之上,他提出了一个令人眼前一亮的框架:我们同时活在三个世界里,原子世界、比特世界和向量世界。AI 代表的向量世界有一个独特特征,它把全人类的智慧烧结成晶体,消解了知识获取的时间维度。过去需要数年积累的知识处理,现在通过向量检索瞬间完成。
对话中有几个洞察值得单独展开。
第一个是关于商业模式的转变。互联网时代的公司像一张网,靠连接节点产生网络效应,强者愈强。AI 时代的公司更像在打一口井,靠深度理解个体需求建立信任,长尾效应取代马太效应。
第二个是关于人机协作的两条岔路。一条通向异质性的增幅,你基于个人意志引导 AI 优化,AI 放大你独特的特质,你的神经元连接在特定方向上变得更强。另一条通向思考的撤离,你完全依赖 AI 执行,自己的思考肌肉逐渐萎缩。两条路的分界线在于你是否保持了主体意识。
第三个是「Your feed is your fate」。你的信息输入流决定了你的神经元如何被冲刷,进而决定了你的命运。这在算法推荐无处不在的今天,既是警告,也是行动指南。
第四个是关于教育的隐喻。以前是水的教育,往脑子里灌知识。未来是火的教育,找到那根属于你的小火柴,点燃个体的主体性。AI 在这个过程中不是替代老师,而是放大每个人独特的火种。
李继刚还提到了一个细节,他与 AI 交互有 12 条原则。他认为提示词是有形状的,会在智能之海中设定起点、思维路径和终点。这和 Martin Fowler 博客上讨论的驾驭工程形成了有趣的呼应:无论是写代码还是写提示词,核心能力都是清晰地定义意图并构建引导体系。
整期播客让我反复思考的一个问题是:当 AI 能做越来越多的事情时,什么是只有人才能做的?李继刚给出的答案是心力,意志、审美和直觉。工业革命拿走体力后,人类并没有变弱,而是发展出了脑力密集的现代文明。AI 拿走脑力后,也许我们会发展出以心力为核心的新文明形态。
这个判断和 Boris Cherny 的抄写员到作者的比喻、Jenny Wen 的设计师必须对决策负责的观察,本质上指向同一个结论:在 Agent 时代,执行力不再稀缺,稀缺的是知道该做什么以及判断什么是好的。
行业观察:乐观叙事之外的冷思考
管理 900 亿美元资产的 Insight Partners 联合创始人 Jerry Murdock 的访谈被 跨国串门儿计划 翻译为中文播客。他的判断相当激进:自主 Agent 才是这波 AI 变革的真正核心,Cursor 等工具已面临过时风险,SaaS 按席位定价将被基于消耗的模式取代,白领失业潮将在两年内成为大选议题。作为资深投资人,他的视角自带信号价值。
Datawhale 发表的 一篇思想实验 则从另一个维度提供了警醒。文章以 2028 年视角撰写:白领失业引发消费萎缩,触发私募信贷违约,进而传导至抵押贷款市场,形成一个无天然刹车的负反馈循环。这不是预测,而是一套系统性的左尾风险推演框架。在铺天盖地的乐观叙事中,这样的冷静思考格外珍贵。
驾驭时代的一点感想

读完本周所有内容,我最深的感受是:驾驭不是一种选择,而是一种必然。
GPT-5.4 已经能自主操作电脑完成任务。OpenAI 内部团队 1500 个 PR 全部由 AI 生成。Martin Fowler 的博客开始系统性讨论驾驭工程作为一门新学科。Jenny Wen 说设计师不能再挡在工程师和他们的 7 个 Agent 前面。孟岩和李继刚则从更深的层面指出,AI 拿走脑力之后,留给人的是心力。
这些来自不同维度的声音指向同一个结论:我们正站在范式变革的临界点。
从本周的内容来看,驾驭至少有三层。第一层是知识工程。大淘宝和 OpenAI 的实践都说明,Agent 的执行能力已经够强,瓶颈在于你能不能把领域知识和架构约束结构化地传递给它。第二层是设计先行。如果你不在正确的抽象层级做决策,AI 会替你做,等你发现时成本已经很高了。第三层是判断力。在 Agent 时代,判断力带宽就是你的产能上限。
这也是我在推进 BestBlogs 2.0 时最深的体会。驾驭不是放手不管,而是把精力从执行细节转到目标定义、过程监督和结果验收上。这需要更强的系统思维、更清晰的质量标准,以及持续校准对「什么是好」的判断。
以上就是本期的核心内容。完整的 20 篇精选文章可以在 BestBlogs.dev 上查看。
保持好奇,我们下周见。
