BestBlogs 周刊第 85 期：驾驭工程

本周有一个关键词贯穿了多篇文章：驾驭。

martinfowler.com 上发表的文章提出，开发者的核心工作正在从写代码转向构建 Agent 运行所依赖的驾驭工程。AI 炼金术播客的标题更直白：别干活了，给 AI 布置办公室去吧。OpenAI 团队用 Codex 生成了百万行代码，靠的不是更强的模型，而是结构化知识库和刚性架构约束。

当 Agent 越来越能干，真正的竞争力不在于会不会用 AI，而在于能不能驾驭它。

本周 BestBlogs.dev 也在大幅使用 AI 编程推进 2.0 版本开发，重点是支持添加自定义订阅源和个性化 Feed，让每个人都能按自己的兴趣塑造阅读体验。同时，我也在基于开放接口开发 Skills，用于内容搜索、深度阅读和日常运营，目标是真正驾驭好未来的阅读需求。

BestBlogs 周刊第 85 期：驾驭工程

GPT-5.4：AI 从助手到智能体的跨越

GPT-5.4 大一统模型

本周最大的新闻是 GPT-5.4 的发布。

这是 OpenAI 首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型，而且没有牺牲任何单项性能。过去这些能力分散在不同模型和工具中，开发者需要自己编排调度，现在一个模型就能覆盖全部。

其中最值得关注的是原生计算机使用能力。模型通过截图理解界面并直接操作鼠标键盘，在 OSWorld 桌面任务中成功率已超越人类平均水平。另一个细节同样重要：工具搜索机制让 Agent 任务的 Token 消耗降低了 47%。高能力与低成本首次实现同步，这直接扩大了 Agent 场景的可行性边界。

这不只是又一次模型升级。它意味着 AI 正在从对话助手跨越到自主智能体，从回答问题变成完成任务。对于开发者来说，这意味着你可以把更多工作交给 Agent，前提是你能构建好驾驭它的体系。

与此同时，GPT-5.3 Instant 把优化重心放在了使用体感上。减少说教语气，提升意图识别，优化搜索整合，联网幻觉率下降 26.8%。很多时候，用起来不别扭，比跑分更高更重要，这是 ChatGPT 走向日常工具的一次实质性进步。

小模型正在刷新性能认知

大模型向全能化演进的同时，小模型在垂直场景中的表现也让人刮目相看。

Qwen3.5 发布了 0.8 B 至 9 B 四款小模型，全部 Apache 2.0 开源，消费级显卡即可微调。其中 4 B 的多模态和 Agent 能力尤为亮眼，9 B 性能逼近更大规模模型。对于需要端侧部署或低成本落地的场景，这可能是目前最实用的选择之一。

小红书开源的 FireRed-OCR 走了另一条路。他们用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型，在 OmniDocBench v1.5 综合评分达到 92.94%，端到端方案排名第一，支持公式、表格、手写体等复杂场景。2 B 参数登顶，精准的训练策略比盲目堆参数更有效。

如果你正在为项目选型开源模型，ByteByteGo 的架构对比是一个好的起点。文章横向对比了六大开源 LLM 在 MoE 设计、注意力机制选型和训练策略上的差异，能帮你快速建立全景认知。

驾驭工程：软件开发的范式转移

驾驭工程

本周含金量最高的内容来自工程方法论。多篇文章从不同角度指向同一个结论：软件工程师的核心能力正在发生根本性转移，从写代码到构建驾驭体系。

martinfowler.com 本周发表了两篇文章，构成一组完整的思考框架。

ThoughtWorks 的 Kief Morris 在第一篇中提出了一个清晰的定位：人在回路上（human-on-the-loop）。他认为开发者的核心工作正在从编写代码转变为构建和维护 Agent 运行所依赖的驾驭工程（Harness Engineering），即规格、质量检查和工作流指引的集合。

文章区分了两个循环。外层是 why loop，迭代的是想法和可用软件，这个循环由人类驱动，因为只有人知道自己想要什么。内层是 how loop，迭代的是代码、测试、设计等中间产物。过去开发者同时跑这两个循环，现在 Agent 正在接管内层循环的执行。

关键问题在于：你能不能完全放手让 Agent 跑内层循环？Morris 的回答是不能。纯粹的 vibe coding 在简单项目上可以工作，但在生产级系统中会导致外部质量失控。他提出的解法是构建驾驭体系，包含规格定义、自动化质量门禁和工作流编排，然后让 Agent 在这个体系内运行。更有意思的是，他描述了一个智能体飞轮：Agent 不仅执行任务，还能反过来改进驾驭体系本身，形成自我增强的循环。

ThoughtWorks 的 Rahul Garg 在第二篇中把问题推进到了具体操作层面。他观察到一个普遍存在的陷阱：AI 会直接跳过设计阶段生成代码，把所有架构决策静默地嵌入实现中。当你第一次看到 AI 的设计思考时，你已经在读代码了，而代码是发现分歧成本最高的地方。

这就是为什么审查 AI 生成的代码比审查同事的代码累得多。审查同事的代码时，你在检验一个你已经理解并同意的设计方案的实现。审查 AI 代码时，你需要同时评估范围、架构、集成、接口和代码质量，所有维度交织在一起，大脑根本不是为了这种负载设计的。

Garg 提出的解法是设计先行（Design-First）：在生成任何代码之前，按能力、组件、交互、接口、实现五个层级逐步对齐设计。这不是给流程增加仪式感，而是把设计决策拉回到成本最低的阶段。Barry Boehm 在 1980 年代就证明了这一点，同样的经济学规律完全适用于 AI 协作。

这两篇文章放在一起读，会得到一个完整的图景：Morris 告诉你驾驭工程是什么、为什么重要；Garg 告诉你在日常 AI 编程中如何避免最常见的陷阱。两者结合，就是当下 AI 协作编程最值得实践的方法论。

从 Boris Cherny 到阿里大淘宝：实践者的声音

实践者的声音

方法论需要实践来检验。本周有几篇来自一线实践者的内容，正好从不同维度印证了驾驭工程的核心判断。

Pragmatic Engineer 与 Claude Code 创造者 Boris Cherny 的深度对话还原了这款工具从 Anthropic 内部业余项目到增长最快开发者工具的完整历程。Boris 每天提交 20 到 30 个 PR，全部由 AI 生成，从不手动改一行代码。他用了一个贯穿始终的比喻：印刷术发明后，抄写员没有消失，而是变成了作者。软件工程师正在经历同样的转变。对话中还涉及 Anthropic 内部关于能否对外发布 Claude Code 的真实争论，以及 AI 时代代码审查的演变和 Claude Code 架构背后的安全分层设计。

来自淘天集团天猫技术的深度思考则把焦点放在了一个很多人忽视的瓶颈上：企业级 AI Coding 的核心问题不是 Agent 的执行能力，而是如何准确向 AI 传达复杂任务目标。他们的解法是构建分层统一的专家知识库，实现系统性降熵，推动从工具提效到知识驱动的范式演进。

OpenAI 工程团队的 Codex 实践印证了同一判断。5 个月内 1500 个 PR、零人工编码，规模化落地靠的不是更强的模型，而是结构化知识库管理、刚性架构约束和周期性的代码熵增清理。他们有一个很形象的说法：给 Codex 一张地图，而不是一本千页的使用手册。

腾讯云开发者发布了目前最详尽的中文 OpenClaw 上下文管理源码解析，覆盖三层防御体系：预防性裁剪、大模型摘要压缩、溢出后恢复，并额外分析了各操作对服务商 KV Cache 成本的影响。对于正在构建长会话 Agent 的开发者，这是一份难得的实战参考。

InfoQ 的一篇文章则从更宏观的视角提出了一个犀利判断：AI 智能体不是让软件开发生命周期（SDLC）变快了，而是直接终结了它。需求变成迭代的副产品，设计在协作中涌现，测试与代码同步生成，PR 流程成为历史遗留。最终结论是新的核心能力只剩两件事：上下文工程和可观测性。

AI 炼金术的这期播客从创业者视角展示了新工作方式的真实面貌。两位嘉宾分享了 Agent 时代的三步开发法：看计划、放手干、验收结果。其中一句话让我印象深刻：真正的瓶颈已经从执行力转移到了判断力带宽，你的单位时间决策质量就是你的新产能上限。

设计流程已死，但设计没有

设计的转变

驾驭工程不只影响工程师，设计师同样站在变革的风暴中心。

Anthropic 设计负责人 Jenny Wen 在 Lenny's Podcast 的访谈中分享了她的一线观察，内容密度很高。

她的核心判断是：传统的设计流程已经死了。那套我们曾奉为圭臬的「发现、发散、收敛、再发散、再收敛」，已经不适用于当下。但引发变化的不是设计师自己，而是工程师借助 AI 工具获得的极速交付能力，倒逼设计跟着改变。用她的话说，不只是设计师觉得自己需要跟上工程师的步伐，连工程师自己都在想，怎么跟上自己的步伐，怎么跟上那 7 个同时运行的 Agent。

Jenny 把当下的设计工作分成了两类。第一类是支持执行的实时协作。工程师可以随时启动云端实例快速构建功能原型，设计师没有时间再去制作精美的设计稿然后交付，而是需要和工程师紧密结对，在构建过程中负责打磨和细节把控。她自己制作设计稿的时间已从 60% 到 70% 降至 30% 到 40%，直接参与代码实现的比例大幅上升。

第二类是愿景设计。过去设计师会做 2 年、5 年甚至 10 年的长期规划，现在技术变化太快，愿景周期缩短到了 3 到 6 个月。形式也变了，不一定是精美的演示文稿，可能只是一个能指明方向的原型。但这类工作在今天反而更加重要，因为当每个人都能用 Agent 随时启动功能开发时，你需要一个共同的方向感来确保大家在做正确的事情。

她还提到了一个关于产品开发的洞察：使用 AI 模型构建产品时，你不可能穷举所有状态，因为模型的行为是非确定性的。你无法仅凭理论推导或可点击原型来验证设计，必须真正把模型跑起来，观察真实用户的使用方式，再在过程中发现新的用例。这本质上是在说，AI 时代的产品设计不是先画好再做，而是先做出来，再在使用中打磨。

这个观察和前面 Rahul Garg 提出的设计先行看似矛盾，实际上是同一枚硬币的两面。Garg 说的是架构决策要先对齐再写代码，Jenny 说的是产品体验要在真实场景中迭代而非纸上推演。一个解决的是代码层面的实现陷阱，一个解决的是产品层面的认知局限。

Zapier 产品副总裁在 Product School 的分享展示了企业级 AI 智能体编排的实践。Zapier 内部已运行 800 个 AI Agent，核心经验是技术采用与业务转型必须做清晰区分，领导层必须亲自使用 AI 工具，转型才能真正落地。

Nano Banana 2 的深度实测则展示了 AI 生图从尝鲜到日常生产力的进阶。Gemini 3.1 Flash Image 在图文渲染、角色一致性和极端画幅比例上都有显著提升，文章附带大量实操提示词，适合设计和内容创作场景。

AI 炼金术的另一期播客从商业视角审视 AI 产品创新。核心观点很有启发：你卖的不是工具，你卖的是工作。工具的市场跟工作的市场相差几十倍甚至上百倍。拆、塑、翻三步法和四条 AI 原生创业路径都有真实案例支撑。

人何以自处

本周分数最高的内容是一期播客，也是我个人最喜欢的一期。

孟岩与李继刚的三小时长谈从一个简洁却有分量的判断出发：工业革命拿走了体力，AI 正在拿走脑力。留给人的，是心力。

不是你知道什么，而是你想要什么。不是你能想出什么，而是你能感受到什么。

李继刚用三个底层的秩来构建他的认知体系：贝叶斯公式、奥卡姆剃刀和万有理论。在此之上，他提出了一个令人眼前一亮的框架：我们同时活在三个世界里，原子世界、比特世界和向量世界。AI 代表的向量世界有一个独特特征，它把全人类的智慧烧结成晶体，消解了知识获取的时间维度。过去需要数年积累的知识处理，现在通过向量检索瞬间完成。

对话中有几个洞察值得单独展开。

第一个是关于商业模式的转变。互联网时代的公司像一张网，靠连接节点产生网络效应，强者愈强。AI 时代的公司更像在打一口井，靠深度理解个体需求建立信任，长尾效应取代马太效应。

第二个是关于人机协作的两条岔路。一条通向异质性的增幅，你基于个人意志引导 AI 优化，AI 放大你独特的特质，你的神经元连接在特定方向上变得更强。另一条通向思考的撤离，你完全依赖 AI 执行，自己的思考肌肉逐渐萎缩。两条路的分界线在于你是否保持了主体意识。

第三个是「Your feed is your fate」。你的信息输入流决定了你的神经元如何被冲刷，进而决定了你的命运。这在算法推荐无处不在的今天，既是警告，也是行动指南。

第四个是关于教育的隐喻。以前是水的教育，往脑子里灌知识。未来是火的教育，找到那根属于你的小火柴，点燃个体的主体性。AI 在这个过程中不是替代老师，而是放大每个人独特的火种。

李继刚还提到了一个细节，他与 AI 交互有 12 条原则。他认为提示词是有形状的，会在智能之海中设定起点、思维路径和终点。这和 Martin Fowler 博客上讨论的驾驭工程形成了有趣的呼应：无论是写代码还是写提示词，核心能力都是清晰地定义意图并构建引导体系。

整期播客让我反复思考的一个问题是：当 AI 能做越来越多的事情时，什么是只有人才能做的？李继刚给出的答案是心力，意志、审美和直觉。工业革命拿走体力后，人类并没有变弱，而是发展出了脑力密集的现代文明。AI 拿走脑力后，也许我们会发展出以心力为核心的新文明形态。

这个判断和 Boris Cherny 的抄写员到作者的比喻、Jenny Wen 的设计师必须对决策负责的观察，本质上指向同一个结论：在 Agent 时代，执行力不再稀缺，稀缺的是知道该做什么以及判断什么是好的。

行业观察：乐观叙事之外的冷思考

管理 900 亿美元资产的 Insight Partners 联合创始人 Jerry Murdock 的访谈被跨国串门儿计划翻译为中文播客。他的判断相当激进：自主 Agent 才是这波 AI 变革的真正核心，Cursor 等工具已面临过时风险，SaaS 按席位定价将被基于消耗的模式取代，白领失业潮将在两年内成为大选议题。作为资深投资人，他的视角自带信号价值。

Datawhale 发表的一篇思想实验则从另一个维度提供了警醒。文章以 2028 年视角撰写：白领失业引发消费萎缩，触发私募信贷违约，进而传导至抵押贷款市场，形成一个无天然刹车的负反馈循环。这不是预测，而是一套系统性的左尾风险推演框架。在铺天盖地的乐观叙事中，这样的冷静思考格外珍贵。

驾驭时代的一点感想

驾驭时代

读完本周所有内容，我最深的感受是：驾驭不是一种选择，而是一种必然。

GPT-5.4 已经能自主操作电脑完成任务。OpenAI 内部团队 1500 个 PR 全部由 AI 生成。Martin Fowler 的博客开始系统性讨论驾驭工程作为一门新学科。Jenny Wen 说设计师不能再挡在工程师和他们的 7 个 Agent 前面。孟岩和李继刚则从更深的层面指出，AI 拿走脑力之后，留给人的是心力。

这些来自不同维度的声音指向同一个结论：我们正站在范式变革的临界点。

从本周的内容来看，驾驭至少有三层。第一层是知识工程。大淘宝和 OpenAI 的实践都说明，Agent 的执行能力已经够强，瓶颈在于你能不能把领域知识和架构约束结构化地传递给它。第二层是设计先行。如果你不在正确的抽象层级做决策，AI 会替你做，等你发现时成本已经很高了。第三层是判断力。在 Agent 时代，判断力带宽就是你的产能上限。

这也是我在推进 BestBlogs 2.0 时最深的体会。驾驭不是放手不管，而是把精力从执行细节转到目标定义、过程监督和结果验收上。这需要更强的系统思维、更清晰的质量标准，以及持续校准对「什么是好」的判断。

以上就是本期的核心内容。完整的 20 篇精选文章可以在 BestBlogs.dev 上查看。

保持好奇，我们下周见。

BestBlogs 周刊第 85 期：驾驭工程

GPT-5.4：AI 从助手到智能体的跨越

小模型正在刷新性能认知

驾驭工程：软件开发的范式转移

从 Boris Cherny 到阿里大淘宝：实践者的声音

设计流程已死，但设计没有

人何以自处

行业观察：乐观叙事之外的冷思考

驾驭时代的一点感想

相关文章

评论