内容概要
Sam Altman 为 DevDay 2025 拉开序幕,他首先回顾了自上次开发者大会以来 OpenAI 取得的显著增长,特别强调了开发者参与度和 API 使用量的提升。接着,他介绍了本次大会为开发者带来的四个核心发布:允许在 ChatGPT 内部构建应用的新 Apps SDK、旨在让智能体(Agent)开发更快速高效的 Agent Kit、通过 Codex 简化软件编写流程,以及包括 GPT-5、Sora 2 和 Realtime Mini 在内的模型与 API 重大更新。通过现场演示,展示了这些新技术如何彻底改变应用开发、智能体创建和软件工程的未来。
目录
- 引言与增长回顾
- 聚焦开发者:四项核心发布
- 在 ChatGPT 内部构建应用与 Apps SDK
- 现场演示:Apps SDK 结合 Coursera 和 Canva
- 现场演示:Zillow 应用集成
- Apps SDK 总结与未来计划
- 使用 Agent Kit 构建智能体
- Agent Kit 应用案例:Albertson 和 HubSpot
- 现场演示:使用 Agent Kit 构建并部署智能体
- Agent Kit 总结与未来计划
- Codex 重塑软件开发
- GPT-5 Codex 模型与应用
- Codex 面向工程团队的功能
- 现场演示:使用 Codex 构建软件(控制摄像头、灯光与 Xbox 手柄)
- 模型更新:GPT-5 Pro 与 Realtime Mini
- 面向创作者的 Sora 2 API 预览版
- Sora 2 应用案例:美泰(Mattel)的产品创意
- 结语:人工智能构建的未来
引言与增长回顾
谢谢大家。
早上好,欢迎来到 DevDay。感谢各位来到旧金山,这座我们创业起步并致力于构建 AI 未来的城市。
距离我们第一届 DevDay 已过去近两年,更重要的是,在座的各位也取得了长足的进步。回想 2023 年,我们拥有 200 万周活跃开发者和 1 亿周活跃 ChatGPT 用户,API 每分钟处理约 3 亿个 token——这在当时对我们来说已是相当大的体量。
如今,已有 400 万开发者基于 OpenAI 进行构建,每周有超过 8 亿人使用 ChatGPT,我们的 API 每分钟处理超过 60 亿个 token。感谢大家,AI 已从人们娱乐和体验的工具,转变为日常构建工作的一部分。
在开始今天的发布前,我们想做一件有趣的事。我身后的屏幕上,是在座开发者中,基于我们平台构建的应用所取得的一些重要里程碑:处理了 100 亿、1000 亿甚至 1 万亿 token。让我们为他们献上掌声。
我代表 OpenAI 全体成员,感谢你们所做的卓越工作。正是你们在推动未来前进,看到你们已取得的成就,让我们对未来充满期待。
聚焦开发者:四项核心发布
庆祝已有的成就固然令人兴奋,但我们仍处于这段旅程的早期阶段。因此,今天我们将专注于大家最关心的事情:让使用 AI 进行构建变得更加简单。
我们一直在倾听开发者的声音,了解你们遇到的瓶颈以及希望我们开发的新功能,从而帮助你们创造更多可能。今天,我们为大家准备了四项重要发布。
我们将展示如何在 ChatGPT 内部构建应用,并帮助大家获得广泛的分发渠道;我们将展示如何让智能体的构建过程更快、更好;大家还会看到我们如何简化软件编写,处理重复性编码工作,让你们能专注于系统设计和创造力。
在此之上,我们还将更新模型和 API,以支持你们想要构建的一切。我们相信,这是历史上最适合成为创造者的时代,从想法到产品的实现速度前所未有。 这种加速的势头已清晰可见。
在 ChatGPT 内部构建应用与 Apps SDK
首先,我们来看看在 ChatGPT 内部的应用生态。我们希望 ChatGPT 能成为一个强大的工具,帮助人们取得进步、提升生产力、激发创造力、加速学习,更好地实现生活中的各种目标。人们使用它的创意方式总是让我们惊叹不已。
自第一届 DevDay 以来,我们一直在探索如何向开发者开放 ChatGPT。我们尝试了 GPTs,采纳了像 MCP 这样的标准,并让开发者能够将 ChatGPT 连接到越来越多的应用中。
这些尝试有的成功,有的则不然,但我们在此过程中学到了很多。今天,我们将正式向开发者开放 ChatGPT,让大家可以在其中构建真正的应用程序。这将催生新一代集交互性、适应性和个性化于一体的应用,用户可以与它们对话。
为此,我们今天推出了 Apps SDK,预览版即日可用。通过 Apps SDK,你将获得一个完整的技术栈,可以连接数据、触发动作、渲染完全交互式的用户界面等等。
Apps SDK 基于 MCP 构建,让你能完全控制后端逻辑和前端界面。我们已经发布了相关标准,任何人都可以集成 Apps SDK。
当你使用 Apps SDK 构建应用时,你的产品将能触达数亿 ChatGPT 用户。我们希望这能极大地帮助开发者快速扩展产品。谢谢。
如果用户已经订阅了你现有的产品,他们可以直接在对话中登录。未来,我们还将支持多种变现方式,包括新的 Agentic Commerce Protocol,它能让用户在 ChatGPT 内部直接完成支付。
让我们来看几个例子。当用户使用 ChatGPT 时,他们可以通过名称直接调用应用。例如,你可以为 ChatGPT 绘制一个产品流程草图,然后说:“Figma,把这个草图转换成可用的图表。”
Figma 应用会接管并完成这个操作。之后,如果你想进一步迭代,还可以从 ChatGPT 中启动 FigJam。我们还让应用可以在对话中被发现。
当用户提出请求时,我们可以推荐相关的应用。比如,一个用户说他周末的派对需要一个播放列表,ChatGPT 就可以推荐在 Spotify 中创建。这让用户能在恰当的时机轻松找到或被推荐合适的应用。未来还将有更多方式帮助开发者获得曝光。
现在,与其空谈,不如让我们现场演示一下。我邀请 Alexi 上台为大家展示。
现场演示:Apps SDK 结合 Coursera 和 Canva
Alexi: 大家好,我是 Alexi,ChatGPT 团队的一名软件工程师,负责 Apps SDK 的开发。我非常激动能为大家展示首批用户可以体验的应用。这些应用的魅力在于将丰富的交互式视觉效果与 ChatGPT 的强大功能相结合。
让我们从 Coursera 开始。
假设我在工作中花在思考机器学习上的时间不够,想要深入学习一下。我可以在 ChatGPT 中请求 Coursera 应用来帮助我。我可以这样说:“Coursera,可以教我一些关于机器学习的知识吗?”
由于这是我第一次在 ChatGPT 中使用 Coursera,我需要同意连接授权。下次使用时,就可以直接进入了。
大家会注意到,我是直接向 ChatGPT 请求 Coursera 应用的,但 ChatGPT 也能在对话相关时主动推荐应用。默认情况下,ChatGPT 中的应用会以内联方式显示,并支持任何可以在网页上渲染的内容,比如这里展示的视频。
Apps SDK 还支持画中画模式或扩展至全屏布局。现在课程已经加载好了,我们来播放视频。播放视频后,它会立即固定在屏幕顶部,这对于像 Coursera 这样的应用非常有用,因为你可以一边观看视频,一边继续进行对话。
让我们快进一点。假设我想深入了解视频中提到的某个概念,我可以问 ChatGPT:“能详细解释一下他们现在在讲的内容吗?”
Apps SDK 提供了一个 API,可以将应用的上下文信息反馈给 ChatGPT,确保模型始终了解用户正在交互的具体内容。我们称之为“与应用对话 (talking to apps)”,这正是其魅力所在。
我非常兴奋地看到,作为我们最顶尖的用例之一,“通过 ChatGPT 学习”正在变得越来越好。借助应用和 Apps SDK,你可以为全球用户解锁更丰富的教育体验。
这里,ChatGPT 回复并解释说,讲师正在讨论训练机器学习模型前的数据准备步骤,并用简单的语言为我进行了分解。我无需解释视频里看到了什么,ChatGPT 能直接理解。
通过这个例子,我连接了 Coursera 应用,发现并开始播放课程,并通过文字与视频直接互动,所有这些都在我现有的 ChatGPT 对话中完成。非常酷。
用户也喜欢在 ChatGPT 中进行创作。这里有一段对话,我正在为我弟弟的遛狗生意构思一些创意。我们来回讨论了几次,现在是时候将想法变为现实了。
我对其中一些名字很满意,比如这个“Walk this Wag”。现在,我将请求 Canva 把它做成一张海报。我可以这样说:“Canva,能用‘Walk this Wag’这个名字为我做一张海报吗?我希望它色彩鲜艳、富有奇思妙想、明亮,并且我更喜欢无衬线字体。”
好的,发送。现在,Canva 正在后台根据我对话的上下文生成海报。Canva 非常擅长创作这类素材,现在你可以直接在 ChatGPT 中启动它。
无论你是为 OpenAI 制作专业的营销材料,还是仅仅为 DevDay 做一个有趣的演示,Canva 都能在你工作时随时待命。正如 Sam 提到的,Apps SDK 是基于 MCP 构建的,这是我们在 OpenAI 非常喜欢使用的一个开放标准。
如果你已经有一个现有的 MCP,可以很快地通过 Apps SDK 对其进行增强。你只需添加一个返回 HTML 的资源,应用就能在 ChatGPT 支持的所有平台(网页和移动端)上运行。
如大家所见,这是现场演示,所以会有一点延迟,但结果来了。Canva 为我们返回了四个海报示例。它们以内联方式显示,就像之前的 Coursera 视频一样,同时 ChatGPT 也解释了它为我们做了什么。
我们还可以探索 Apps SDK 的另一种模式:全屏。我点击一个素材,应用就会请求全屏显示。这样我们就能专注于特定的素材,并查看更多细节。
我可以请求 ChatGPT 进行修改,比如一些视觉上的微调,就像我们的图像生成体验一样。但既然我们在旧金山,又是在 DevDay,不如让 Canva 把这张海报转换成一份商业计划书吧。我可以这样说:“Canva,能把这张海报做成一份商业计划书吗?我们想为遛狗业务进行一轮种子融资。”
现场演示:Zillow 应用集成
我发送这个请求后,由于 Canva 需要制作几份幻灯片,可能需要一些时间。为了节省时间,我们先进行下一个演示。
假设遛狗生意进展顺利,我们想扩展到另一个城市。我可以问 ChatGPT:“根据我们的对话,扩展遛狗业务到哪个城市比较好?”
ChatGPT 当然知道我们一直在讨论什么,它非常热情地推荐了匹兹堡。很好。现在我可以调用 Zillow 应用,说:“请给我展示一些那里的待售房屋。”
现在 ChatGPT 正在与 Zillow 通信,获取最新的房产数据,并将在 ChatGPT 中嵌入一个交互式地图,我们来体验一下它的全屏效果。好了,我们看到了地图,加载动画很漂亮,然后,我们看到了一堆房源信息。
看起来我们的幻灯片也做好了,稍后我们再回来看。但这张地图在内联视图下有点难看清,所以我可以点击一个具体的房源,然后全屏打开它。现在,我们基本上拥有了 Zillow 的核心体验,而且是嵌入在 ChatGPT 中的。
你可以预约看房,执行 Zillow 提供的所有常规操作。但这里的选项很多,有点难以筛选。所以我可以对 ChatGPT 说:“能把筛选条件设置为只有三居室且带院子的房子吗?当然,院子是给狗用的。”
ChatGPT 会再次与 Zillow 通信,由于应用处于全屏模式,它现在可以直接更新数据,而无需创建新的实例。我们看到 ChatGPT 返回了结果,并在上方显示了消息浮层。点击它,我可以在 Zillow 应用上方查看我的对话,甚至可以将其展开到全屏高度。很酷。
让我们放大地图,找一个我们可能感兴趣的房子。现在,因为 Zillow 应用正在向 ChatGPT 暴露上下文信息,它知道我正在看什么。我可以询问关于这个房子的更多信息,比如:“这套房子离狗狗公园有多远?”
ChatGPT 能够将来自 Zillow 的上下文信息与其掌握的其他工具(如搜索)结合起来,从而提供关于这套房子的更多信息。从这里,我还可以调用 Zillow 的其他工具,比如计算购房的负担能力,它总能提供最佳的答案。
这是一个很好的例子,展示了 Apps SDK 体验的动态性。一切都从一张内联地图开始,现在我们可以在与应用对话、向 ChatGPT 提问或直接使用 Zillow 的体验之间自由切换。
我们再回头看看那些幻灯片。回到刚才的对话,可以看到 Canva 给了我们几个选项。我喜欢这个蓝色的设计。打开它,我们现在可以在全屏模式下看到幻灯片,以及 Canva 为我生成的所有精美页面。
准备好后,我可以像对海报那样,提出后续的修改要求。当我满意时,可以在 Canva 中打开它,导出真正的幻灯片,希望能顺利完成种子轮融资。
这就是应用与 ChatGPT 对话的魅力所在,它将 ChatGPT 的智能与你喜爱的产品相结合,创造出真正新颖的体验。我非常期待与大家一起继续构建这一切,也迫不及待想看到你们会用它创造出什么。
Apps SDK 总结与未来计划
Sam Altman: 感谢 Alexi,演示非常精彩。在这么多人面前同时打字和演讲非常困难,你做得很好。
我们很高兴大家能体验到演示中的这些应用,以及我们发布合作伙伴提供的其他一些应用。它们今天就会在 ChatGPT 中上线,而这仅仅是个开始。未来几周,我们将陆续推出更多合作伙伴的应用。
对于开发者而言,Apps SDK 的预览版从今天起就可以开始使用了。我们的目标是尽早将它交到你们手中,听取你们的反馈,与你们共同构建。今年晚些时候,开发者将可以提交应用进行审核和发布。
除了在对话中发现应用,我们还将发布一个用户可以浏览的应用目录。任何符合我们开发者指南标准的应用都有资格被收录。而在设计和功能上达到更高标准的应用,将获得更显眼的推荐位置,包括在目录中和作为对话建议。
我们已经随 Apps SDK 一同发布了开发者指南的草案,让大家能提前了解预期。关于应用的变现模式,我们很快会分享更多信息,也希望能听到你们的想法。这对开发者和 ChatGPT 用户而言,都将是一个激动人心的新篇章。以上就是关于应用的内容,希望大家喜欢。谢谢。
使用 Agent Kit 构建智能体
接下来,我们来谈谈如何构建智能体,以及我们将如何让这个过程更简单、更高效。在过去几年里,AI 已经从一个你可以“问任何事”的系统,演变成一个你可以“让它做任何事”的系统。
我们开始通过智能体看到这种转变的雏形——一种能够利用上下文、工具和信任来执行任务的软件。然而,尽管围绕智能体的讨论非常热烈,潜力巨大,但真正投入生产并被广泛使用的却寥寥无几。
开发者很难知道从何入手,该使用哪些框架,而且工作量巨大。这其中涉及任务编排、评估循环、连接工具、构建优秀的用户界面等,每一层都增加了复杂性,让你在验证想法是否可行之前就已筋疲力尽。
显然,这个领域充满了活力,机会是真实存在的。我们与数千个团队进行了交流,其中许多就在这个房间里,他们正在构建智能体,以重新构想工作的方式。我们询问了他们,我们可以做些什么来让智能体的构建变得更容易。
今天,我们将推出一个新工具来解决这个问题。我们的目标是为每一位希望更快、更轻松地将想法变为智能体的构建者提供支持。我们很高兴地向大家介绍 Agent Kit。
Agent Kit 是 OpenAI 平台提供的一套完整的构建模块,旨在帮助你将智能体从原型阶段推向生产环境。它包含了构建、部署和优化智能体工作流所需的一切,并大大减少了其中的阻力。
我们希望从个人开发者到大型企业,每个人都能从中获得巨大价值。下面我们来介绍几个核心功能。首先是 Agent Builder。
这是一个用于构建智能体的画布界面。它提供了一种快速、可视化的方式来设计逻辑步骤、测试流程和发布创意。它构建在我们已有的 Responses API 之上,数十万开发者已经在使用这个 API,所以大多数使用过我们平台的开发者应该对它的基础很熟悉。
第二项是 Chat Kit。这个需求我们听得很清楚。我们正在让将出色的聊天体验集成到你自己的应用中变得轻而易举。你将获得一个简单、可嵌入的聊天界面,并且可以进行定制。
你可以融入自己的品牌、工作流,以及任何让你的产品与众不同的元素。在视频中你可以看到,聊天功能如何在每个智能体节点间协作,并调用工具以形成最佳响应。
最后是针对智能体的评估。我们正在推出专用于衡量智能体性能的新功能。你将获得追踪评级,帮助你逐步理解智能体的决策过程;还有数据集,用于评估单个智能体节点。
你还将获得自动化的提示词优化功能,甚至现在可以直接从 OpenAI 平台对外部模型运行评估。这些都是我们当初在尝试构建第一个智能体时,希望拥有的工具。
当然,智能体需要访问数据。通过 OpenAI 的连接器注册中心 (Connector Registry),你可以通过一个管理员控制面板,安全地将智能体连接到你的内部工具和第三方系统,同时确保一切都在你的掌控之下,安全可靠。
Agent Kit 应用案例:Albertson's 与 HubSpot
我们来看几个例子。Albertson's 在美国经营着超过 2000 家杂货店,每周有超过 3700 万人在此购物。每家店都像一个小型的经济体。
店长需要不断做出决策,比如调整促销活动、产品组合、重新布置陈列,还要与众多供应商合作,工作非常繁杂。于是,Albertson's 使用 Agent Kit 构建了一个智能体。
现在,想象一下,冰淇淋的销量意外下降了 32%。在过去,这会引发一个漫长的报告流程,涉及电子表格、会议,以及大量的恐慌——他们卖很多冰淇淋,这对他们非常重要。
而现在,店员只需询问智能体发生了什么。智能体会分析所有它能获取的上下文信息,包括季节性、历史趋势、外部因素,然后给出一个建议。也许是时候调整陈列,或者开展一个本地广告活动。
我们再来看另一个智能体。HubSpot 是一个被全球数十万组织使用的客户平台。他们使用 Agent Kit 改进了其 AI 工具 Breeze 的响应能力,并使用了自定义响应小部件。
在这个例子中,HubSpot 的一个客户 Luma Plants 收到了一个问题:为什么一株植物在亚利桑那州长得不好。它随后使用 Breeze 助手搜索自己的知识库,查找针对该州低湿度环境的本地处理方法,调取政策细节,并将所有信息整合在一起。
然后,它提供了多种想法和一个具体建议。这就是我们想象中智能的运作方式:跨越多个不同来源,协同工作,为客户提供智能、有用的答案。这也是一个展示 Agent Kit 能力的绝佳例子。
我们有许多优秀的智能体发布合作伙伴,他们已经使用 Agent Kit 成功扩展了智能体应用。从今天起,Agent Kit 将对所有人开放。现在,让我们进行一个现场演示,我把时间交给 Christina。
现场演示:使用 Agent Kit 构建并部署智能体
Christina: 谢谢 Sam。大家好,我是 Christina,来自 Agent Kit 开发团队。今天,我想向大家展示 Agent Kit 如何帮助开发者以前所未有的速度创建智能体。
大家可能已经看过我们的 DevDay 网站了。就是这个你们都能访问的网站,上面有今天全部的日程安排。但目前,它只是一个静态页面。
如果它能帮助你规划一天的行程,并为你推荐最相关的会议,会怎么样呢?我们是 OpenAI,我们的 DevDay 网站当然要有 AI 功能。所以,我们今天就一起构建一个由 Agent Kit 驱动的智能体,并直接部署到这个网站里。
为了让事情更有趣,我给自己设定一个 8 分钟的时限,在你们面前完成构建和上线。
大家刚听完构建智能体有多难,所以这会有点挑战。我现在启动计时器,以示公正。计时开始了。
我从 OpenAI 平台的工作流构建器开始。我们不用从代码开始,而是可以通过可视化的方式连接节点。Agent Builder 可以帮助你用一种简单直观的方式,对极其复杂的工作流进行建模,它基于我们自己构建智能体时总结出的常见模式。
在左侧,我们已经提取了常见的构建模块,例如文件搜索和 MCP 等工具、安全护栏、人工介入以及其他逻辑节点。今天,我计划构建一个使用两个专业智能体的工作流。
第一个是会议智能体,它会返回日程相关信息;第二个是更通用的 DevDay 信息智能体。我先从一个分类智能体开始,它用来判断收到的消息类型,究竟是询问特定会议,还是更一般性的问题。
然后,我加入一个 if-else 节点,根据分类结果来决定后续的行为。接下来,我创建会议智能体。我拖放一个智能体节点,命名为“会议智能体”,并为它提供上下文,告诉它任务是抓取会议信息。
然后我可以为它添加各种工具。今天,我已经准备好一个包含所有会议信息的文档,所以我只需把它拖进来,命名为“sessions”并附加。
现在这个智能体已经拥有回答我问题所需的所有信息了。但是,日程表不应该只是纯文本,还应该有趣且视觉化。所以,我还要为它创建一个小部件。
我转到我们的小部件构建器。在这里,我可以从零开始创建一个小部件,也可以浏览模板库,学习并复用其他小部件。但今天,我已经为这个场景设计好了一个。
这是一个为 Froge 设计的引导会议小部件,Froge 是我们 DevDay 的朋友之一,你会在场馆各处看到它。它正在金门公园举办一个一对一的引导会议。我们可以直接下载这个小部件,然后回到我们的智能体,把它附加进去。
我好像没点到下载,让我回去再点一下。
好了。现在,我们把这个小部件附加到刚才创建的会议智能体,作为它的输出格式。拖进来,预览一下,确保我们添加的是正确的小部件,一切就绪。
这个会议智能体现在完成了。接下来,我创建通用的 DevDay 智能体。同样,拖入一个智能体节点,命名为“DevDay 智能体”。我们再次给它一些关于它任务的上下文。
然后,为了契合今天的主题,我们让它用 Froge 的风格说话。我们再次添加一个文件,这个文件包含了今天的所有信息。命名为“DevDay”并附加。
这个智能体也准备好了,我们把它连接到工作流中。现在我还有几分钟时间,让我们用预置的安全护栏来增加一些额外的安全性。
构建智能体时,最重要的事情之一就是能够信任它们。安全护栏能让你更有信心,它可以防止幻觉、增加内容审核、屏蔽个人身份信息 (PII)。这里我们已经有几个预置的护栏,我启用 PII 屏蔽,并把“姓名”也加进去,这样可以方便我验证它的行为。
我把这个护栏连接到工作流的开头,确保 Froge 不会泄露 PII。然后,我再增加一个智能体,用于处理传入敏感信息的情况。同样,为了保持一致,我让它用 Froge 的风格说话,并提醒它不能回答包含敏感信息的问题,同时移除相关上下文。
好了,我认为这个工作流已经准备就绪。我还可以配置输出,决定最终向用户展示什么。比如,我可以关闭文件搜索的来源引用,如果这些是内部信息的话。我想这样就可以了。
我们来测试一下。我可以直接在智能体构建器中预览。我问:“我想了解如何构建智能体,应该参加哪个会议?”我能看到消息正在我们刚才创建的工作流中流转:检查护栏、分类意图、从我添加的会议文件中提取信息。
它找到了合适的会议,使用了我添加的小部件,并确定由 James 和 Rohan 在 11:15 主讲的“大规模智能体编排”是我应该去听的会议。然后,我看到了几声“ribbit”,因为这其实是 Froge 在用它的方式和我说话。
好的,这个智能体看起来不错,我得注意时间。我们刚刚用工具构建了几个专业的智能体,添加了安全护栏,用小部件进行了定制,还在预览模式下测试了工作流。
唯一还没做的,就是进行一套完整的评估。我们也可以直接在智能体构建器中完成,确保在上线前一切都符合预期。
但现在,时间紧迫,DevDay 的与会者们都在等着。我们发布吧。点击发布,命名为“Ask Froge”,发布。
我现在就有了一个完全部署到生产环境的智能体,并获得了一个工作流 ID,可以直接运行。在右侧,我们还提供了代码导出功能,以防我想在自己的环境中运行。
但你可以看到,要写的代码相当多。所以我就直接用我们刚刚创建的工作流 ID,然后回到我的网站。
在我的 DevDay 网站上,我首先使用我们刚刚创建的工作流创建一个 Chat Kit 会话。我只需填入那个工作流 ID,然后用我们自己服务器上生成的客户端密钥,添加 Chat Kit 的 React 组件。
接着,进行视觉定制,让它更有 Froge 的风格。它会被命名为“Ask Froge”,占位符里会继续有“ribbit”,并使用 Froge 特有的颜色和起始提示。
我将把这个 Froge 聊天窗口做成一个从页面底部弹出的面板。最后,我在网站顶部添加一个“Ask Froge”的链接,让它在我们的网站上显眼易见。
回到我们的网站,链接已经出现了。我们来试试。我问:“我想了解如何构建智能体,应该参加哪个会议?”
同样,它正在执行我们刚才创建的工作流:检查护栏、分类消息、从文件搜索中调用工具、使用我们设计的小部件,最后再次确定“大规模智能体编排”是我应该参加的会议,并继续用 Froge 的风格回答。好的,我们成功了。
Agent Kit 总结与未来计划
智能体已经准备就绪。我们可以停止计时了。还剩 49 秒,任务完成。
我可以继续在可视化构建器中迭代这个智能体,并将更改直接部署到我的网站,完全无需修改任何代码。这包括添加新工具、为其他用例添加新小部件、添加新的安全护栏,我甚至可以把它连接到客户端工具,让它直接在我的网站上执行操作。
在短短几分钟内,我们通过可视化方式设计了一个智能体工作流,添加了工具和小部件,进行了预览、部署和测试,现在你们大家都可以使用它了。
它现在已经在你们的 DevDay 网站上线了。你们可以点击自己的胸牌,应该就能看到并使用它,找到最适合你们的会议。我们期待看到你们使用它,并期待 Froge 和你们未来用 Agent Kit 构建出的所有新体验。谢谢,现在把时间交还给 Sam。
Codex 重塑软件开发
Sam Altman: 谢谢 Christina,这太酷了。我迫不及待想看看大家会用它创造出什么。我们已经探讨了 AI 应用和智能体,现在让我们转向另一个同样重要的话题:我们如何编写软件。
AI 带来的最令人兴奋的变化之一是,我们正在进入一个改变软件编写方式的新时代。任何有想法的人都可以为自己、家人或社区构建应用。
在谈论 Codex 之前,我想分享几个例子。在日本,一位 89 岁的退休老人借助 ChatGPT 自学编程,现在已经为老年用户开发了 11 款 iPhone 应用。他将一生的智慧转化为帮助他人更独立生活的工具。
在西班牙,Pal Garcia 和 Domestic Data Streamers 的成员正在使用 ChatGPT 的图像生成功能和 Sora,帮助人们重新连接记忆。在亚利桑那州立大学,医学生们需要一种更好的方式来练习未来作为医生将面临的棘手对话。于是,他们用我们的模型构建了一个虚拟病人应用,让他们可以在进入真实考场前进行尝试、失败并不断进步。
在法国凡尔赛宫,游客现在可以一边漫步宫殿,一边与它对话。他们利用我们的实时 API,创造了一种与艺术品和雕塑进行实时讨论的体验。历史变成了一场对话。
看到人们创造出这些东西,真是太棒了。这也是为什么我们如此兴奋地要为开发者提供更多工具,帮助他们更快地构建。今年早些时候,我们发布了 Codex 的研究预览版,这是 OpenAI 的软件工程智能体,旨在与开发者并肩工作,加速软件创建过程。
GPT-5 Codex 模型与应用
从那时起,Codex 广受欢迎,并成长为一个能力更强的协作者。它现在可以在你编码的任何地方工作:你的 IDE、终端、GitHub 以及云端。你的 ChatGPT 账户连接了这一切,让你的工作可以在不同工具间无缝切换。
我们为 Codex 发布了大量新功能,它现在运行在新的 GPT-5 Codex 模型上,这是一个专门为 Codex 和智能体编码训练的 GPT-5 版本。这个模型在代码重构和代码审查等任务上表现更佳,并且能根据任务的复杂性动态调整其思考时间。
开发者们非常喜欢这个新模型,Codex 的使用量增长迅猛。我们衡量这个的一个关键指标是每日消息数,即开发者每天与 Codex 进行的任务和对话数量。
自 8 月初以来,Codex 的每日消息数增长了 10 倍。这种快速增长也帮助 GPT-5 Codex 成为我们有史以来增长最快的模型之一。自发布以来,我们已经通过该模型处理了超过 40 万亿个 token。
在内部,Codex 已经无处不在。如今 OpenAI 编写的新代码几乎全部由 Codex 用户完成。使用 Codex 的工程师每周完成的拉取请求 (pull requests) 数量增加了 70%,而且几乎每个 OpenAI 的 PR 都会经过 Codex 的审查。人们从中得到的深度反馈,甚至超过了对资深工程师的期望。
从今天起,Codex 正式结束研究预览阶段,进入正式发布阶段。谢谢。
Codex 面向工程团队的功能
虽然 Codex 已经在个人开发者中获得了广泛的应用,但今天我们推出了一系列新功能,使其对工程团队更有帮助。首先,我们集成了 Slack。这是一个呼声很高的功能,现在你可以直接在 Slack 的团队对话中,让 Codex 编写代码或回答问题。
其次,我们推出了新的 Codex SDK,让你可以扩展和自动化 Codex,将其融入团队自己的工作流中。第三,我们提供了新的管理工具和报告功能,包括环境控制、监控、分析仪表盘等,帮助企业更好地管理 Codex。
大家可以期待 Codex 很快会带来更多改进。让我们备受鼓舞的一件事是,看到使用 Codex 的人群非常广泛,从周末开发个人项目的开发者,到高增长的初创公司,再到大型全球企业。
思科在其整个工程组织中推广了 Codex,现在他们的代码审查速度提高了 50%,平均项目周期从几周缩短到了几天。
现场演示:使用 Codex 构建软件(控制摄像头、灯光与 Xbox 手柄)
接下来的演示,我们想展示一些有趣的东西。我们将向大家展示,如何使用新的 Codex 和我们的 API,将你周围的任何东西变成可用的软件。为此,让我们欢迎 Raman 上台。
Raman: 早上好,各位。去年,我们从零开始构建了一个 iPhone 应用,甚至在舞台上用我们的第一个推理模型 01 现场编程了一架迷你无人机。坦白说,那有点像在我们还没给它起名之前的“氛围编程”。
但从那时起的进步是惊人的。Codex 现在是一个能理解你上下文的队友,它与你并肩工作,能可靠地为你的团队分担任务。
我们一直在思考,如何最好地向大家展示 Codex 现在能做的所有酷炫事情。我们有很多想法,但有一个我们反复想到的:为什么不构建一个我们所有人此刻在这个房间里都能体验和看到的东西呢?
这就是我们的挑战。如果你们抬头看,可能会注意到舞台上方安装了一个摄像头。我想,也许我们可以从这里开始。早些时候,我让 Codex CLI 创建一个非常简单的控制面板界面。
左边是摄像头画面,右边是一些按钮。如果能把我的笔记本电脑屏幕投上来,你们就能看到 Codex 的成果。它最初做得很好,后来我还加入了 DevDay 活动的 Figma 品牌元素,让它能提取准确的颜色和组件,渲染出与我们设计完全匹配的效果。
很好,这是我们的起点。到现在,我还没写过一行代码,但让我们深入看看还能在此基础上做些什么。现在切换到我的终端。
可以看到我们有 Codex CLI,它已经用我的 ChatGPT 账户登录,并由 Sam 提到的全新模型 GPT-5 Codex 驱动。
让我们从一个我敢肯定你们中很多人从未问过编码智能体的问题开始:“如何在 Node.js 中控制索尼 FR7 摄像头?”老实说,我也不知道从何入手。
我看到有一个 C++ SDK,本以为 Codex 会想用它并转换成 JavaScript。但它有一个更好的主意。它发现,apparently 有一个叫 Visca 的协议可以用来控制这些摄像头。
如你所见,Codex 对这类问题的响应速度非常快。这看起来很有希望。所以我接着让 Codex 用 Visca 协议完全构建一个集成,并将其连接到那个控制面板上。
顺便说一句,Codex 变得越来越难演示了,因为它真的可以不知疲倦地处理你的任务。我见过它为一个大型重构任务工作长达 7 小时并最终成功,这相当出色。
如果我们切换回来,向上滚动,可以看到它在过程中不断更新计划,写了大量代码。这就是最终结果。屏幕上显示,它为这一个任务工作了超过 13 分钟,但完成了我要求的一切。
我们来仔细看看。如果我跳转到 VS Code,你可以看到在屏幕右侧,我们也有 Codex 在 IDE 中的集成。这些就是 Codex CLI 为摄像头控制生成的文件。
可以看到它构建了一个 Node 服务器,还找出了所有需要发送给这个摄像头的 UDP 数据包。想象一下,如果我自己去学习这个有 30 多年历史的协议,会花多少时间。
Codex 甚至还发现,这个特定的摄像头需要发送一些非常特殊的头部信息。好了,UI 组件现在已经连接好了,服务器也正在运行。我们可以快速看一下效果。
如果我打开摄像头,好了,我们看到画面了,是你们大家。太棒了。我们来试试控制。看,我现在可以从这个界面控制摄像头了。非常酷。
用按钮控制不错,但我觉得我们可以做得更好。所以,我打算在 IDE 扩展里实时发送另一个任务。
看这里:“连接一个 Xbox 无线手柄来控制摄像头。”我现在就发送这个任务。我刚才在后台发现了一个 Xbox 手柄,不知道是谁在那玩,但我觉得可以试试。
我们就把它放在这里。如你所见,Codex 制定了一个计划,aparentemente 需要完成三个任务。它正在浏览文件,研究如何连接这个手柄。
有趣的是,在 IDE 中,我们还有一个“自动上下文 (auto context)”的概念。这意味着你的提示可以非常简短,因为 Codex 会理解你的意图,它会查看你最近使用的文件,并据此进行调整。
现在我们进行到任务二了,这个大概还需要一分钟左右,我们就让它在后台运行。
在此期间,我们还能做什么呢?我认为语音是一个激动人心的交互方式。为了节省几分钟时间,我已经让 Codex 集成了我们的实时 API 和 Agents SDK。
我想把这一切都连接到应用的这个屏幕右下角的绿色小点上。实时 API 的强大之处在于,它不仅为你的应用带来了自然的语音对话能力,还能在对话的上下文中连接到任何 MCP 服务器。
这让我开始思考,我们还能在这个房间里展示什么,并把它变成一个 MCP 服务器呢?然后我想,等等,我们有灯光系统。也许我们可以把场馆的灯光系统连接到一个 MCP 服务器上。
让我看看我发给 Codex 的这个任务,但这次是在 Codex Cloud 里。你可以看到我的提示,我让 Codex 为这个特定型号的灯光系统连接一个 MCP 服务器。
我给了它我找到的参考文档,以及我希望 UI 拥有的确切接口。但最让我着迷的是,如果你看日志,就能真正感受到 Codex 的智能体行为的魔力。
我本可以把这个任务交给一个队友,但因为任务非常具体,现在 Codex 就是我的队友。如果你看它的处理过程,它在某个时刻发现,为了继续前进,需要找到关于命令 8 的新信息。
于是它就去再次获取 GitHub 文档,以便在过程中真正地操作和调用工具。这就是 GPT-5 Codex 的魔力所在。你可以放手让它去处理复杂的任务,你会看到这种智能体行为的涌现。
之后,我又进行了一轮交互,让 Codex 把 readme 信息也包含进来,这样我就知道如何运行它了。果然,我的 MCP 服务器就在这里了。
回到 VS Code,另一个有趣的地方是,听起来 Xbox 的任务刚完成。我们马上就能看到。太棒了。现在回到这里,你可以看到你所有的本地任务和云端任务都在 VS Code 扩展里了。
如果我点击“构建 MCP 服务器”,这就是我刚才在 Codex Cloud 上给你们看的任务。在这里,我可以把所有更改应用到本地进行测试。
我只需点击“应用”,现在这个 MCP 服务器的所有更改都包含在本地了。我不想让你们看着我在这里执行 npm install,所以我已经提前把那个 MCP 服务器拿过来,并安装了所有依赖项让它运行起来。现在,我们来检验一下所有这些成果。首先,回到我们的应用,看看我们是否能用这个 Xbox 手柄控制摄像头。
成功了!太棒了。有趣的是,我甚至没有告诉 Codex 哪个按钮该做什么,但它猜到用摇杆是个好主意。这非常完美。
现在,进行真正的测试。让我们进入语音模式,看看会发生什么。提前向音视频团队道个歉,我们来试试 Codex 是否搞定了灯光控制。
语音助手: 你好。
Raman: 你好。
语音助手: 你好。我能清楚地听到你。请告诉我你需要什么。
Raman: 好的,你在摄像头里看到了什么?
语音助手: 我看到你面前有大量观众,他们成排坐着,准备就绪。房间光线充足,人群一直延伸到很远,坐满了整个空间。
Raman: 没错。你能把灯光照向观众吗?
语音助手: 好的。我已经用明亮的灯光照亮了观众席,他们现在应该被完美地突显出来了。
Raman: 现在你能向在场的每一位问好吗?
语音助手: 当然。观众席的灯光已经亮起。让我们欢迎这群出色的观众。你好,在 Fort Mason 的杰出开发者们!我们非常高兴能在这里与你们共度这美妙的一天。
Raman: 太棒了。现在你能用灯光做些有趣的效果,并向正在看直播的朋友们打个招呼吗?
语音助手: 有趣的灯光已经启动了。一些动态、多彩的效果正在运行。向所有观看直播的朋友们问好,感谢你们的加入,这将是一次非凡的体验。
Raman: 酷。好了,现在恢复正常吧。
太棒了。顺便说一下,到目前为止,我仍然没有手写一行代码。但还有最后一件事想展示给大家。
最后,Sam 提到我们今天发布了 Codex SDK。所以我想以一个能让大家一窥软件工程未来的东西来结束。让我再次进入语音模式,试试这个。
Raman: 你好,能请 Codex 展示一个像电影结尾那样的演职员表吗?但这次的“演员”是所有 DevDay 的与会者。
语音助手: 我正在用 Codex 运行这个任务,准备好后会通知你。
Raman: 好的。与此同时,你能开始倒计时,并为我们所有人拍张合照吗?
语音助手: 好的,来了。
Raman: 解释一下刚才发生了什么。当我向语音智能体发送任务时,它也将 Codex SDK 作为一个工具添加了进来。这意味着,我现在可以实时地重新编程这个应用,即时地根据用户需求或任何反馈进行调整。
所以,当我要求创建一个演职员表时,它能够直接编辑这个 React 应用内部的代码,重新加载,找到完成任务所需的东西,现在演职员表已经在滚动了。这太神奇了。
就这样,我们利用语音、草图和身边的设备,将所有这些都转化为了可用的软件,而且全程没有手写一行代码。
所以,请把你们最大胆的想法、最复杂的编码问题交给 Codex,看看会发生什么。我相信你们会和我们一样,每天都感到惊奇。现在唯一的限制,就是你的想象力。非常感谢,Sam,交还给你。
模型更新:GPT-5 Pro 与 Realtime Mini
Sam Altman: 谢谢 Raman。这是我所见过的软件创建方式上最大的变革,我们迫不及待想看到大家会用它创造出什么。我相信未来将非常光明。
我们今天讲了很多,但显然,模型本身也非常重要。所以我想分享一些模型的更新。早在 8 月,我们发布了 GPT-5。我们训练它非常擅长驱动智能体和端到端的编码,而 GPT-5 也确实做到了。
像 Cursor、Windsurf 和 Vercel 这样的顶尖编码初创公司正在使用 GPT-5 来改变软件的编写和发布方式。之后,我们发布了 GPT-5 Pro,这是我们有史以来最智能的模型。
今天,我们在 API 中正式推出 GPT-5 Pro。所有开发者都可以使用,希望你们喜欢。
GPT-5 Pro 非常适合辅助处理极其困难的任务,比如金融、法律、医疗保健等领域,这些领域需要极高的准确性和推理深度。
这是我们在两个月前发布的先进语音模型的一个版本,拥有相同的音质和表现力。我个人认为,语音将成为人们与 AI 交互的主要方式之一,而这是迈向那个现实的一大步。
面向创作者的 Sora 2 API 预览版
现在我想换个话题,谈谈为创作者们带来的新东西。这是一个呼声很高的功能,希望大家会喜欢。我们看到电影制作人、设计师、游戏开发者、教育工作者等,在他们的创作过程中使用 AI 取得了令人难以置信的成果。
今天,我们在 API 中发布 Sora 2 的预览版。
你们现在可以在自己的应用中,直接访问驱动 Sora 2 惊艳视频输出的同款模型。我们在这个模型上取得的最大飞跃之一是它的可控性。你可以给它详细的指令,它能在保持状态的同时,提供风格化、准确且构图精良的结果。
例如,你可以拿一个 iPhone 拍摄的画面,然后提示 Sora 将其扩展成一个宏大的电影级宽屏镜头。但我们一直在做的最令人兴奋的事情之一是,这个新模型能够将声音与视觉效果完美结合。
不仅仅是语音,还有丰富的音景、环境音效以及与所见画面同步的特效。这里有一个皮划艇视频的例子。
你还可以将现实世界中的元素带入 Sora 2。例如,你可以拍一张你的狗的照片,然后给它找一些新朋友。“看谁来了,伙计。它们都在这儿。好狗狗们,过来。就是这样,大家在一起。快乐的狗狗们。”
Sora 2 也非常适合概念开发。你只需描述一个大概的氛围或产品,Sora 就会给你一个视觉起点。这里,我们用它来为一个电商广告生成概念。
“当你的新家感觉像一张白纸时,找到那些能让它属于你的物件。浏览、定制,并在几分钟内结账。快速送货上门。”
人们似乎非常喜欢 Sora 2。自发布以来,它一直位居应用商店榜首,人们展示出的创造力让我们看得非常开心。
我们希望,现在通过 API 中的 Sora 2 预览版,你们也能在自己的产品中直接生成同样高质量的视频,并配有逼真同步的音效,从而发现各种绝佳的构建可能。
就像我们的其他模型一样,它为灵活性而生。你可以控制视频长度、宽高比、分辨率,并轻松地对视频进行混剪。
Sora 2 应用案例:美泰(Mattel)的产品创意
美泰(Mattel)是一个很棒的合作伙伴,他们与我们一起测试了 Sora 2 的 API,探索如何更快地将产品创意变为现实。现在,他们的一位设计师可以从一张草图开始,然后将这些早期概念变成你可以看到、分享和反馈的东西。
我们来看看这是如何运作的。
这是一种非常酷的创造玩具的新方式。看到创意在 AI 的帮助下,能如此迅速地转变为可分享、可行的设计,真是令人难以置信。我们很期待看到大家在自己的产品中使用 Sora 2 后,会创造出什么其他的东西。
结语:人工智能构建的未来
我们希望今天的内容能给你们一些新的构建灵感。我们希望 OpenAI 能成为这个新构建时代的绝佳平台。我们认为,事情很快就会变得非常不可思议。
我们今天所有的发布,都旨在支持你们的工作:用于在 ChatGPT 内部构建原生应用的 Apps SDK;让你能更轻松、更自信地随处部署智能体的 Agent Kit;改变软件编写方式、帮助团队更快交付的更强大的 Codex;以及扩展可能性边界的新模型 API:GPT-5 Pro、Sora 2 和 Realtime Mini。
我们正在见证一些重大的事情发生。我认为,过去软件需要数月或数年才能建成,而你们看到,现在用 AI 只需要几分钟。你不需要一个庞大的团队,你只需要一个好主意,然后就能以前所未有的速度将它变为现实。
感谢大家来到这里,感谢你们的构建。我们的目标——稍等,我快说完了——我们的目标是让 AI 对每个人都有用。而这个目标,没有你们所有人是无法实现的。所以,我们非常感谢你们能在这里与我们一起构建。
同时,也衷心感谢让今天成为可能的团队。这背后付出了巨大的努力。今天还有很多精彩内容,请享受接下来的会议,我们稍后见。非常感谢。