介绍 Operator [译]

OpenAI 推出「操作员」

我们正在测试一个名为「操作员」（Operator）的 AI 工具，它像一个帮你上网干活的助手。它可以使用自己的浏览器，像你一样浏览网页、输入文字、点击按钮和滚动页面。

目前，「操作员」还处于测试阶段，功能相对有限，我们会根据大家的使用反馈不断改进它。这是我们推出的首批「智能助手」之一，它能独立完成你交给它的任务。

「操作员」可以帮你处理许多重复的网页操作，比如填写表格、订购食品，甚至制作表情包。它能像人一样使用各种网站和工具，这大大扩展了 AI 的应用范围，可以帮助人们节省时间，也为企业提供了新的机会。

为了确保安全可靠，我们先进行小范围试用。现在，美国地区的 Pro 用户可以在 operator.chatgpt.com 试用「操作员」。这次测试是为了让我们更好地了解用户需求，并持续改进。我们计划未来将「操作员」推广到 Plus、Team 和 Enterprise 用户，并把它集成到 ChatGPT 中。

操作员的工作原理

「操作员」使用一种叫做「使用计算机代理」（Computer-Using Agent，简称 CUA）的新型 AI 模型。它结合了 GPT-4o 的视觉能力和强大的推理能力，通过学习如何操作我们平时看到的屏幕界面（例如按钮、菜单和文本框）来工作。

「操作员」可以通过截图「看到」网页，并像用鼠标和键盘一样「操作」网页。这样，它就能在网上执行任务，而不需要专门为每个网站开发接口。

如果遇到困难或犯错，「操作员」会利用自己的推理能力进行自我纠正。如果它实在解决不了，就会把控制权还给用户，确保使用过程顺利协作。

虽然 CUA 还处于早期阶段，功能有限，但它在 WebArena 和 WebVoyager 这两个浏览器使用测试中已经取得了很好的成绩。你可以在我们的研究博客中了解更多关于测试和「操作员」背后的研究内容。

如何使用操作员

你只需要告诉「操作员」你想做什么，它就能帮你完成。你可以随时接管浏览器的控制权。「操作员」也会主动在你需要登录、支付或解决验证码时请求你接管。

你还可以自定义「操作员」的工作流程，添加自定义指令。这些指令可以适用于所有网站，也可以针对特定网站，例如在 Booking.com 上设置首选航空公司。你可以在主页上保存常用指令，方便快速执行重复任务，例如在 Instacart 上重新订购食品。就像在浏览器中使用多个标签一样，你可以同时让「操作员」运行多个任务，例如在 Etsy 上订购个性化马克杯，同时在 Hipcamp 上预订露营地。

使用自定义指令

使用已保存的提示

生态系统和用户

「操作员」将 AI 从被动工具转变为数字生态系统中的活跃参与者。它可以简化用户任务，并为希望提供创新客户体验和提高转化率的公司带来好处。我们正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，确保「操作员」能够满足实际需求，并遵守相关规范。我们还认为它在公共部门应用中具有巨大潜力，可以提高某些工作流程的可访问性和效率。例如，我们正在与斯托克顿市合作，让居民更容易注册城市服务和项目。

斯托克顿市信息技术主管贾米尔 · 尼亚齐表示："通过在测试阶段了解更多关于「操作员」的信息，我们将更好地找到 AI 能够为我们的居民提供更便捷的公民参与方式。"

通过首先向有限的受众发布「操作员」，我们的目标是从实际反馈中快速学习并改进其功能，从而平衡创新与信任和安全。这种合作方式有助于确保「操作员」为用户、创作者、企业和公共部门组织带来有意义的价值。

Instacart 首席产品官丹尼尔 · 丹克尔表示："OpenAI 的「操作员」是一项技术突破，它使订购食品等过程变得非常容易。"

安全和隐私

确保「操作员」的安全使用是我们的首要任务。我们采取了三层保护措施，以防止滥用并确保用户始终处于控制之下。

首先，「操作员」经过训练，确保用户始终处于控制之下，并在关键时刻征求用户意见。

接管模式： 当需要在浏览器中输入敏感信息（例如登录凭据或支付信息）时，「操作员」会要求用户接管。在接管模式下，「操作员」不会收集或截图用户输入的信息。
用户确认： 在完成任何重要操作（例如提交订单或发送电子邮件）之前，「操作员」应请求用户批准。
任务限制： 「操作员」经过训练，会拒绝某些敏感任务，例如银行交易或需要高风险决策的任务（例如决定工作申请）。
监视模式： 在特别敏感的网站（例如电子邮件或金融服务）上，「操作员」需要密切监督其行为，允许用户直接发现任何潜在错误。

其次，我们简化了「操作员」中的数据隐私管理。

退出培训： 在 ChatGPT 设置中关闭"改进每个人的模型"意味着「操作员」中的数据也不会用于训练我们的模型。
透明的数据管理： 用户可以在「操作员」设置的"隐私"部分一键删除所有浏览数据并退出所有网站。也可以一键删除「操作员」中的历史对话。

最后，我们构建了针对恶意网站的防御机制，这些网站可能会试图通过隐藏提示、恶意代码或网络钓鱼攻击来误导「操作员」：

谨慎导航： 「操作员」旨在检测并忽略提示注入。
监控： 专用的"监控模型"会监视可疑行为，如果出现异常情况，可以暂停任务。
检测流程： 自动化和人工审核流程会不断识别新的威胁并快速更新保护措施。

我们知道不法分子可能会试图滥用这项技术。这就是为什么我们将「操作员」设计为拒绝有害请求并阻止不允许的内容的原因。我们的审核系统会发出警告，甚至可能会因重复违规而撤销访问权限，并且我们已经集成了额外的审核流程来检测和解决滥用问题。我们还提供了关于如何根据我们的使用政策与「操作员」进行交互的指南。

虽然「操作员」的设计考虑了这些保护措施，但没有系统是完美无缺的，这仍然是一个研究预览阶段；我们致力于通过实际反馈和严格测试来持续改进。有关我们方法的更多信息，请访问「操作员」研究博客的安全部分。

局限性

「操作员」目前处于早期研究预览阶段，虽然它已经能够处理各种任务，但它仍在学习、发展，并且可能会犯错。例如，它目前在处理复杂界面（如创建幻灯片或管理日历）时会遇到挑战。早期用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用，帮助我们为每个人改进「操作员」。

下一步

API 能力： 我们计划很快在 API 中公开为「操作员」提供支持的模型 CUA，以便开发人员可以使用它来构建自己的计算机使用代理。
增强功能： 我们将继续提高「操作员」处理更长、更复杂工作流程的能力。
更广泛的访问： 一旦我们对其大规模使用的安全性和可用性充满信心，我们计划将「操作员」（打开新窗口）扩展到 Plus、Team 和 Enterprise 用户，并在未来将其功能直接集成到 ChatGPT 中，从而实现无缝的实时和异步任务执行。

原文链接：https://openai.com/index/introducing-operator/