GinoGino

介绍 Operator [译]

7 分钟阅读人工智能

OpenAI 推出「操作员」

我们正在测试一个名为「操作员」(Operator)的 AI 工具,它像一个帮你上网干活的助手。它可以使用自己的浏览器,像你一样浏览网页、输入文字、点击按钮和滚动页面。

目前,「操作员」还处于测试阶段,功能相对有限,我们会根据大家的使用反馈不断改进它。这是我们推出的首批「智能助手」之一,它能独立完成你交给它的任务。

「操作员」可以帮你处理许多重复的网页操作,比如填写表格、订购食品,甚至制作表情包。它能像人一样使用各种网站和工具,这大大扩展了 AI 的应用范围,可以帮助人们节省时间,也为企业提供了新的机会。

为了确保安全可靠,我们先进行小范围试用。现在,美国地区的 Pro 用户可以在 operator.chatgpt.com 试用「操作员」。这次测试是为了让我们更好地了解用户需求,并持续改进。我们计划未来将「操作员」推广到 Plus、Team 和 Enterprise 用户,并把它集成到 ChatGPT 中。

操作员的工作原理

「操作员」使用一种叫做 「使用计算机代理」(Computer-Using Agent,简称 CUA) 的新型 AI 模型。它结合了 GPT-4o 的视觉能力和强大的推理能力,通过学习如何操作我们平时看到的屏幕界面(例如按钮、菜单和文本框)来工作。

「操作员」可以通过截图「看到」网页,并像用鼠标和键盘一样「操作」网页。这样,它就能在网上执行任务,而不需要专门为每个网站开发接口。

如果遇到困难或犯错,「操作员」会利用自己的推理能力进行自我纠正。如果它实在解决不了,就会把控制权还给用户,确保使用过程顺利协作。

虽然 CUA 还处于早期阶段,功能有限,但它在 WebArena 和 WebVoyager 这两个浏览器使用测试中已经取得了很好的成绩。你可以在我们的 研究博客 中了解更多关于测试和「操作员」背后的研究内容。

如何使用操作员

你只需要告诉「操作员」你想做什么,它就能帮你完成。你可以随时接管浏览器的控制权。「操作员」也会主动在你需要登录、支付或解决验证码时请求你接管。

你还可以自定义「操作员」的工作流程,添加自定义指令。这些指令可以适用于所有网站,也可以针对特定网站,例如在 Booking.com 上设置首选航空公司。你可以在主页上保存常用指令,方便快速执行重复任务,例如在 Instacart 上重新订购食品。就像在浏览器中使用多个标签一样,你可以同时让「操作员」运行多个任务,例如在 Etsy 上订购个性化马克杯,同时在 Hipcamp 上预订露营地。

使用自定义指令

使用已保存的提示

生态系统和用户

「操作员」将 AI 从被动工具转变为数字生态系统中的活跃参与者。它可以简化用户任务,并为希望提供创新客户体验和提高转化率的公司带来好处。我们正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保「操作员」能够满足实际需求,并遵守相关规范。我们还认为它在公共部门应用中具有巨大潜力,可以提高某些工作流程的可访问性和效率。例如,我们正在与斯托克顿市合作,让居民更容易注册城市服务和项目。

斯托克顿市信息技术主管贾米尔 · 尼亚齐表示:"通过在测试阶段了解更多关于「操作员」的信息,我们将更好地找到 AI 能够为我们的居民提供更便捷的公民参与方式。"

通过首先向有限的受众发布「操作员」,我们的目标是从实际反馈中快速学习并改进其功能,从而平衡创新与信任和安全。这种合作方式有助于确保「操作员」为用户、创作者、企业和公共部门组织带来有意义的价值。

Instacart 首席产品官丹尼尔 · 丹克尔表示:"OpenAI 的「操作员」是一项技术突破,它使订购食品等过程变得非常容易。"

安全和隐私

确保「操作员」的安全使用是我们的首要任务。我们采取了三层保护措施,以防止滥用并确保用户始终处于控制之下。

首先,「操作员」经过训练,确保用户始终处于控制之下,并在关键时刻征求用户意见。

  • 接管模式: 当需要在浏览器中输入敏感信息(例如登录凭据或支付信息)时,「操作员」会要求用户接管。在接管模式下,「操作员」不会收集或截图用户输入的信息。
  • 用户确认: 在完成任何重要操作(例如提交订单或发送电子邮件)之前,「操作员」应请求用户批准。
  • 任务限制: 「操作员」经过训练,会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务(例如决定工作申请)。
  • 监视模式: 在特别敏感的网站(例如电子邮件或金融服务)上,「操作员」需要密切监督其行为,允许用户直接发现任何潜在错误。

其次,我们简化了「操作员」中的数据隐私管理。

  • 退出培训: 在 ChatGPT 设置中关闭"改进每个人的模型"意味着「操作员」中的数据也不会用于训练我们的模型。
  • 透明的数据管理: 用户可以在「操作员」设置的"隐私"部分一键删除所有浏览数据并退出所有网站。也可以一键删除「操作员」中的历史对话。

最后,我们构建了针对恶意网站的防御机制,这些网站可能会试图通过隐藏提示、恶意代码或网络钓鱼攻击来误导「操作员」:

  • 谨慎导航: 「操作员」旨在检测并忽略提示注入。
  • 监控: 专用的"监控模型"会监视可疑行为,如果出现异常情况,可以暂停任务。
  • 检测流程: 自动化和人工审核流程会不断识别新的威胁并快速更新保护措施。

我们知道不法分子可能会试图滥用这项技术。这就是为什么我们将「操作员」设计为拒绝有害请求并阻止不允许的内容的原因。我们的审核系统会发出警告,甚至可能会因重复违规而撤销访问权限,并且我们已经集成了额外的审核流程来检测和解决滥用问题。我们还提供了关于如何根据我们的使用政策与「操作员」进行交互的 指南

虽然「操作员」的设计考虑了这些保护措施,但没有系统是完美无缺的,这仍然是一个研究预览阶段;我们致力于通过实际反馈和严格测试来持续改进。有关我们方法的更多信息,请访问「操作员」研究博客 的安全部分。

局限性

「操作员」目前处于早期研究预览阶段,虽然它已经能够处理各种任务,但它仍在学习、发展,并且可能会犯错。例如,它目前在处理复杂界面(如创建幻灯片或管理日历)时会遇到挑战。早期用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用,帮助我们为每个人改进「操作员」。

下一步

  • API 能力: 我们计划很快在 API 中公开为「操作员」提供支持的模型 CUA,以便开发人员可以使用它来构建自己的计算机使用代理。
  • 增强功能: 我们将继续提高「操作员」处理更长、更复杂工作流程的能力。
  • 更广泛的访问: 一旦我们对其大规模使用的安全性和可用性充满信心,我们计划将「操作员」(打开新窗口)扩展到 Plus、Team 和 Enterprise 用户,并在未来将其功能直接集成到 ChatGPT 中,从而实现无缝的实时和异步任务执行。

原文链接:https://openai.com/index/introducing-operator/