介绍OpenAI新发布的Operator

发表于： 2025年2月6日 2025年2月6日
分类： AI
标签： ai, openAI, operator, 大模型

前言

2025年1月23日 OpenAI发布了新的Agent: Operator。
这篇文章将分为2个部分

第1部分，萌叔全文翻译OpenAI的官方介绍资料
第2部分，会基于萌叔自己的理解，介绍一下Operator功能要点和可能的实现思路

废话不多说，进入正题

第1部分

针对新的Agent预览版的研究概述，此Agent可以使用它自己的浏览器来执行用户提出的任务。

今天，我们发布了Operator（在新窗口中打开），一个可以访问网页并为你执行任务的智能代理。
它使用自己的浏览器查看网页，并通过输入、点击和滚动与页面交互。
目前，它是一个研究预览版，这意味着它仍有限制，并将根据用户反馈不断改进。
Operator 是我们推出的首批代理之一，这类 AI 能够自主为你完成任务——你只需指定任务，它就会执行。

Operator 可以处理各种重复性的浏览器任务，例如填写表单、订购杂货，甚至创建梗图。
它能够使用人们日常交互的界面和工具，这不仅拓宽了 AI 的应用范围，还能帮助用户节省日常任务的时间，同时为企业提供新的互动机会。

为了确保安全并逐步推广，我们将从小范围开始。从今天起，Operator 向美国的 Pro 用户开放，
用户可以在 [operator.chatgpt.com](opens in a new window) 访问。
这个研究预览版让我们能够从用户和更广泛的生态系统中学习，不断优化和改进。
我们计划未来将其扩展到 Plus、Team 和 Enterprise 用户，并将这些能力集成到 ChatGPT 中。

Operator 的工作原理

Operator 由一种名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力，
并通过强化学习增强推理能力，使其能够与图形用户界面（GUI）交互——即用户在屏幕上看到的按钮、菜单和文本框。

Operator 可以“看见”（通过截图）并“交互”（使用鼠标和键盘能执行的所有操作）网页，因此无需定制 API 集成，就能在网页上执行任务。

如果遇到挑战或出现错误，Operator 能利用其推理能力进行自我纠正。而当它陷入困境并需要帮助时，会将控制权交还给用户，确保流畅且协作的体验。

尽管 CUA 仍处于早期阶段并存在一些限制，但它在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中创造了新的最先进基准成绩。
你可以在我们的研究博客文章中了解更多关于评估方法及 Operator 背后的研究。

如何使用

要开始使用，只需描述你想执行的任务，Operator 就能处理其余部分。用户可以随时接管浏览器的控制权，
而对于需要登录、输入支付信息或录入验证码的场景，Operator 也会主动请求用户介入。

用户可以通过添加自定义指令来个性化 Operator 的工作流程，这些指令可以适用于所有网站，也可以针对特定网站进行设置，
例如在 Booking.com 上预设航空公司偏好。Operator 还允许用户将常用的提示语保存到主页，
方便快速访问，适用于在 Instacart 上定期补充杂货等重复性任务。

类似于在浏览器中使用多个标签页，用户可以通过创建新对话让 Operator 同时运行多个任务，
比如在 Etsy 订购个性化珐琅杯的同时，在 Hipcamp 预订露营地。

生态系统&用户

Operator（在新窗口中打开）将 AI 从被动工具转变为数字生态系统中的主动参与者。它能够简化用户任务，
并为希望提供创新客户体验和提高转化率的企业带来 AI 代理的优势。我们正在与 DoorDash、Instacart、
OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，
确保 Operator 在尊重既有规范的同时，能够满足现实世界的需求。
除了这些合作，我们还看到 Operator 在提高某些工作流程的可访问性和效率方面具有巨大潜力，
特别是在公共部门的应用。为了进一步探索这些用例，我们正与斯托克顿市（City of Stockton，打开新窗口）等机构合作，
以简化市政服务和项目的注册流程。

随着我们在研究中对 Operator 的了解越来越多，我们将能够更好地找到利用人工智能让居民更轻松地参与公民活动的方法。
OpenAI 的 Operator 是一项技术突破，它使得订购杂货等流程变得非常简单。

安全与隐私

确保“Operator”安全使用是首要任务，通过三层防护措施来防止滥用并确保用户始终处于主导地位。
首先，“Operator”经过训练，以确保使用它的人始终处于控制之中，并在关键节点请求输入。

接管模式：当用户在浏览器中输入敏感信息（如登录凭证或支付信息）时，“Operator”会要求用户接管操作。
在接管模式下，“Operator”不会收集或截取用户输入的信息。
用户确认：在执行任何重大操作（如提交订单或发送电子邮件）之前，“Operator”应要求用户批准
任务限制：“Operator”经过训练，会拒绝执行某些敏感任务，例如银行交易或需要高风险决策的任务，比如对求职申请做出决定。
监视模式：在特别敏感的网站（如电子邮件或金融服务网站）上，“Operator”需要对其操作进行密切监督，以便用户能够直接发现任何潜在错误。

接下来，我们在“Operator”中简化了数据隐私管理。

训练选择退出：在ChatGPT设置中关闭“为所有人改进模型”功能，意味着“Operator”中的数据也不会被用于训练我们的模型。
透明的数据管理：用户可以在“Operator”设置的隐私部分，通过一键操作删除所有浏览数据并退出所有网站的登录。
此外，用户也可以通过一键操作删除“Operator”中之前的对话记录。

最后，我们构建了防御机制，以应对那些可能通过隐藏提示、恶意代码或网络钓鱼尝试来误导“Operator”的敌对网站：

谨慎导航：“Operator”被设计为能够检测并忽略提示注入。
监控：一个专门的“监控模型”会监视可疑行为，如果发现异常情况，可以暂停任务。
检测流程：自动化和人工审核流程会持续识别新威胁，并迅速更新防护措施。

我们知道不良行为者可能会试图滥用这项技术。这就是为什么我们将 Operator 设计为拒绝有害请求并阻止不允许的内容。
我们的审核系统可以对重复违规行为发出警告甚至撤销访问权限，并且我们整合了额外的审核流程来检测和解决滥用问题。
我们还提供了有关如何按照我们的使用政策与 Operator 互动的指导。

虽然 Operator 的设计采用了这些保护措施，但没有哪个系统是完美无缺的，这仍然是一个预览版本；
我们致力于通过现实世界的反馈和严格的测试不断改进。有关我们的方法的更多信息，请访问 Operator 研究博客的安全部分。

限制

Operator 目前处于早期研究预览阶段，虽然它已经能够处理各种任务，但它仍在学习、发展，可能会犯错误。
例如，它目前在创建幻灯片或管理日历等复杂界面方面遇到了挑战。
早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用，帮助我们为所有人提供更好的 Operator。

下一步

CUA 在 API 中：我们计划很快在 API 中开放驱动“Operator”的模型——CUA，以便开发者可以利用它构建自己的计算机使用代理。

增强能力：我们将继续提升“Operator”处理更长和更复杂工作流程的能力。
更广泛的使用权限：我们计划将“Operator”扩展到 Plus、Team 和 Enterprise 用户，并在未来一旦对其在大规模使用中的安全性和可用性充满信心后，将其功能直接集成到 ChatGPT 中，从而实现无缝的实时和异步任务执行。

第二部分

第一部分的官方的翻译稿读完以后，大家可能还是有点懵。没事萌叔来解释一下。

OpenAI提出从AI到AGI，也就是通用人工智能，一共有5个等级

Level 1: Chatbots（聊天机器人），AI可以以对话的方式与人互动
Level 2: Reasoners（推理者），AI科技解决人类水平的问题
Level 3：Agents（智能体），AI可以作为系统执行一些行动任务
Level 4：Innovators（创新者），AI可以开发创新性的AI
Level 5：Organizations（组织者），AI可以完成一个组织完成的工作

这次OpenAI发布的Operator还是处于Level 3，是一个Agent，通常情况下，Agent会通过function calling和API进行交互，而这次的Operator
是与浏览器进行交互。为了达到这个目标，OpenAI训练了新模型（Computer-Using Agent，CUA），将GPT-4o的视觉能力与高级推理能力相结合，
让Operator可以 “看到”（通过屏幕截图）并与浏览器 “交互”（使用鼠标和键盘所允许的所有操作），使其能够在网络上采取行动。
从萌叔看到演示视频来看。 Operator拥有内嵌的浏览器，之所以使用内嵌的浏览器，可能是为了方便的将浏览器的控制权在用户和AI之间进行也切换以及更安全
准确的进行如在输入框中输入文字，点击按钮等操作。

使用场景

注意: 以下过程为我根据官方视频进行的脑补。

假设你打算制作曲奇饼干，你可以这样给Operator部署任务。

我打算要制作曲奇饼干，需要够4个人吃，请你帮我在京东超市购买原料

任务处理过程

1）`Operator`开始分析和推理过程

好的，用户想要制作足够4个人吃的曲奇饼干。首先，我需要确定一个标准的曲奇食谱，然后调整份量以满足四个人的需求。
通常，一份曲奇食谱可能适合制作大约24块曲奇，但具体数量取决于曲奇的大小和每个人的食量。
不过一般来说，每人可能会吃2-3块，所以4个人可能需要8-12块。不过可能需要确认常见的食谱份量，或者用户是否希望有剩余。
接下来，我需要考虑常见的曲奇食谱成分。基本的曲奇通常包括黄油、糖、面粉、鸡蛋、发酵粉或小苏打，以及香草精等调味料。
...
以下是一个适合4人份的经典黄油曲奇食谱，成品约16块（人均4块，可依食量调整），材料常见且操作简单：
基础黄油曲奇食谱（4人份）
材料：
无盐黄油 100g（室温软化）
细砂糖 60g（喜甜可增至80g）
鸡蛋 1个（室温）
低筋面粉 150g
盐 1小撮（平衡甜味）

2）在浏览器中打开jd.com (控制权属于AI)

页面被重定向到了登录页面，浏览器控制权切换给人类用户

3）输入用户名和密码，进行登录操作 (控制权属于人类用户)

登录成功之后，控制权转交给 AI

4）识别搜索输入框 (控制权属于AI)

5）在输入框中输入 “无盐黄油” (控制权属于AI)

6）选择一个商品项，点击加入购物车按钮 (控制权属于AI)

重复步骤 3~5, 所有必须原料被加入购物车

7）点击去购物车结算按钮 (控制权属于AI)

8）点击结算按钮 (控制权属于AI)

关键步骤必须由人类触发，控制权转交给人类用户

9）点击提交订单按钮 (控制权属于用户)

10）进行支付 (控制权属于用户)

支付完成，控制权转交给AI

11）检查状态，通知用户任务处理完毕 (控制权属于AI)

这其中有些值得商榷的点，比如通过对浏览器页面截图，然后利用模型的多模态能力针对图片进行“看图”动作，识别出输入框、按钮等关键元素，
这个过程似乎有点绕。虽然一个可能的原因是，部分网站页面是基于JS动态渲染得到的，直接阅读网页源码，无法识别出输入框、按钮等关键元素。
截图在识别的方式泛化能力强，能够适应更多的场景，但性能开销和准确度可能会稍差。

单就购物这个场景，似乎还是直接对接电商网站，让他们针对AI开放API接口更好。
只需3个接口

用户登录或鉴权接口
搜索接口
添加到购物车接口

待AI任务完成以后，用户打开自己的购物车，提交订单并结算即可。

参考资料

1.Introducing Operator
2.OpenAI发布首个AI智能体Operator

作者: vearne
文章标题: 介绍OpenAI新发布的Operator
发表时间: 2025年02月06日
文章链接: https://vearne.cc/archives/40257
版权说明: CC BY-NC-ND 4.0 DEED

微信公众号

vearne@ut

280

前言