Operator

前言 2025年1月23日 OpenAI发布了新的Agent: Operator。这篇文章将分为2个部分第1部分，萌叔全文翻译OpenAI的官方介绍资料第2部分，会基于萌叔自己的理解，介绍一下Operator功能要点和可能的实现思路废话不多说，进入正题第1部分针对新的Agent预览版的研究概述，此Agent可以使用它自己的浏览器来执行用户提出的任务。今天，我们发布了Operator（在新窗口中打开），一个可以访问网页并为你执行任务的智能代理。它使用自己的浏览器查看网页，并通过输入、点击和滚动与页面交互。目前，它是一个研究预览版，这意味着它仍有限制，并将根据用户反馈不断改进。 Operator 是我们推出的首批代理之一，这类 AI 能够自主为你完成任务——你只需指定任务，它就会执行。 Operator 可以处理各种重复性的浏览器任务，例如填写表单、订购杂货，甚至创建梗图。它能够使用人们日常交互的界面和工具，这不仅拓宽了 AI 的应用范围，还能帮助用户节省日常任务的时间，同时为企业提供新的互动机会。为了确保安全并逐步推广，我们将从小范围开始。从今天起，Operator 向美国的 Pro 用户开放，用户可以在 [operator.chatgpt.com](opens in a new window) 访问。这个研究预览版让我们能够从用户和更广泛的生态系统中学习，不断优化和改进。我们计划未来将其扩展到 Plus、Team 和 Enterprise 用户，并将这些能力集成到 ChatGPT 中。 Operator 的工作原理 Operator 由一种名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力，并通过强化学习增强推理能力，使其能够与图形用户界面（GUI）交互——即用户在屏幕上看到的按钮、菜单和文本框。 Operator 可以“看见”（通过截图）并“交互”（使用鼠标和键盘能执行的所有操作）网页，因此无需定制 API 集成，就能在网页上执行任务。如果遇到挑战或出现错误，Operator 能利用其推理能力进行自我纠正。而当它陷入困境并需要帮助时，会将控制权交还给用户，确保流畅且协作的体验。尽管 CUA 仍处于早期阶段并存在一些限制，但它在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中创造了新的最先进基准成绩。你可以在我们的研究博客文章中了解更多关于评估方法及 Operator 背后的研究。 ...