介绍OpenAI新发布的Operator
前言 2025年1月23日 OpenAI发布了新的Agent: Operator。 这篇文章将分为2个部分 第1部分,萌叔全文翻译OpenAI的官方介绍资料 第2部分,会基于萌叔自己的理解,介绍一下Operator功能要点和可能的实现思路 废话不多说,进入正题 第1部分 针对新的Agent预览版的研究概述,此Agent可以使用它自己的浏览器来执行用户提出的任务。 今天,我们发布了Operator(在新窗口中打开),一个可以访问网页并为你执行任务的智能代理。 它使用自己的浏览器查看网页,并通过输入、点击和滚动与页面交互。 目前,它是一个研究预览版,这意味着它仍有限制,并将根据用户反馈不断改进。 Operator 是我们推出的首批代理之一,这类 AI 能够自主为你完成任务——你只需指定任务,它就会执行。 Operator 可以处理各种重复性的浏览器任务,例如填写表单、订购杂货,甚至创建梗图。 它能够使用人们日常交互的界面和工具,这不仅拓宽了 AI 的应用范围,还能帮助用户节省日常任务的时间,同时为企业提供新的互动机会。 为了确保安全并逐步推广,我们将从小范围开始。 从今天起,Operator 向美国的 Pro 用户开放, 用户可以在 [operator.chatgpt.com](opens in a new window) 访问。 这个研究预览版让我们能够从用户和更广泛的生态系统中学习,不断优化和改进。 我们计划未来将其扩展到 Plus、Team 和 Enterprise 用户,并将这些能力集成到 ChatGPT 中。 Operator 的工作原理 Operator 由一种名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力, 并通过强化学习增强推理能力,使其能够与图形用户界面(GUI)交互——即用户在屏幕上看到的按钮、菜单和文本框。 Operator 可以“看见”(通过截图)并“交互”(使用鼠标和键盘能执行的所有操作)网页,因此无需定制 API 集成,就能在网页上执行任务。 如果遇到挑战或出现错误,Operator 能利用其推理能力进行自我纠正。而当它陷入困境并需要帮助时,会将控制权交还给用户,确保流畅且协作的体验。 尽管 CUA 仍处于早期阶段并存在一些限制,但它在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中创造了新的最先进基准成绩。 你可以在我们的研究博客文章中了解更多关于评估方法及 Operator 背后的研究。 ...