OpenAI近日发布了备受期待的AI智能体Operator(操作员),该智能体能够代理用户执行网页操作,模拟人类的点击、滚动和输入行为,完成如购买杂货、预订餐厅及提交费用报告等多种任务。
在此之前,微软、Salesforce和Workday等商业软件公司也推出了各自的智能体工具。谷歌和人工智能初创公司Anthropic近期也发布了类似的智能体,能够浏览网页并与菜单和按钮进行交互。
与其他智能体相比,Operator的独特之处在于其通过CUA系统进行复杂的思维链反思和步骤规划,从而显著提高任务完成的精度和复杂性。Operator能够在不依赖具体任务精调的情况下,泛化完成多种复杂任务。
尽管在首次直播演示中,OpenAI仅展示了网购和订餐等基础操作,但在后续的用户测试中,Operator甚至能够在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。
此外,CUA在网页控制和系统控制方面也达到了SOTA(state of the art)。虽然与人类仍有差距,但在演示中整体操作相当流畅。
目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。此阶段表明该产品仍处于发展初期,可能存在局限性,并在演进过程中可能出现错误。ChatGPT Pro的订阅费用为每月200美元,专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型。
OpenAI计划逐步将Operator功能推广到ChatGPT的Plus、Team和Enterprise用户。OpenAI首席执行官山姆·奥特曼(Sam Altman)提到,Operator功能将很快在其他国家推出,但欧洲地区可能需要更长时间。
OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示,Operator在家庭和工作中能够节省时间,尤其在自动化常见任务方面展现出“巨大潜力”。他指出:“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”
此外,OpenAI正在与Instacart、Uber、eBay、Priceline、OpenTable和Etsy等科技公司合作,以便让用户在Operator主页上更便捷地访问这些公司的网页。
Operator背后的驱动力是OpenAI的新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)。该模型融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的API。
CUA的开发基于多年在多模态理解和推理领域的基础研究,结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。
这一能力标志着人工智能发展的新阶段,使模型能够使用人类日常依赖的工具,并为一系列新应用打开了大门。
尽管CUA仍处于早期阶段且存在局限性,但它已经在多个基准测试中取得了新的最高水平:在OSWorld的完整计算机使用任务中成功率为38.1%,在WebArena中为58.1%,在WebVoyager的网页任务中为87%。
这些结果表明,CUA能够在多样化的环境中使用单一通用动作空间进行操作。
CUA通过处理原始像素数据来理解屏幕上的动态,并借助虚拟鼠标和键盘完成操作。它能够导航多步骤任务、处理错误并适应意外变化,从而在各种数字环境中执行任务,例如填写表单和浏览网站,无需依赖特定的API。
在用户指令的引导下,CUA通过一个迭代循环来整合感知、推理和行动:
感知:计算机的屏幕截图被纳入模型的上下文中,为模型提供计算机当前状态的视觉快照。
推理:CUA通过思维链推导下一步操作,综合考虑当前和过去的屏幕截图及已执行的动作。这种“内心独白”机制通过评估观察结果、跟踪中间步骤和动态调整,提升了任务执行的效率。
行动:CUA执行点击、滚动或输入等操作,直至任务完成或需要用户干预。尽管它能自动处理大多数步骤,但在涉及敏感操作(如输入登录信息或响应验证码)时,会寻求用户确认。
尽管AI智能体潜力巨大,但其易用性仍面临挑战。已发布的各款智能体均承诺通过为用户执行任务来节省时间和提高效率,但大多数人尚未在日常生活中广泛使用此类工具。
例如,苹果于去年秋季在其iPhone操作系统中推出的人工智能助手Apple Intelligence,目前尚未广泛应用于日常事务。即使是企业,大多数AI智能体也仅处于测试阶段或以有限的方式使用,以避免暴露公司机密数据或引发网络安全风险。
莱特卡普表示,OpenAI可能会为企业客户增加特定的控制措施或安全护栏,但目前公司仍专注于首批用户。他指出,OpenAI已经开发了隐私、安全和控制功能,以确保智能体不会偏离其编程设定,最重要的是,保持用户对人工智能的控制权。
OpenAI指出,Operator可能面临的风险或滥用情况包括:恶意网站试图欺骗用户、用户试图欺骗代理,以及“提示注入”攻击,后者可能导致用户将敏感信息或资金发送到恶意网站。
为应对这些风险,Operator推出一项名为“接管模式”的功能,要求用户手动输入支付详情或登录信息。此外,Operator在执行高风险任务(如发送邮件)之前会征求用户批准,并且不会处理涉及银行交易或决定求职申请的任务。
同时,Operator不会使用用户之前与ChatGPT共享的数据来执行操作。莱特卡普表示,尽管目前存在局限性,但OpenAI在经过“充分准备和谨慎评估”后,认为Operator已具备有限发布的条件。