微软推出 Fara1.5 系列浏览器 AI 智能体模型,72% 任务成功率超 OpenAI Operator
27B模型以72%成功率登顶,Operator与Gemini双双败北
微软研究院AI前沿实验室(AI Frontiers lab)最新推出的Fara1.5系列,专为浏览器计算机使用场景设计,包含4B、9B和27B三种参数规模。在覆盖136个热门网站、共计300个任务的Online-Mind2Web基准评估中,Fara1.5-27B凭借72%的任务成功率一骑绝尘。作为对比,OpenAI的Operator仅取得58.3%的成绩,而Google的Gemini 2.5 Computer Use更是只有57.3%——两者均落后该模型超过14个百分点。这些模型均属于“像素到动作(pixel-to-action)”的计算机使用代理(CUA),可直接驱动真实浏览器完成复杂任务。
合成数据管道FaraGen1.5揭秘:低成本产出高质量训练轨迹
Fara1.5系列之所以能够实现小模型赶超大系统的突破,关键在于其配套的合成数据生成系统FaraGen1.5。这套管道使用OpenAI的GPT-5.4作为求解器代理,配合与Fara1.5动作空间镜像的自定义工具,能够以每条约1美元的成本生成并验证多步骤网页任务轨迹。相比此前CUA领域缺乏大规模高质量文本数据的困境,FaraGen1.5有效解决了数据瓶颈,让7B级别的紧凑模型也能具备与前沿大模型匹敌的能力——此前微软开源的Fara-7B已证明这一路径的可行性,Fara1.5系列则是该技术的正式产品化迭代。

人性化设计:Fara1.5-9B的“停止并确认”机制
在追求高成功率的同时,微软同样重视安全性和用户控制权。Fara1.5-9B被特别训练以识别任务中的“关键点”(critical points)——包括用户信息缺失、指令模糊、以及不可逆操作(如完成购买、发送消息等)。当遇到这类场景时,模型会主动暂停并等待用户确认,而非擅自执行。这一机制使其更适合“人在回路中(human-in-the-loop)”的沙箱部署模式,避免在金融、医疗、法律等高风险领域酿成严重后果。
MagenticLite沙箱:浏览器智能体的安全枷锁
所有Fara1.5系列模型均集成于微软自研的沙箱浏览器接口MagenticLite中。该环境提供五项核心安全功能:允许列表导航(allow-listed navigation)、观察模式动作监控(watch-mode action monitoring)、即时暂停控制、以及基于Docker的隔离浏览器运行环境。这意味着部署方可以严格限制模型可访问的网站列表,实时监视其每一步操作,并随时按下“急停键”。微软明确强调,Fara1.5-9B不适用于完全自主的无人监督网络操作,也不应直接用于法律、医疗、金融等高度监管领域,且目前仅支持英文。
从本地轻量化到被开源社区追捧:Fara系列的多维影响
尽管此次发布的Fara1.5系列侧重性能与安全,但其前身Fara-7B早已在开源社区引发轰动。作为仅70亿参数的本地运行智能体,Fara-7B在极低的token开销下即可完成完整的计算机使用任务,甚至能运行在Copilot+ PC等本地设备上。这种轻量化、高效率的设计方向,与MBZUAI的PAN世界模型(持式状态模拟器)等开源研究一起,正推动AI代理从依赖云算力的庞然大物转向可本地部署、可低成本复用的新范式。而Fara1.5系列作为微软在这个方向上的产品级落子,无疑给Operator、Gemini等既有竞品带来了巨大压力。