港大突破：纯视觉AI助手实现人机界面类人操作

香港大学和Salesforce研究院联合发布的这项研究成果于2025年第42届机器学习国际会议（ICML）上发表，有兴趣深入了解的读者可以通过论文编号PMLR 267查询完整论文。

在日常生活中，我们操作电脑和手机时就像阅读一本图画书一样轻松自然——看到屏幕上的按钮就点击，看到输入框就打字，看到菜单就选择。然而，让人工智能做同样的事情却一直是个巨大挑战。传统的AI助手就像一个盲人，必须依靠别人描述屏幕内容才能操作，而且还需要为每种设备单独编写复杂的程序。

现在，这个问题有了突破性的解决方案。研究团队开发了一个名为AGUVIS的AI系统，它第一次实现了真正的"纯视觉"操作——完全像人类一样通过观察屏幕图像来操作各种设备，无需任何代码翻译或特殊适配。

这项研究的重要意义在于，它打破了长期以来AI助手必须依赖复杂技术接口的局限。过去，每当我们想让AI操作一个新的应用程序时，就像让一个外国人学会使用中文软件一样，需要大量的翻译工作和特殊培训。而AGUVIS则像一个真正聪明的助手，只需要看一眼屏幕，就能理解界面布局，知道该点击哪里，该输入什么内容。

更令人兴奋的是，AGUVIS不仅能"看懂"屏幕，还能进行复杂的思考推理。当面对复杂任务时，它会像人类一样进行内在的思维过程——分析当前情况，制定行动计划，然后一步步执行。这种能力让它能够处理从网页浏览到手机应用操作的各种复杂任务。

研究团队通过构建大规模的多平台训练数据集，让AGUVIS学会了跨平台的通用操作能力。无论是网页、桌面软件还是手机应用，它都能无缝切换，就像一个技术全能的数字助理。在多项实际测试中，AGUVIS不仅达到了业界最高水准，更重要的是，它是第一个完全基于开源技术实现的纯视觉GUI智能体，这意味着这项技术有望很快普及到各种实际应用中。

**一、告别"翻译员"：为什么纯视觉操作如此重要**

传统的AI助手操作界面时，就像一个只能通过翻译员才能沟通的外国游客。每次想要操作网页时，它必须先将网页转换成HTML代码，再让专门的程序把这些代码"翻译"成它能理解的指令。当换到手机应用时，又需要另一套完全不同的"翻译系统"。这种方式不仅复杂低效，还经常出现"翻译错误"导致操作失败。

更糟糕的是，这种传统方式就像给每个房间都配备不同的钥匙一样繁琐。每个新的应用程序、每个新的操作系统，都需要开发者重新编写适配代码，工作量巨大且容易出错。而且，随着界面复杂程度的增加，这些"翻译文档"会变得异常庞大，处理一个复杂网页可能需要分析超过四千个文字单元，就像让AI读完一篇小论文才能点击一个按钮。

AGUVIS的革命性突破在于完全抛弃了这种"翻译员"模式。它直接像人类一样通过眼睛观察屏幕图像，理解界面布局和功能元素。无论面对的是网页上的购买按钮，还是手机上的设置选项，AGUVIS都能直接识别并操作，不需要任何中间翻译过程。

这种纯视觉方法的优势显而易见。首先是通用性——就像人类学会使用一种界面后，面对类似界面时能够快速适应一样，AGUVIS在一个平台上学到的操作经验可以轻松迁移到其他平台。其次是效率性——直接处理视觉信息比解析复杂代码要快得多，AGUVIS处理界面的速度比传统方法提高了数倍。

更重要的是，这种方法大大降低了部署难度。传统AI助手需要为每个新环境专门开发适配程序，就像为每栋新楼重新画设计图一样复杂。而AGUVIS则像一个经验丰富的服务员，不管走进哪家餐厅，都能快速找到菜单、收银台和洗手间的位置。

**二、会"思考"的AI：内在思维让操作更智能**

AGUVIS最引人注目的特性之一是它具备了类似人类的"内在思维"能力。当我们面对复杂任务时，比如在网上预订机票，我们会在心中进行一系列思考：首先分析当前页面上有什么选项，然后规划需要执行的步骤序列，最后决定具体该点击哪个按钮。AGUVIS也具备了这样的思维过程。

这种内在思维能力通过"内在独白"机制实现。就像我们在解决问题时会在心中默默分析一样，AGUVIS在执行每个操作前都会进行详细的思考分析。比如，当任务是"预订从波士顿机场到北站的行程"时，AGUVIS会先思考："我需要设定出发地为波士顿机场，接下来应该点击目的地输入框并输入北站"，然后才执行具体的点击和输入操作。

这种思维机制让AGUVIS能够处理真正复杂的多步骤任务。不同于那些只能执行简单指令的传统系统，AGUVIS能够将复杂目标分解为合理的行动序列，并在执行过程中不断调整策略。当遇到页面布局发生变化或出现意外情况时，它能够重新分析情况，调整行动计划。

研究团队通过大量实验证明，具备内在思维能力的AGUVIS在复杂任务上的成功率比传统方法提高了显著幅度。特别是在需要多步推理的任务中，比如在电商网站上完成包含筛选条件、价格比较、购买流程的完整购物任务，内在思维让AGUVIS的表现更加可靠和智能。

更有趣的是，这种内在思维不仅提高了任务完成质量，还增强了系统的可解释性。通过观察AGUVIS的思考过程，研究人员和用户都能清楚地理解它为什么做出特定决策，这为未来的优化和故障排除提供了宝贵信息。

**三、统一的"万能钥匙"：跨平台操作的技术突破**

传统AI助手面临的最大难题之一，就像一个工人需要为每种不同的机器学习完全不同的操作方法。网页有网页的规则，手机应用有手机应用的规则，桌面软件又有完全不同的交互方式。这种多样性让开发通用AI助手变得异常困难。

AGUVIS通过创新的统一行动空间设计解决了这个根本问题。它建立了一套"万能钥匙"系统，可以适应各种不同的操作环境。这个系统的核心是将所有基本操作归纳为几种通用动作：点击、输入文字、按键组合、滚动页面等，同时通过灵活的插件机制处理特殊情况。

具体来说，AGUVIS采用了基于pyautogui的标准化操作框架。这就像建立了一种"世界语"，让AI能够用同一套"词汇"与不同的设备和应用程序交流。无论是在网页上点击购买按钮，还是在手机上滑动屏幕，AGUVIS都使用相同的基础指令集，只是参数有所不同。

为了处理不同平台的特殊需求，研究团队设计了智能插件系统。这个系统就像一个工具箱，可以根据具体环境自动选择合适的专用工具。比如，在手机环境中自动加载滑动手势功能，在浏览器环境中启用表单填写优化功能，在桌面环境中支持复杂的键盘快捷键操作。

这种统一设计的最大优势在于学习迁移能力。AGUVIS在一个平台上学会的操作技巧可以自然地应用到其他平台上。比如，它在网页上学会了如何识别和点击按钮后，这种能力可以直接用于手机应用和桌面软件的按钮操作，不需要重新训练。

研究结果显示，这种跨平台学习能力显著提升了AGUVIS的整体性能。在混合平台训练的模型比仅在单一平台训练的模型表现更好，证明了不同平台间的操作经验确实可以相互促进和加强。

**四、海量数据的智慧结晶：训练数据的创新构建**

构建一个能够理解和操作各种界面的AI系统，需要大量高质量的训练数据，这就像培养一个全能的数字助理需要让它见识各种不同的工作场景一样。然而，收集这样的数据面临着巨大挑战：不仅需要覆盖各种不同的平台和应用，还必须包含详细的操作推理过程。

研究团队采用了创新的数据构建策略，将数据分为两个互补的部分：基础操作数据和复杂推理数据。基础操作数据就像练习基本功一样，包含超过100万个单步操作示例，涵盖了从网页点击到手机滑动的各种基本动作。这些数据让AGUVIS学会了准确识别界面元素和执行精确操作的基本技能。

更具挑战性的是复杂推理数据的构建。这类数据需要展示完整的思维过程，不仅要知道"做什么"，还要理解"为什么这样做"。研究团队使用了GPT-4o模型来帮助生成这些推理过程。具体做法是向GPT-4o展示屏幕截图和目标任务，让它像人类专家一样分析情况并生成详细的思考过程。

这种数据构建方法的巧妙之处在于它能够生成预测性而非回顾性的推理。传统方法往往是在知道正确答案后再编造解释，就像马后炮一样缺乏真正的指导意义。而AGUVIS的训练数据中，每个推理步骤都是基于当前可见信息做出的前瞻性分析，真正模拟了人类的决策过程。

为了确保数据质量，研究团队进行了大规模的人工评估。结果显示，超过86%的生成推理数据能够准确反映任务意图并与实际操作保持一致。这种高质量数据为AGUVIS的优异性能奠定了坚实基础。

数据构建过程中还采用了模板增强技术。对于那些包含丰富界面信息但缺乏操作标注的数据，研究团队通过精心设计的模板自动生成操作指令。这种方法大大扩充了训练数据的规模，同时保证了数据的多样性和覆盖面。

**五、分阶段精进：从基础技能到高级推理的训练策略**

AGUVIS的训练过程就像培养一个从学徒到专家的技能发展路径。研究团队设计了一个两阶段训练策略，让AI系统循序渐进地掌握从基本操作到复杂推理的全套技能。

第一阶段被称为"基础操作训练"，就像教一个新手学习基本的鼠标和键盘操作一样。在这个阶段，AGUVIS专注于学习准确识别界面元素和执行精确操作。它需要学会在屏幕上找到正确的按钮位置，理解不同类型界面元素的功能，掌握点击、输入、滚动等基本动作的准确执行。

为了提高训练效率，研究团队开发了"操作打包"技术。这种技术就像将同一主题的练习题归类整理一样，将来自同一屏幕截图的多个操作示例组合在一起进行训练。这样不仅减少了重复的图像处理时间，还帮助AI更好地理解同一界面上不同元素之间的关系。

第二阶段进入"规划推理训练"，这个阶段就像从机械操作提升到战略思维。AGUVIS需要学会复杂的任务分解、多步骤规划和情境适应能力。训练数据包含了完整的思维过程记录，让AI学会在执行操作前进行深入分析和合理规划。

这种分阶段训练的最大优势在于确保了技能发展的稳固性。如果直接进行复杂任务训练，AI可能会在基础操作上出现错误，导致整个任务失败。而通过分阶段训练，AGUVIS首先建立了坚实的基础操作能力，然后在此基础上发展高级推理技能。

实验结果证明了这种训练策略的有效性。相比于一步到位的训练方法，分阶段训练让AGUVIS在各种评估任务上都表现出了更高的成功率和更强的稳定性。特别是在需要多步骤协调的复杂任务中，这种训练方式的优势更加明显。

**六、架构选择的智慧：为什么选择Qwen2-VL**

在构建AGUVIS系统时，选择合适的基础架构就像为一栋大楼选择最佳的地基一样重要。研究团队最终选择了Qwen2-VL作为主要架构，这个选择背后有着深思熟虑的考量。

Qwen2-VL架构的最大优势在于其对高分辨率图像的原生支持能力。传统的视觉-语言模型处理屏幕截图时，就像用老式相机拍摄现代高清显示器一样，往往需要对图像进行大幅压缩，导致重要的界面细节丢失。而Qwen2-VL采用了NaViT风格的图像编码器，能够动态处理不同分辨率的图像，保留屏幕截图中的关键细节信息。

另一个关键优势是其空间感知能力。界面操作需要精确的位置定位，就像外科医生需要准确找到手术部位一样。Qwen2-VL通过2D-RoPE位置编码机制，能够准确理解屏幕上不同元素的相对位置关系，这对于精确的点击操作至关重要。

为了验证架构选择的通用性，研究团队还使用LLaVA-OneVision进行了对比实验。结果显示，虽然LLaVA-OneVision也能实现不错的性能，但在处理高分辨率界面时需要更多的计算资源。这证明了AGUVIS框架的模型无关性——它可以适配不同的基础架构，但选择合适的架构能够获得更好的性能表现。

在具体实现中，研究团队对架构进行了针对性优化。他们将图像最大像素设置为1280×720，在性能和效率之间找到了最佳平衡点。实验表明，进一步提高分辨率到1920×1080并不能显著改善性能，却会大幅增加计算开销。

这种精心调优的架构设计让AGUVIS能够在保持高性能的同时控制计算成本。相比传统的文本解析方法，AGUVIS的视觉处理方式不仅准确性更高，计算效率也更出色。

**七、全面评估：在各种挑战中证明实力**

要验证一个AI助手的真实能力，就像测试一个万能工具是否真的万能一样，需要在各种不同的场景和任务中进行全面检验。研究团队设计了涵盖基础操作到复杂规划的多层次评估体系。

在基础操作能力测试中，AGUVIS面对ScreenSpot基准测试表现优异。这个测试就像给AI进行"驾驶考试"，需要准确识别和操作移动设备、桌面和网页上的各种界面元素。AGUVIS在所有平台上都取得了领先成绩，特别是在需要自主规划的复杂场景中，性能提升更加显著。

更严苛的测试来自离线评估基准。在Multimodal-Mind2Web测试中，AGUVIS需要完成真实的网页导航和交互任务。与依赖HTML代码的传统方法不同，AGUVIS仅通过观察网页截图就能准确理解页面结构并执行操作。在所有评估指标上，AGUVIS都实现了显著的性能提升，特别是在任务成功率方面提高了超过50%。

手机操作能力的评估通过AndroidControl基准进行。这个测试涵盖了高层次任务规划和低层次指令执行两个层面。AGUVIS在两个层面都表现出色，证明了其既能进行宏观规划，也能精确执行具体操作的综合能力。

最具挑战性的是在线实时评估。在Mind2Web-Live、AndroidWorld和MobileMiniWob等真实环境中，AGUVIS需要面对动态变化的界面和不可预期的情况。这就像让一个助手在真实的办公环境中完成各种任务，不仅要求技术能力，还需要适应性和鲁棒性。

评估结果显示，AGUVIS在所有在线测试中都达到了业界最高水准。更重要的是，它是第一个完全基于开源技术实现这种性能水平的系统。在一些测试中，AGUVIS甚至超越了依赖闭源GPT-4o的竞争方案，证明了其技术路线的先进性。

特别值得一提的是效率优势。AGUVIS的纯视觉方法在成本效益方面表现卓越，处理成本比传统HTML解析方法降低了93%，输入处理效率提高了70%。这种效率优势为大规模实际部署奠定了基础。

**八、深度解析：训练策略的精妙设计**

AGUVIS训练过程中的每个设计决策都经过了精心考量和实验验证。研究团队通过大量对比实验深入分析了不同训练策略的影响，这些发现为未来的研究提供了宝贵指导。

关于训练阶段顺序的实验特别有启发性。研究团队比较了先基础后高级的分阶段训练与同时进行的联合训练。结果发现，分阶段训练方式能够让模型在复杂推理任务上表现更好，而联合训练虽然在基础操作上略有优势，但在需要规划能力的任务上表现不佳。这说明基础技能的扎实掌握是发展高级能力的必要前提。

内在思维机制的作用也得到了深入分析。通过对比有无内在思维的模型版本，研究发现内在思维不仅提升了复杂任务的成功率，还增强了基础操作的准确性。这个发现颇为意外，说明思维过程不仅帮助规划，还能提高执行精度。内在思维让模型在操作前进行充分考虑，减少了冲动性错误。

跨平台学习效应的验证更加令人振奋。实验显示，在网页和手机数据上共同训练的模型，在单独的网页任务上表现比仅用网页数据训练的模型更好。这证明了不同平台间确实存在可迁移的通用操作原理，跨平台训练能够让模型学到更robust的技能。

研究团队还深入分析了数据质量对性能的影响。通过人工评估，他们发现生成的推理数据中86.7%能够准确反映任务意图，其余部分的错误主要来源于训练数据中的噪声。这个分析为未来的数据质量控制提供了重要参考。

错误分析揭示了当前系统的局限性。在ScreenSpot测试的错误案例中，40%来自指令歧义，60%属于操作定位错误。有趣的是，当强制模型进行明确推理时，能够解决20%的定位错误，这说明思维过程确实能够提高操作准确性。

这些深度分析不仅验证了AGUVIS设计的合理性，也为未来改进指明了方向。特别是在处理模糊指令和提高不确定性处理能力方面，还有进一步优化的空间。

**九、超越实验室：真实世界的适应能力**

AGUVIS最令人印象深刻的能力之一，是它在面对真实世界复杂情况时展现出的强大适应性。研究团队专门测试了系统在处理训练数据中未见过的情况时的表现，结果令人惊喜。

最典型的例子是处理网站cookie同意弹窗的能力。这类弹窗在AGUVIS的训练数据中并不常见，但在真实网络环境中却随处可见。当AGUVIS遇到这类弹窗时，它能够正确识别这是阻碍任务执行的障碍，并采取适当的关闭操作。比如在访问航空公司网站查找航班信息时，它会先关闭隐私政策弹窗，然后继续执行预订任务。

更具挑战性的是OSWorld测试环境。这个测试要求在统一的计算机环境中处理跨越网页、桌面软件和操作系统层面的复杂任务。尽管AGUVIS仅在网页和手机数据上训练，但它在桌面GUI任务上仍然表现出色，成功率达到10.26%，证明了其强大的泛化能力。

这种泛化能力的根源在于AGUVIS学到了界面交互的基本原理，而不是简单的模式匹配。就像一个经验丰富的用户面对新软件时，能够凭借对通用界面设计规律的理解快速上手一样，AGUVIS也具备了这种抽象理解能力。

研究团队还发现，AGUVIS在处理界面变化时表现出了良好的鲁棒性。当网页布局发生微调或应用界面更新时，它能够基于视觉相似性和功能逻辑找到对应的操作目标，不会因为细微变化而完全失效。

这种真实世界适应能力为AGUVIS的实际应用奠定了基础。它不仅是一个实验室演示系统，而是具备了处理真实复杂环境的实用价值。

**十、技术创新的深远影响**

AGUVIS的技术突破不仅仅是性能指标的提升，更代表了GUI自动化领域的范式转换。这种变化的影响将远远超出学术研究范围，可能重新定义人机交互的未来形态。

从技术角度来看，AGUVIS证明了纯视觉方法在GUI操作上的可行性和优越性。这打破了长期以来认为必须依赖结构化代码信息才能准确操作界面的固有观念。这种范式转换类似于从符号推理到神经网络的人工智能发展历程，代表了思维方式的根本性转变。

AGUVIS的开源特性具有特别重要的意义。不同于那些依赖闭源商业模型的解决方案，AGUVIS为整个研究社区提供了一个开放的基础平台。这意味着世界各地的研究者都可以在此基础上进行创新和改进，加速整个领域的发展进程。

从实用价值角度，AGUVIS的统一操作能力为构建真正通用的数字助手铺平了道路。未来的AI助手将不再需要为每个新应用单独开发适配程序，而是像人类用户一样，凭借视觉理解和操作经验快速适应各种新环境。

这项技术还可能推动无障碍技术的发展。对于视力或行动不便的用户，AGUVIS类型的系统可能成为他们与数字世界交互的重要桥梁，帮助他们更便利地使用各种软件和服务。

从经济效益角度，AGUVIS展示的效率优势具有重要的商业价值。其处理成本比传统方法降低93%的优势，为大规模部署自动化服务提供了经济可行性。这可能催生新的商业模式和服务形态。

不过，这种技术进步也带来了需要关注的挑战。研究团队明确指出了安全性考量的重要性，强调需要确保AI助手不会执行有害操作。这要求在技术发展的同时建立相应的安全机制和伦理规范。

说到底，AGUVIS不仅是一个技术解决方案，更是向着更自然、更智能的人机交互未来迈出的重要一步。它让我们看到了AI助手真正像人类一样"看懂"和操作数字界面的可能性，为构建更加智能和便利的数字生活环境奠定了基础。这项研究的开源发布，更是为全球研究者提供了宝贵的资源和启发，有望推动整个领域的快速发展。

未来，当我们与各种数字设备和应用程序交互时，可能不再需要学习复杂的操作指令或适应不同的界面设计，而是可以简单地告诉AI助手我们想要完成什么任务，就像与一个聪明的人类助理交流一样自然便利。这种愿景正在通过AGUVIS这样的技术突破逐步变为现实。

Q&A

Q1：AGUVIS相比传统AI助手有什么优势？

A：AGUVIS最大的优势是采用纯视觉操作，完全像人类一样通过观察屏幕图像来操作设备，不需要复杂的代码翻译。传统AI助手就像需要翻译员的外国游客，每换一个应用都需要重新编写适配程序，而AGUVIS就像一个经验丰富的多语言服务员，能够快速适应各种新环境。处理效率比传统方法提高了70%，成本降低了93%。

Q2：AGUVIS的内在思维机制是怎么工作的？

A：AGUVIS具备类似人类的内在思考能力，在执行操作前会进行详细分析。比如预订机票任务时，它会先思考"需要设定出发地，然后点击目的地输入框"，再执行具体操作。这种思维过程让它能够处理复杂的多步骤任务，成功率比传统直接操作方法显著提高，特别是在需要规划和推理的复杂场景中表现更加智能可靠。

Q3：普通用户什么时候能使用到AGUVIS技术？

A：AGUVIS已经完全开源，研究团队公开了所有数据集、模型和训练方法，全球开发者都可以基于此技术进行应用开发。虽然目前还主要是研究阶段的成果，但其开源特性意味着技术普及速度会很快。预计不久的将来，我们就能看到基于AGUVIS技术的实际产品，让普通用户享受到更智能、更便利的AI助手服务。

【纠错】【责任编辑:橘子橘子乄】

深度观察

新华全媒头条丨 “黑科技”亮相残特奥会