Android in the Zoo: Chain-of-Action-Thought for GUI Agents

简介

大型语言模型（LLM）导致智能手机上出现了大量自主GUI代理，这些代理通过预测API的一系列操作来完成由自然语言触发的任务。尽管该任务高度依赖于过去的操作和视觉观察，但现有的研究通常考虑中间截图和屏幕操作所携带的很少的语义信息。为了解决这个问题，本文提出了一种名为“行动思路链”（CoAT）的方法，它考虑了前一次操作的描述、当前屏幕以及更重要的是思考应该执行哪些操作以及所选择的操作带来的结果。我们证明，在一个基于现成LLM的零样本设置中，与标准上下文建模相比，CoAT显著提高了目标进展。为了进一步促进这一领域的研究，我们构建了一个基准Android-In-The-Zoo（AitZ），其中包含18,643个屏幕-操作对以及行动思路链注释。实验表明，在我们的AitZ数据集上微调一个2亿模型可以达到与CogAgent-Chat-18B相当的性能。
图表
解决问题

本论文旨在解决智能手机上自主GUI代理的任务完成问题，即通过预测一系列API操作来完成通过自然语言触发的任务。然而，现有研究往往只考虑中间截图和屏幕操作所携带的少量语义信息，而忽略了其它重要信息。本文提出了一种新的方法CoAT，通过考虑以前的操作、当前屏幕以及选择的操作所导致的结果来更好地完成任务。
关键思路

CoAT方法通过考虑以前的操作、当前屏幕以及选择的操作所导致的结果来更好地完成任务，相比于现有的上下文建模方法，它在零样本情况下显著提高了目标完成度。
其它亮点

本文构建了一个包含18643个屏幕-操作对和CoAT注释的基准数据集AitZ，并展示了在此数据集上微调200M模型的性能。实验结果表明，CoAT方法在零样本情况下的表现优于标准上下文建模方法。论文提出的CoAT方法可以为智能手机上自主GUI代理的任务完成提供新思路。
相关研究

与本文相关的研究包括利用自然语言指令完成任务的研究，以及利用深度学习方法进行自主GUI代理的研究。例如，近期的相关研究包括《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》和《Deep Reinforcement Learning for Automated Mobile Application Testing》等。

Android in the Zoo: Chain-of-Action-Thought for GUI Agents

评论