CogAgent: A Visual Language Model for GUI Agents

简介

人们通过图形用户界面（GUI），例如计算机或智能手机屏幕，在数字设备上花费了大量时间。大型语言模型（LLMs），例如ChatGPT，可以协助人们完成写电子邮件等任务，但很难理解和交互GUI，从而限制了它们提高自动化水平的潜力。本文介绍了CogAgent，这是一个拥有180亿参数的视觉语言模型（VLM），专门用于GUI的理解和导航。通过利用低分辨率和高分辨率图像编码器，CogAgent支持1120 * 1120分辨率的输入，使其能够识别微小的页面元素和文本。作为一种通用的视觉语言模型，CogAgent在五个文本丰富和四个通用的VQA基准测试中实现了最先进的水平，包括VQAv2，OK-VQA，Text-VQA，ST-VQA，ChartQA，infoVQA，DocVQA，MM-Vet和POPE。CogAgent仅使用屏幕截图作为输入，在PC和Android GUI导航任务中均优于基于LLM的方法，这些方法消耗提取的HTML文本--Mind2Web和AITW，从而推动了技术的发展。该模型和代码可在\url{https://github.com/THUDM/CogVLM}上获得。
图表
解决问题

论文旨在解决大型语言模型在理解和交互图形用户界面方面的局限性，通过引入一个专门针对GUI理解和导航的18亿参数视觉语言模型CogAgent。
关键思路

CogAgent使用低分辨率和高分辨率图像编码器，支持1120 * 1120分辨率的输入，能够识别微小的页面元素和文本，从而实现GUI的理解和导航。
其它亮点

CogAgent在五个文本丰富和四个通用VQA基准测试中均达到了最先进的水平，包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent仅使用屏幕截图作为输入，在PC和Android GUI导航任务上优于消耗提取的HTML文本的LLM方法Mind2Web和AITW。
相关研究

最近在这个领域中，还有一些相关研究，如《VisualBERT：一种视觉语言模型用于多个视觉推理任务》、《LayoutLM：预训练文本到布局识别的多模态语言模型》等。

CogAgent: A Visual Language Model for GUI Agents

评论