Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing

向作者提问

NEW

简介

GUI测试检查软件系统在用户与其图形界面交互时是否表现符合预期，例如测试特定功能或验证相关用例场景。目前，在这个高层次上决定要测试什么是一项手动任务，因为自动化GUI测试工具针对较低级别的充分性指标，如结构代码覆盖或活动覆盖。我们提出了DroidAgent，这是一个用于Android的自主GUI测试代理，用于语义、意图驱动的GUI测试自动化。它基于大型语言模型和支持机制，如长期和短期记忆。给定一个Android应用程序，DroidAgent设置相关任务目标，并随后通过与应用程序交互来尝试实现这些目标。我们对Themis基准测试中的15个应用程序进行的DroidAgent的实证评估表明，它可以设置并执行逼真的任务，具有更高的自主性。例如，在测试消息应用程序时，DroidAgent创建了第二个帐户，并将第一个帐户添加为好友，测试了逼真的用例，而无需人为干预。平均而言，DroidAgent实现了61%的活动覆盖率，而当前最先进的GUI测试技术为51%。此外，手动分析表明，374个自主创建的任务中有317个是逼真和与应用程序功能相关的，同时DroidAgent与应用程序进行了深入的交互并覆盖了更多功能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

自动化GUI测试工具通常只能针对结构代码覆盖率或活动覆盖率等较低级别的充分度量，而无法进行高级别的任务目标测试。本文旨在提出一种基于大型语言模型和支持机制的自动化GUI测试代理，以实现语义、意图驱动的GUI测试。
关键思路

DroidAgent是一种基于大型语言模型和支持机制的自动化GUI测试代理，能够自主设置任务目标并与应用程序交互，实现语义、意图驱动的GUI测试。
其它亮点

本文提出了DroidAgent，一种基于大型语言模型和支持机制的自动化GUI测试代理，能够自主设置任务目标并与应用程序交互，实现语义、意图驱动的GUI测试。实验使用了Themis基准测试集中的15个应用程序进行了测试，结果表明DroidAgent能够设置和执行现实任务，具有更高的自主性。平均而言，DroidAgent实现了61%的活动覆盖率，而当前最先进的GUI测试技术只有51%。此外，手动分析表明，DroidAgent自主创建的374个任务中有317个是现实和与应用程序功能相关的，DroidAgent与应用程序进行了深入的交互并覆盖了更多的功能。
相关研究

最近的相关研究包括：1. "Automated GUI Testing of Android Apps: A Systematic Literature Review"; 2. "Exploring the Limits of Automated GUI Testing of Android Applications"; 3. "GUI Testing of Android Applications: A Systematic Literature Review"等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问