Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model

向作者提问

NEW

简介

随着软件渲染技术的进步，移动应用程序中的GUI页面现在涵盖了大量的视觉信息，其中每个页面的视觉语义都对整个应用程序逻辑做出了贡献，这给软件测试带来了新的挑战。尽管自动化图形用户界面(GUI)测试取得了进展，但缺乏测试神谕限制了其识别仅具有明显异常信号的崩溃错误的功效。然而，仍然存在大量的非崩溃错误，从意外行为到错位等，通常可以通过现有技术逃避检测。虽然这些错误可能展示出作为潜在测试神谕的视觉线索，但它们通常涉及一系列截图，并且检测它们需要了解GUI页面转换之间的操作逻辑，这对传统技术是具有挑战性的。考虑到多模式大语言模型(MLLM)在视觉和语言理解方面的显著表现，本文提出了一种基于视觉的自动化GUI测试方法VisionDroid，用于检测具有MLLM的非崩溃功能错误。它首先提取GUI文本信息并将其与截图对齐以形成视觉提示，使MLLM能够理解GUI上下文。然后，功能感知探索器使用MLLM进行更深入和功能导向的GUI页面探索，而逻辑感知错误检测器将整个探索历史分成逻辑上连贯的部分，并提示MLLM进行错误检测。我们在三个数据集上评估了VisionDroid，并与10个基线进行了比较，证明了其出色的性能。消融研究进一步证明了每个模块的贡献。此外，VisionDroid在Google Play上识别出了29个新的错误，其中19个已经得到确认和修复。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决移动应用程序GUI测试中存在的非崩溃功能错误检测问题，提出了一种基于视觉驱动的自动化GUI测试方法VisionDroid，使用Multimodal Large Language Models（MLLM）来检测这些错误。
关键思路

VisionDroid将GUI文本信息与屏幕截图对齐形成视觉提示，并使用MLLM进行深层次的GUI页面探索，然后使用逻辑感知的错误检测器将整个探索历史分段成逻辑上连贯的部分，并提示MLLM进行错误检测。
其它亮点

论文在三个数据集上评估了VisionDroid，并与10个基线进行了比较，证明了其出色的性能。消融研究进一步证明了每个模块的贡献。此外，VisionDroid在Google Play上发现了29个新错误，其中19个已被确认和修复。
相关研究

最近的相关研究包括“Automated GUI Testing of Android Apps: A Systematic Literature Review”和“DeepIntent: Learning Attentions for Intent Classification in Spoken Language Understanding”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问