LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation

2024年04月12日
  • 简介
    这篇论文介绍了LlamaTouch,它是一个用于在设备上执行代理程序并进行准确、可扩展代理评估的测试平台。当前现有的评估方法依赖于人工验证或已建立的数据集,以比较代理预测的操作和预定义的操作,这种方法不可扩展且不可靠。为了克服这些限制,LlamaTouch采用了一种新颖的评估方法,仅评估代理程序是否遍历了所有手动注释的关键应用程序/系统状态。LlamaTouch包括三个关键技术:(1)在设备上执行任务,使移动代理能够与真实的移动环境交互以完成任务。 (2)细粒度的UI组件注释,将像素级截图和文本屏幕层次结构合并,使用丰富的注释基元明确标识和精确注释必要的UI组件。 (3)多级状态匹配算法,利用精确匹配和模糊匹配来准确检测每个屏幕中的关键信息,以应对UI布局/内容动态的不可预测性。LlamaTouch目前包括四个移动代理和495个UI自动化任务,涵盖了广泛使用的数据集中的任务和我们自己构建的任务,以适用于更多样化的移动应用程序。评估结果表明,在真实环境中,LlamaTouch的评估具有高度的可信度和比人工验证更好的可扩展性。LlamaTouch还支持轻松的任务注释和新移动代理的集成。代码和数据集公开在https://github.com/LlamaTouch/LlamaTouch。
  • 图表
  • 解决问题
    本论文旨在解决移动UI自动化任务中现有评估方法不可扩展和不可靠的问题,提出了一种基于设备的代理执行和可信、可扩展的代理评估测试平台LlamaTouch。
  • 关键思路
    LlamaTouch利用任务执行过程中只传输UI状态的特点,采用一种新颖的评估方法,仅评估代理是否遍历了所有手动注释的关键应用/系统状态。LlamaTouch包括三个关键技术:设备上的任务执行、细粒度的UI组件注释和多级状态匹配算法。
  • 其它亮点
    LlamaTouch是一个可信、可扩展的代理评估测试平台,具有比人工验证更好的可扩展性。它还可以方便地进行任务注释和新移动代理的集成。实验中使用了四个移动代理和495个UI自动化任务,包括常用数据集中的任务和自行构建的任务,代码和数据集公开可用。
  • 相关研究
    最近的相关研究包括基于深度学习的移动UI自动化、基于规则的方法和基于模型的方法。其中一些研究包括“DeepTest: Automated Testing of Deep-Neural-Network-driven Autonomous Cars”和“GUI Testing using Computer Vision”等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论