- 简介目前,移动图形用户界面(GUI)的整合已经普及到大多数人的日常生活中。而诸如GPT-4v、Qwen-VL-Max等多模态大规模模型的不断演进,显著提升了GUI理解和用户行为分析的能力,展示了智能GUI助手的潜力。然而,当前的GUI代理通常需要通过调用系统API来访问页面布局信息,这可能会带来隐私风险。将GUI(例如移动界面)固定到某个低分辨率可能会导致丢失细节。同时,当前为GUI代理构建的多模态大模型对中文GUI界面的理解和决策能力较差,使它们难以应用于大量中文应用程序。本文介绍了MobileFlow,这是一个为移动GUI代理精心打造的多模态大语言模型。MobileFlow从开源模型Qwen-VL-Chat转换到GUI领域,包含约210亿个参数,并配备了新颖的混合视觉编码器,使其能够处理可变分辨率的图像输入并支持多语言GUI。通过融合专家混合(MoE)扩展和开创性的对齐训练策略,MobileFlow具有完全解释图像数据和理解GUI交互任务的用户指令的能力。最后,MobileFlow在公共和我们提出的评估指标上,都优于Qwen-VL-Max和GPT-4v,对于GUI代理的任务执行表现更好,并已成功部署在实际业务环境中,证明了其在实际应用中的有效性。
- 图表
- 解决问题MobileFlow试图解决移动GUI智能助手面临的隐私泄露和图像细节丢失问题,以及当前多模态大型模型在中文GUI界面上理解和决策能力较差的问题。
- 关键思路MobileFlow是一个针对移动GUI代理的多模态大语言模型,具有21亿个参数和新型混合视觉编码器,可以支持可变分辨率的图像输入和多语言GUI。通过融合专家混合(MoE)扩展和先进的对齐训练策略,MobileFlow具有完全解释图像数据和理解GUI交互任务的能力。
- 其它亮点MobileFlow在公共和作者提出的评估指标上都胜过了Qwen-VL-Max和GPT-4v,并已成功部署在实际业务环境中,证明了它在实际应用中的有效性。论文使用了哪些数据集和开源代码并未提及。
- 最近的相关研究未被提及。
沙发等你来抢
去评论
评论
沙发等你来抢