Scaling Data Generation in Vision-and-Language Navigation

解决问题:本篇论文旨在解决现有视觉语言导航数据集中数据稀缺的问题,提出了一种有效的数据生成范式,以生成大规模的数据,用于训练具有泛化能力的智能体。同时,论文也旨在探索如何充分利用增强数据来预训练和微调智能体,以提高其性能。

关键思路:本文的关键思路是通过使用HM3D和Gibson数据集中的1200多个逼真的环境,并利用网络上的可完全访问资源,合成490万个指令轨迹对,从而生成大规模的数据。此外,论文还研究了范式中每个组件对智能体性能的影响,并探讨了如何充分利用增强数据来预训练和微调智能体。

其他亮点:本文的另一个亮点是,利用该大规模数据集,通过简单的模仿学习,已有智能体的性能可以提高11%的绝对值,达到R2R测试集上80%的单次成功率,成为新的最佳结果。此外,论文还通过在连续环境中进行导航,促进了不同模型的发展,使其在CVDN、REVERIE和R2R上实现了新的最先进的导航结果。本文的代码已在GitHub上公开。

关于作者:本文的主要作者包括Zun Wang、Jialu Li、Yicong Hong、Yi Wang、Qi Wu、Mohit Bansal、Stephen Gould、Hao Tan和Yu Qiao。他们来自中国科学技术大学、澳大利亚国立大学、北卡罗来纳大学教堂山分校和香港中文大学等机构。其中,Mohit Bansal教授曾在自然语言处理和计算机视觉领域发表了多篇高质量论文,如“Towards VQA Models That Can Read”和“Visual Semantic Navigation Using Scene Priors”。

相关研究:近期的相关研究包括“Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”(作者:Jingwei Huang、Jianfeng Gao等,机构:微软研究院)、“Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments”(作者:Peter Anderson、Qi Wu等,机构:澳大利亚国立大学)和“Learning to Navigate in Complex Environments”(作者:Wenhan Xiong、Judy Hoffman等,机构:乔治亚理工学院)。

论文摘要:最近在语言引导的视觉导航研究中,对于可穿越环境的多样性和训练可推广代理的监督量有了显著需求。为了解决现有视觉语言导航数据集中常见的数据稀缺问题,我们提出了一种有效的范例来生成大规模的学习数据,该范例应用了来自HM3D和Gibson数据集的1200多个逼真环境,并使用网络上完全可访问的资源合成了490万个指令轨迹对。重要的是,我们研究了该范例中每个组件对代理性能的影响,并研究如何充分应用增强数据来预训练和微调代理。由于我们的大规模数据集,现有代理的性能可以通过简单的模仿学习提高(相对于之前的最佳结果增加了11个百分点),在R2R测试集上达到了80%的单次成功率,成为一个显著的新最佳结果。在看到和未看到的环境中导航的长期泛化差距也降低到不到1%(相对于之前最佳方法的8%)。此外,我们的范例还促进了不同模型在连续环境中实现新的最先进导航结果,包括CVDN,REVERIE和R2R。

内容中包含的图片若涉及版权问题,请及时与我们联系删除