- 简介近年来,对于视觉语言导航(VLN)的研究兴趣显著增长。VLN是一项具有挑战性的任务,它涉及到一个代理根据人类指令在一个未知环境中导航,以达到指定的目标。文献中的最新研究侧重于不同的方法来增加可用的指令数据集,以利用合成训练数据来提高导航性能。在这项工作中,我们提出了AIGeN,这是一种受生成对抗网络(GAN)启发的新型架构,它产生有意义且形式良好的合成指令,以提高导航代理的性能。该模型由Transformer解码器(GPT-2)和Transformer编码器(BERT)组成。在训练阶段,解码器为描述代理路径到特定点的一系列图像生成句子,而编码器则区分真实和虚假的指令。在实验中,我们评估了生成指令的质量并进行了广泛的削减研究。此外,我们在Habitat-Matterport 3D数据集(HM3D)上使用AIGeN为217K条轨迹生成合成指令,并展示了一个现成的VLN方法性能的提高。我们的提案的验证分析是在REVERIE和R2R上进行的,并突出了我们提案的有希望的方面,实现了最先进的性能。
- 图表
- 解决问题论文旨在通过生成合理的合成指令来提高视觉语言导航(VLN)代理的性能。作者试图解决VNL代理在执行任务时遇到的挑战,如如何在先前未知的环境中遵循人类指令到达指定目的地。
- 关键思路该论文提出了一种基于生成对抗网络(GANs)的新型架构AIGeN,由Transformer解码器(GPT-2)和Transformer编码器(BERT)组成。在训练阶段,解码器为一系列描述代理路径的图像生成句子,而编码器则区分真实和虚假指令。
- 其它亮点论文使用AIGeN在Habitat-Matterport 3D数据集上生成217K条合成指令,并展示了对现有VNL方法性能的改进。实验设计充分,包括大量剖析研究。此外,该论文对REVERIE和R2R进行了验证分析,并取得了最先进的性能。论文的亮点还包括使用了生成对抗网络技术来生成指令,该技术在VNL领域中尚未广泛应用。
- 最近在VNL领域中的相关研究包括:1. Speaker-Follower Models for Vision-and-Language Navigation: A Review;2. Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout;3. Learning to Navigate the Web。
沙发等你来抢
去评论
评论
沙发等你来抢