- 简介本文介绍了一种基于因果推断范式的先驱性解决方案——广义跨模态因果变换器(GOAT),旨在解决数据集偏差这一普遍挑战对视觉语言导航(VLN)代理的影响问题,从而实现强健且具有普适性的环境感知和语言理解。通过深入研究视觉、语言和历史中的可观测和不可观测混淆因素,我们提出了背门和前门调整因果学习(BACL 和 FACL)模块,以全面减轻潜在的虚假相关性,从而促进无偏学习。此外,为了捕捉全局混淆特征,我们提出了一个受对比学习监督的跨模态特征池化(CFP)模块,也被证明在预训练期间提高跨模态表示的有效性。在多个 VLN 数据集(R2R、REVERIE、RxR 和 SOON)上进行的广泛实验表明,我们提出的方法优于以前的最先进方法。代码可在 https://github.com/CrystalSixone/VLN-GOAT 上获得。
- 图表
- 解决问题本文旨在解决视觉语言导航(VLN)代理在未知环境中表现欠佳的问题,提出了一种基于因果推断的解决方案。
- 关键思路本文提出了一种通用交叉模态因果变换器(GOAT),通过处理视觉、语言和历史中的可观察和不可观察的混淆因素,提出了背门和前门调整因果学习(BACL和FACL)模块,以全面减少潜在的虚假相关性,从而促进无偏学习。此外,为了捕捉全局混淆特征,提出了一个由对比学习监督的交叉模态特征池(CFP)模块,在预训练期间也被证明有效地改进了跨模态表示。
- 其它亮点本文在多个VLN数据集(R2R、REVERIE、RxR和SOON)上进行了广泛的实验,证明了所提出方法的优越性。代码已开源。
- 在这个领域中,最近的相关研究包括:1. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments; 2. Embodied AI: Challenges and Opportunities of AI in the Real World。
沙发等你来抢
去评论
评论
沙发等你来抢