Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control

简介

具身化的人工智能代理需要对通过视觉和语言输入介导的物理世界有细致入微的理解。这些能力很难仅通过任务特定数据学习。这导致预训练的视觉语言模型成为将从互联网规模数据中学习到的表示转移到下游任务和新领域的工具。然而，像CLIP中常用的对比训练表示已被证明无法使具身化代理获得足够精细的场景理解——这是控制所必需的能力。为了解决这个缺点，我们考虑来自预训练的文本到图像扩散模型的表示，这些模型明确地优化了从文本提示生成图像，并因此包含反映高度精细的视觉空间信息的文本条件表示。使用预训练的文本到图像扩散模型，我们构建了稳定的控制表示，允许学习下游控制策略，这些策略可以推广到复杂的、开放式的环境中。我们展示了使用稳定的控制表示学习的策略在广泛的模拟控制设置中与最先进的表示学习方法竞争，并包括具有挑战性的操作和导航任务。最值得注意的是，我们展示了稳定的控制表示使学习的策略在OVMM上表现出最先进的性能，这是一个困难的开放式词汇导航基准测试。
图表
解决问题

论文旨在解决视觉语言表示学习在具体场景下的不足，即无法为机器人等实体提供足够细粒度的场景理解，从而影响控制策略的学习。
关键思路

论文提出使用预训练的文本到图像扩散模型的表示学习，构建稳定控制表示，从而实现对复杂、开放式环境下的控制策略的学习。
其它亮点

论文使用预训练的文本到图像扩散模型的表示学习，构建稳定控制表示，从而实现对复杂、开放式环境下的控制策略的学习。实验结果表明，使用稳定控制表示的策略在多个模拟控制任务中表现优异，甚至在OVMM导航基准测试中取得了最先进的性能。论文提出的方法具有很大的应用前景，值得进一步研究。
相关研究

在近期的相关研究中，也有一些关于视觉语言表示学习的工作，如CLIP等。

Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control

评论