SATO: Stable Text-to-Motion Framework

2024年05月02日
  • 简介
    这个文本到动作模型是否稳健?最近文本到动作模型的进展主要来自于对特定动作更准确的预测。然而,文本模态通常仅依赖于预训练的对比语言-图像预训练(CLIP)模型。我们的研究发现了文本到动作模型的一个重大问题:它的预测经常展示不一致的输出,导致在语义上相似或相同的文本输入下产生截然不同甚至错误的姿势。在本文中,我们进行了分析以阐明这种不稳定性的根本原因,建立了模型输出的不可预测性与文本编码器模块的不稳定注意力模式之间的明确联系。因此,我们引入了一个旨在解决这个问题的正式框架,称为“稳定的文本到动作框架”(SATO)。SATO由三个模块组成,分别致力于稳定的注意力、稳定的预测和保持准确性和稳健性之间的平衡。我们提出了一种构建满足注意力和预测稳定性的SATO的方法。为了验证模型的稳定性,我们引入了一个基于HumanML3D和KIT-ML的新的文本同义词扰动数据集。结果表明,SATO在对同义词和其他轻微扰动的稳定性方面显著优于其他模型,同时保持其高准确性性能。
  • 图表
  • 解决问题
    本文旨在解决文本到动作模型不稳定的问题,即当输入相似或相同的文本时,模型的输出结果可能会出现巨大差异或错误的姿势。该问题是一个新问题。
  • 关键思路
    本文提出了一个稳定的文本到动作框架(SATO),包括三个模块:稳定的注意力、稳定的预测和平衡准确性和鲁棒性的模块。作者提出了一种构建SATO的方法,以满足注意力和预测的稳定性。该方法在HumanML3D和KIT-ML数据集上进行了验证,结果表明SATO对于同义词和其他轻微扰动更加稳定,同时保持高准确性表现。
  • 其它亮点
    本文的亮点包括:1. 提出了一个新的文本到动作模型稳定性问题;2. 提出了一个新的框架SATO,以解决稳定性问题;3. 实验结果表明SATO对于同义词和其他轻微扰动更加稳定,同时保持高准确性表现。
  • 相关研究
    最近的相关研究包括:1. Contrastive Learning for Image-to-Text and Text-to-Image Transfer (CLIP);2. Learning Representations for Text-to-3D Scene Generation;3. Text2Scene: Generating 3D Scenes from Descriptions for a Robot Scene Graph.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问