SATO: Stable Text-to-Motion Framework

简介

这个文本到动作模型是否稳健？最近文本到动作模型的进展主要来自于更准确地预测特定动作。然而，文本模态通常仅依赖于预训练的对比语言-图像预训练（CLIP）模型。我们的研究发现了文本到动作模型的一个重大问题：当出现语义相似或相同的文本输入时，它的预测往往表现出不一致的输出，导致姿势大不相同甚至是错误的。在本文中，我们进行了分析，阐明了这种不稳定性的根本原因，建立了模型输出的不可预测性与文本编码器模块的不规则注意模式之间的明确联系。因此，我们引入了一个旨在解决这个问题的正式框架，称之为稳定文本到动作框架（SATO）。SATO由三个模块组成，分别专门用于稳定的注意力、稳定的预测和保持精度和稳健性之间的平衡。我们提出了一种构建满足注意力和预测稳定性的SATO的方法。为了验证模型的稳定性，我们引入了一个基于HumanML3D和KIT-ML的新的文本同义词扰动数据集。结果表明，SATO在保持高精度性能的同时，对同义词和其他轻微扰动的稳定性显著提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决文本到动作模型不稳定的问题，即当输入类似或相同的文本时，模型的预测结果会出现不一致的情况。
关键思路

论文提出了一个稳定的文本到动作框架（SATO），包括三个模块：稳定的注意力、稳定的预测和平衡精度和稳健性之间的权衡。通过构建SATO，可以解决文本同义词扰动等问题。
其它亮点

论文设计了一个新的文本同义词扰动数据集，并使用HumanML3D和KIT-ML数据集进行了实验验证。实验结果表明，SATO相比其他模型在同义词扰动下更加稳定并保持高准确率。论文同时也开源了代码。
相关研究

在该领域的相关研究包括：1. Contrastive Multimodal Learning using Weak Alignments (CMU, 2021); 2. Text2Motion: Generative Modeling for Motion Synthesis from Natural Language (CVPR, 2020); 3. Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout (CVPR, 2021).

SATO: Stable Text-to-Motion Framework

提问交流

提问交流