Aligning Actions and Walking to LLM-Generated Textual Descriptions

简介

这项工作探索了使用大型语言模型（LLMs）生成包括动作和步态模式在内的运动序列的丰富文本描述。我们利用LLMs的表现力，将运动表示与高级语言提示对齐，解决了两个不同的任务：动作识别和基于外观属性检索步态序列。对于动作识别，我们利用LLMs生成BABEL-60数据集中动作的文本描述，促进了运动序列与语言表示的对齐。在步态分析领域，我们通过使用LLMs从DenseGait数据集中生成运动序列的文本描述来研究外观属性对步态模式的影响。这些描述捕捉了服装选择和鞋履等因素影响下步态风格的微妙变化。我们的方法展示了LLMs在增强结构化运动属性和对齐多模态表示方面的潜力。这些发现有助于推进全面的运动理解，并为利用LLMs进行多模态对齐和运动分析的数据增强开辟了新途径。我们将代码公开发布在https://github.com/Radu1999/WalkAndText。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在探讨如何利用大型语言模型（LLMs）生成丰富的文本描述，以实现动作识别和步态分析中的多模态对齐和数据增强。
关键思路

本文使用LLMs生成动作和步态的文本描述，以便更好地对齐运动表示和语言表示，并探究外观属性对步态的影响。
其它亮点

该论文的亮点在于使用LLMs生成文本描述，实现多模态对齐和数据增强；针对动作识别和步态分析两个任务进行研究；使用了BABEL-60和DenseGait数据集进行实验；代码已公开发布。
相关研究

在步态分析和动作识别领域，已有许多相关研究。例如，'Learning to Walk via Deep Reinforcement Learning'和'Action Recognition and Localization in Videos'等。

Aligning Actions and Walking to LLM-Generated Textual Descriptions

提问交流

提问交流