ST-LLM: Large Language Models Are Effective Temporal Learners

简介

大型语言模型（LLM）展示了在文本理解和生成方面的令人印象深刻的能力，促使研究人员致力于开发视频LLM，以便在视频级别上促进人工智能与人类的交互。然而，如何在基于视频的对话系统中有效地编码和理解视频仍然是一个待解决的问题。在本文中，我们探讨了一个直接而未被探索的问题：我们是否可以将所有时空标记输入LLM，从而将视频序列建模的任务委托给LLM？令人惊讶的是，这种简单的方法在视频理解方面取得了显著的改进。基于此，我们提出了ST-LLM，一种具有空间-时间序列建模的有效视频LLM基线。此外，为了解决LLM内未压缩视频标记引入的开销和稳定性问题，我们开发了一种动态掩模策略和量身定制的训练目标。对于特别长的视频，我们还设计了一个全局-局部输入模块，以平衡效率和效果。因此，我们利用LLM进行熟练的时空建模，同时保持效率和稳定性。广泛的实验结果证明了我们方法的有效性。通过更简洁的模型和训练流程，ST-LLM在VideoChatGPT-Bench和MVBench上建立了新的最先进结果。代码已经在https://github.com/TencentARC/ST-LLM上提供。
图表
解决问题

论文旨在解决视频对话系统中的视频序列建模问题，提出了一种基于LLM的ST-LLM方法。
关键思路

论文提出将所有的时空标记都输入到LLM中，利用LLM进行视频序列建模，提出了ST-LLM方法，并通过动态掩码策略和全局-局部输入模块解决了未压缩视频标记带来的稳定性和效率问题。
其它亮点

论文的实验结果表明，ST-LLM方法在VideoChatGPT-Bench和MVBench数据集上取得了新的最优结果。论文提出的动态掩码策略和全局-局部输入模块也是值得关注的亮点。论文提供了开源代码。
相关研究

最近的相关研究包括VideoBERT、ViLBERT和VidBERT等。

ST-LLM: Large Language Models Are Effective Temporal Learners

评论