Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions

2024年03月11日
  • 简介
    我们介绍了一种新的文本到姿态视频编辑方法,名为ReimaginedAct。虽然现有的视频编辑任务仅限于属性、背景和风格的更改,但我们的方法旨在预测视频中开放式的人类动作变化。此外,我们的方法不仅可以接受直接的指令文本提示,还可以接受“如果”问题来预测可能的动作变化。ReimaginedAct包括视频理解、推理和编辑模块。首先,LLM最初被用于获取指令或问题的合理答案,然后用于(1)提示Grounded-SAM生成相关个体的边界框,以及(2)检索我们收集用于编辑人类动作的一组姿态视频。然后,检索到的姿态视频和检测到的个体被用于改变从原始视频中提取的姿态。我们还使用时间步长混合模块来确保编辑后的视频保留其原始内容,除非需要进行必要的修改。为了促进文本到姿态视频编辑的研究,我们介绍了一个新的评估数据集WhatifVideo-1.0。该数据集包括不同情境的视频,涵盖了一系列难度级别,以及问题和文本提示。实验结果表明,现有的视频编辑方法在人类动作编辑方面存在困难,而我们的方法可以实现有效的动作编辑,甚至可以从反事实问题中进行想象编辑。
  • 图表
  • 解决问题
    本文介绍了一种新的文本到姿势视频编辑方法ReimaginedAct,旨在预测视频中开放式人类动作变化。同时,该方法可以接受不仅是直接的指令文本提示,还可以接受“如果”问题以预测可能的动作变化。
  • 关键思路
    ReimaginedAct包括视频理解、推理和编辑模块。首先,利用LLM获取指令或问题的合理答案,然后用于(1)提示Grounded-SAM产生相关个体的边界框和(2)检索一组我们收集的用于编辑人类动作的姿势视频。然后利用检索到的姿势视频和检测到的个体来改变从原始视频中提取的姿势。此外,还采用时间步骤混合模块,以确保编辑后的视频保留其原始内容,除非需要进行必要的修改。
  • 其它亮点
    为了促进文本到姿势视频编辑的研究,本文介绍了一个新的评估数据集WhatifVideo-1.0。该数据集包括不同场景的视频,涵盖了各种难度级别,以及问题和文本提示。实验结果表明,现有的视频编辑方法难以处理人类动作编辑,而我们的方法可以实现有效的动作编辑,甚至可以从反事实问题中进行想象编辑。
  • 相关研究
    在这个领域中,最近还进行了一些相关研究。例如,Zhu等人在2020年的论文《Dance Revolution: Long-Term Forecast of Dance Generation with Music》中介绍了一种长期预测舞蹈生成的方法。另外,Gabbay等人在2020年的论文《D-SLAM: Dynamic SLAM with Semantic Segmentation》中介绍了一种利用语义分割的动态SLAM方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论