Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

简介

我们介绍了PlausiVL，这是一个用于预测在现实世界中合理的行动序列的大型视频语言模型。虽然已经做出了很大的努力来预测未来的行动，但以前的方法没有考虑到行动序列中的合理性方面。为了解决这个限制，我们在这项工作中探索了大型视频语言模型的生成能力，并引入了两个目标函数，一个是基于反事实的合理行动序列学习损失，另一个是长期视角的行动重复损失，以进一步开发行动序列中的合理性理解。我们利用时间逻辑约束和动词-名词行动对逻辑约束来创建不合理/反事实的行动序列，并用它们来训练具有合理行动序列学习损失的模型。这个损失帮助模型区分合理和不合理的行动序列，并帮助模型学习对于行动预测任务至关重要的隐含时间线索。长期视角的行动重复损失对于更容易在较长时间窗口内重复的行动施加更高的惩罚。通过这种惩罚，模型能够生成多样化、合理的行动序列。我们在两个大规模数据集Ego4D和EPIC-Kitchens-100上评估了我们的方法，并展示了在行动预测任务上的改进。
图表
解决问题

本论文旨在解决先前的行动预测方法无法考虑行动序列合理性的问题。通过引入两个目标函数，即反事实合理行动序列学习损失和长期行动重复损失，探索大型视频语言模型的生成能力，并使用时间逻辑约束和动词-名词动作对逻辑约束创建不合理/反事实行动序列来训练模型。
关键思路

通过引入反事实合理行动序列学习损失和长期行动重复损失，探索大型视频语言模型的生成能力，并使用时间逻辑约束和动词-名词动作对逻辑约束创建不合理/反事实行动序列来训练模型，从而解决先前的行动预测方法无法考虑行动序列合理性的问题。
其它亮点

论文提出的方法在两个大规模数据集Ego4D和EPIC-Kitchens-100上进行了评估，并展示了在行动预测任务上的改进。实验结果表明，该方法能够生成多样化、合理的行动序列，同时还能区分合理和不合理的行动序列，并学习到关键的时间线索。
相关研究

最近在这个领域中，还有一些相关的研究，如：《Action Anticipation with Riemannian Prototypical Network》、《Anticipating Future Actions with Adversarial Networks and Physics Priors》等。

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

评论