- 简介对于视频创意和内容的理解,因个体差异而异,不同的年龄、经验和性别会导致不同的关注点和认知水平。目前该领域缺乏研究,大多数现有基准都存在一些缺点:1)模态和答案数量有限,长度受限;2)视频中的内容和情境过于单调,传达的寓意和情感过于简单。为了弥补与实际应用的差距,我们引入了一个大规模的面向广告视频的主观响应指标数据集,即SRI-ADV。具体来说,我们收集了不同人群在观看相同视频内容时脑电图(EEG)和眼动追踪区域的实际变化。利用这个多模态数据集,我们开发了任务和协议,以分析和评估不同用户对视频内容的认知理解程度。除了数据集,我们还设计了一个超图多模态大语言模型(HMLLM),来探索不同人口统计学、视频元素、EEG和眼动追踪指标之间的关联。HMLLM可以跨越丰富模态之间的语义差距,整合不同模态的信息进行逻辑推理。在SRI-ADV和其他额外的基于视频的生成性能基准的广泛实验评估中,我们的方法表现出了有效性。代码和数据集将在https://github.com/suay1113/HMLLM上发布。
-
- 图表
- 解决问题论文旨在解决视频创意和内容的主观认知差异问题,提出了一种基于多模态数据的主观反应指标数据集SRI-ADV和超图多模态大语言模型HMLLM,以分析和评估不同用户对视频内容的认知理解程度。
- 关键思路使用收集的多模态数据集,通过HMLLM进行逻辑推理和语义关联,以探索不同人口统计学特征、视频元素、EEG和眼动指标之间的关联,从而提高视频内容的认知理解程度。
- 其它亮点论文收集了真实的多模态数据集SRI-ADV,设计了HMLLM进行多模态数据的逻辑推理和语义关联,证明了方法的有效性。论文还开源了代码和数据集,可以用于进一步研究。
- 在这个领域中,最近的相关研究包括:1)使用EEG和眼动跟踪来预测观看视频时的认知负荷;2)使用深度学习方法来预测视频的情感价值。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流