Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

向作者提问

NEW

简介

对于视频创意和内容的理解，因个体差异而异，不同的年龄、经验和性别会导致不同的关注点和认知水平。目前该领域缺乏研究，大多数现有基准都存在一些缺点：1）模态和答案数量有限，长度受限；2）视频中的内容和情境过于单调，传达的寓意和情感过于简单。为了弥补与实际应用的差距，我们引入了一个大规模的面向广告视频的主观响应指标数据集，即SRI-ADV。具体来说，我们收集了不同人群在观看相同视频内容时脑电图（EEG）和眼动追踪区域的实际变化。利用这个多模态数据集，我们开发了任务和协议，以分析和评估不同用户对视频内容的认知理解程度。除了数据集，我们还设计了一个超图多模态大语言模型（HMLLM），来探索不同人口统计学、视频元素、EEG和眼动追踪指标之间的关联。HMLLM可以跨越丰富模态之间的语义差距，整合不同模态的信息进行逻辑推理。在SRI-ADV和其他额外的基于视频的生成性能基准的广泛实验评估中，我们的方法表现出了有效性。代码和数据集将在https://github.com/suay1113/HMLLM上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频创意和内容的主观认知差异问题，提出了一种基于多模态数据的主观反应指标数据集SRI-ADV和超图多模态大语言模型HMLLM，以分析和评估不同用户对视频内容的认知理解程度。
关键思路

使用收集的多模态数据集，通过HMLLM进行逻辑推理和语义关联，以探索不同人口统计学特征、视频元素、EEG和眼动指标之间的关联，从而提高视频内容的认知理解程度。
其它亮点

论文收集了真实的多模态数据集SRI-ADV，设计了HMLLM进行多模态数据的逻辑推理和语义关联，证明了方法的有效性。论文还开源了代码和数据集，可以用于进一步研究。
相关研究

在这个领域中，最近的相关研究包括：1）使用EEG和眼动跟踪来预测观看视频时的认知负荷；2）使用深度学习方法来预测视频的情感价值。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问