Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

2024年07月11日
  • 简介
    对于视频创意和内容的理解往往因不同年龄、经验和性别的人在关注点和认知水平上存在差异。目前在这一领域缺乏研究,大多数现有基准测试存在以下几个缺点:1)模态和答案数量有限,长度受限;2)视频中的内容和情景过于单调,传递的寓意和情感过于简单。为了弥合与实际应用之间的差距,我们引入了一个大规模的面向广告视频的主观反应指标数据集,即SRI-ADV。具体来说,我们收集了不同人口统计学数据在观看相同视频内容时脑电图和眼动区域的实际变化。利用这个多模态数据集,我们开发了任务和协议,以分析和评估不同用户对视频内容的认知理解程度。除了数据集,我们还设计了一个超图多模态大语言模型(HMLLM)来探索不同人口统计学、视频元素、脑电图和眼动指标之间的关联。HMLLM可以跨越丰富的模态来弥合语义差距,并整合不同模态的信息进行逻辑推理。对SRI-ADV和其他额外的基于视频生成性能的基准测试进行了广泛的实验评估,证明了我们方法的有效性。代码和数据集将在\url{https://github.com/suay1113/HMLLM}上发布。
  • 图表
  • 解决问题
    本论文旨在解决视频创意和内容理解的主观性问题,通过收集不同人群在观看相同视频内容时的脑电图和眼动数据,建立大规模的SRI-ADV数据集,开发任务和协议分析和评估不同用户对视频内容的认知理解程度。
  • 关键思路
    论文的关键思路是利用收集到的多模态数据集,设计了一个基于超图的多模态大语言模型HMLLM,以探索不同人群、视频元素、脑电图和眼动指标之间的关联,并进行逻辑推理,从而实现跨模态的语义融合。
  • 其它亮点
    论文的亮点在于提出了SRI-ADV数据集,并设计了HMLLM模型,实现了跨模态的语义融合和逻辑推理。实验结果表明,该方法在SRI-ADV和其他视频生成性能基准测试中表现出较好的效果。研究人员还将代码和数据集开源。
  • 相关研究
    在该领域的相关研究包括视频内容理解、多模态数据融合、语言模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论