Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

简介

将来自各种来源或模式的信息进行整合和处理对于自主系统和物理网络系统获得全面准确的对真实世界的感知至关重要。我们从神经科学中汲取灵感，开发了信息论分层感知（ITHP）模型，该模型利用了信息瓶颈的概念。与大多数传统的融合模型不同，这些模型在神经网络中以相同的方式整合所有模态，我们的模型指定一个主要模态，并将其余模态视为信息路径中的探测器，用于精炼信息流。我们提出的感知模型侧重于通过在潜在状态和输入模态状态之间最小化互信息，同时最大化潜在状态和其余模态之间的互信息，从而构建有效且紧凑的信息流。这种方法可以产生紧凑的潜在状态表示，同时保留相关信息并最小化冗余，从而显著提高多模态表示学习的性能。对MUStARD、CMU-MOSI和CMU-MOSEI数据集的实验评估表明，我们的模型在多模态学习场景中始终提炼关键信息，优于现有技术水平。值得注意的是，在CMU-MOSI数据集上，ITHP在所有评估指标（即二元准确率、F1分数、平均绝对误差和皮尔逊相关）上都超过了人类水平，在多模态情感二元分类任务中表现出色。
图表
解决问题

本文旨在解决自主系统和物理系统中多模态信息融合的问题，提出了一种基于信息瓶颈理论的信息分层感知模型。
关键思路

该模型通过区分主要模态和次要模态，实现了信息流的精简和提取，通过最小化潜在状态和输入模态状态之间的互信息，同时最大化潜在状态和其余模态状态之间的互信息，实现了紧凑的潜在状态表示，从而大大提高了多模态表示学习的性能。
其它亮点

该模型在MUStARD、CMU-MOSI和CMU-MOSEI数据集上进行了实验评估，结果表明在多模态学习场景下，该模型始终能够提取关键信息，优于现有技术水平。在CMU-MOSI数据集上，ITHP在所有评估指标（二元准确性、F1分数、平均绝对误差和Pearson相关性）上均超过了人类水平。
相关研究

与本文相关的其他研究包括传统的多模态融合模型和基于深度学习的多模态融合模型，如MFM、MCTN、MLMF等。

Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

评论