Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

简介

将来自不同来源或模态的信息进行整合和处理对于自主系统和物理网络系统获得全面和准确的真实世界感知至关重要。我们从神经科学中汲取灵感，开发了信息瓶颈分层感知（ITHP）模型，该模型利用了信息瓶颈的概念。与大多数传统的融合模型不同，这些模型在神经网络中等同地整合了所有模态，我们的模型指定了一个主模态，并将其余模态视为信息路径中的探测器，用于提炼信息流。我们提出的感知模型侧重于通过实现潜在状态和输入模态状态之间的互信息最小化以及潜在状态和剩余模态之间的互信息最大化之间的平衡，构建有效且紧凑的信息流。这种方法会导致紧凑的潜在状态表示，保留相关信息同时最小化冗余，从而显著提高多模态表示学习的性能。在MUStARD、CMU-MOSI和CMU-MOSEI数据集上的实验评估表明，我们的模型在多模态学习场景中始终提炼关键信息，优于最先进的基准。值得注意的是，在CMU-MOSI数据集上，ITHP在所有评估指标（即二元情感分类准确率、F1分数、平均绝对误差和Pearson相关性）上都超过了人类水平的性能。
图表
解决问题

论文旨在解决多模态学习中信息融合的问题，提出了一种基于信息瓶颈的层次感知模型。
关键思路

论文提出的信息瓶颈层次感知模型通过最小化潜在状态与输入模态状态之间的互信息，同时最大化潜在状态与其余模态状态之间的互信息，实现了紧凑的潜在状态表示，从而显著提高了多模态表示学习的性能。
其它亮点

论文在MUStARD、CMU-MOSI和CMU-MOSEI数据集上进行了实验，表明该模型在多模态学习场景下能够提取关键信息，优于现有的基准模型。在CMU-MOSI数据集上，ITHP在所有评估指标（二元准确性、F1得分、平均绝对误差和皮尔逊相关性）上均超过了人类水平。
相关研究

目前有一些相关研究，如多模态学习中的神经网络模型和信息融合方法等。

Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning

评论