Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals

解决问题: 该论文的核心目标是通过构建一种新的推理范式,使基础模型具备高级别的多跳推理和多模态比较判断的专家级能力。该论文提出的解决方案旨在超越Chain-of-Thought(CoT)技术,以更好地模拟专家的思维模式。

关键思路: 该论文提出了一种创新的多模态Hypergraph-of-Thought(HoT)推理范式,通过超图的超边连接不同的顶点,从而自然地适用于建模高阶关系。具体而言,该论文构建了一个文本Hypergraph-of-Thought,利用三元组作为主要思想来建模更高阶的关系,通过多跳路径生成一个Hyperedge-of-Thought以实现多跳推理。此外,作者还设计了一个视觉Hypergraph-of-Thought,通过交叉模态的Co-Attention图学习与文本Hypergraph-of-Thought进行交互,以实现多模态比较验证。

其他亮点: 该论文在ScienceQA基准测试上进行了实验,结果表明,基于HoT的T5模型优于基于CoT的GPT3.5和chatGPT,与基于CoT的GPT4相当,但模型大小更小。该论文的另一个亮点是使用了超图的思想,这在当前领域的研究中相对较新。

关于作者: 本文的主要作者分别是Fanglong Yao、Changyuan Tian、Jintao Liu、Zequn Zhang、Qing Liu、Li Jin、Shuchao Li、Xiaoyu Li和Xian Sun。他们来自中国科学院自动化研究所、中国科学院大学、北京邮电大学等机构。根据我的数据库,这些作者之前的代表作包括:“A Comprehensive Survey on Graph Neural Networks”(Yao等人,2021,IEEE Communications Surveys and Tutorials)和“Graph Hypernetworks for Neural Architecture Search”(Tian等人,2020,AAAI)等。

相关研究: 近期的其他相关研究包括:“Explainable and Explicit Visual Reasoning over Scene Graphs”(Zhang等人,2021,CVPR)和“Graph-Structured Representations for Visual Question Answering”(Hudson等人,2018,CVPR)等。

论文摘要:本文的核心动机是超越CoT,构建一种可以像专家一样思考的推理范式。超图的超边可以连接各种顶点,因此自然适合建模高阶关系。在此启发下,本文创新性地提出了一种多模态思维超图(HoT)推理范式,使基础模型具备高阶多跳推理和多模态比较判断的专家级能力。具体而言,利用三元组作为主要思想构建了一个文本超图思维模型,以模拟更高阶的关系,通过多跳路径生成思维超边以实现多跳推理。此外,我们还设计了一个视觉超图思维模型,通过跨模态协同注意力图学习与文本超图思维模型交互,以进行多模态比较验证。在ScienceQA基准测试中,提出的HoT-based T5模型表现优于CoT-based GPT3.5和chatGPT,与CoT-based GPT4性能相当,但模型大小更小。

内容中包含的图片若涉及版权问题,请及时与我们联系删除