Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning

简介

链式思维技术在多模态任务中受到了良好的接受。它是一种逐步线性推理过程，通过调整链的长度来提高生成提示的性能。然而，人类的思维过程主要是非线性的，因为它们同时涵盖多个方面，并采用动态调整和更新机制。因此，我们提出了一种新颖的思维聚合图（AGoT）机制，用于多模态表示学习中的软提示调整。所提出的AGoT不仅将人类思维过程建模为链，而且将每个步骤建模为推理聚合图，以应对单步推理中忽视的多个思考方面。这将整个推理过程转化为提示聚合和提示流操作。实验表明，我们的多模态模型配合AGoT软提示可以在多个任务中实现良好的结果，如文本-图像检索、视觉问答和图像识别。此外，我们证明它具有良好的领域泛化性能，因为它具有更好的推理能力。
图表
解决问题

本论文旨在提出一种新的软提示调整机制，以改进多模态表示学习中的性能。该机制模拟人类思维过程，旨在解决单步推理中忽视的多个方面的问题。
关键思路

该论文提出了一种聚合思维图（AGoT）机制，将整个推理过程转化为提示聚合和提示流操作，从而模拟人类思维过程。
其它亮点

该论文的实验结果表明，使用AGoT软提示的多模态模型在文本-图像检索、视觉问答和图像识别等多个任务中取得了良好的结果。此外，该模型还具有良好的领域泛化性能。
相关研究

最近的相关研究包括《End-to-End Learning of Semantic Role Labeling Using Recurrent Neural Networks》、《A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks》等。

Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning

评论