- 简介链式思维技术在多模态任务中受到了良好的接受。它是一种逐步线性推理过程,通过调整链的长度来提高生成提示的性能。然而,人类的思维过程主要是非线性的,因为它们同时涵盖多个方面,并采用动态调整和更新机制。因此,我们提出了一种新颖的思维聚合图(AGoT)机制,用于多模态表示学习中的软提示调整。所提出的AGoT不仅将人类思维过程建模为链,而且将每个步骤建模为推理聚合图,以应对单步推理中忽视的多个思考方面。这将整个推理过程转化为提示聚合和提示流操作。实验表明,我们的多模态模型配合AGoT软提示可以在多个任务中实现良好的结果,如文本-图像检索、视觉问答和图像识别。此外,我们证明它具有良好的领域泛化性能,因为它具有更好的推理能力。
- 图表
- 解决问题本论文旨在提出一种新的软提示调整机制,以改进多模态表示学习中的性能。该机制模拟人类思维过程,旨在解决单步推理中忽视的多个方面的问题。
- 关键思路该论文提出了一种聚合思维图(AGoT)机制,将整个推理过程转化为提示聚合和提示流操作,从而模拟人类思维过程。
- 其它亮点该论文的实验结果表明,使用AGoT软提示的多模态模型在文本-图像检索、视觉问答和图像识别等多个任务中取得了良好的结果。此外,该模型还具有良好的领域泛化性能。
- 最近的相关研究包括《End-to-End Learning of Semantic Role Labeling Using Recurrent Neural Networks》、《A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢