Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning

2024年04月06日
  • 简介
    链式思维技术在多模态任务中受到了良好的接受。它是一种逐步线性推理过程,通过调整链的长度来提高生成提示的性能。然而,人类的思维过程主要是非线性的,因为它们同时涵盖多个方面,并采用动态调整和更新机制。因此,我们提出了一种新颖的思维聚合图(AGoT)机制,用于多模态表示学习中的软提示调整。所提出的AGoT不仅将人类思维过程建模为链,而且将每个步骤建模为推理聚合图,以应对单步推理中忽视的多个思考方面。这将整个推理过程转化为提示聚合和提示流操作。实验表明,我们的多模态模型配合AGoT软提示可以在多个任务中实现良好的结果,如文本-图像检索、视觉问答和图像识别。此外,我们证明它具有良好的领域泛化性能,因为它具有更好的推理能力。
  • 图表
  • 解决问题
    本论文旨在提出一种新的软提示调整机制,以改进多模态表示学习中的性能。该机制模拟人类思维过程,旨在解决单步推理中忽视的多个方面的问题。
  • 关键思路
    该论文提出了一种聚合思维图(AGoT)机制,将整个推理过程转化为提示聚合和提示流操作,从而模拟人类思维过程。
  • 其它亮点
    该论文的实验结果表明,使用AGoT软提示的多模态模型在文本-图像检索、视觉问答和图像识别等多个任务中取得了良好的结果。此外,该模型还具有良好的领域泛化性能。
  • 相关研究
    最近的相关研究包括《End-to-End Learning of Semantic Role Labeling Using Recurrent Neural Networks》、《A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论