- 简介最近检索增强生成(RAG)在问答(QA)任务中展示了令人印象深刻的性能。然而,大多数先前的研究主要集中在基于文本的答案上。虽然一些研究涉及多模态数据,但它们在生成全面的多模态答案方面仍存在不足,特别是在解释概念或提供逐步完成特定目标的教程方面。这种能力对于企业聊天机器人和客户服务和教育系统等应用程序尤其有价值,这些应用程序的答案来自多模态数据。在本文中,我们介绍了一个名为MuRAR(多模态检索和答案细化)的简单而有效的框架。MuRAR通过检索相关的多模态数据和细化响应来增强基于文本的答案,从而创建连贯的多模态答案。该框架可以很容易地扩展以支持企业聊天机器人中的多模态答案,只需进行最少的修改即可。人类评估结果表明,MuRAR生成的多模态答案比纯文本答案更有用和可读。
- 图表
- 解决问题MuRAR试图解决生成全面的多模态答案的问题,特别是在解释概念或提供逐步教程方面。这是一个新问题。
- 关键思路MuRAR通过检索相关的多模态数据和细化响应来增强基于文本的答案,从而生成连贯的多模态答案。
- 其它亮点MuRAR框架可以轻松扩展以支持企业聊天机器人中的多模态答案,并且人类评估结果表明,MuRAR生成的多模态答案比纯文本答案更有用和可读。
- 最近的相关研究包括:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Dhingra等人,2021),Multimodal Transformer for Unaligned Multimodal Language Sequences(Wang等人,2021),A Generalized Framework for Multimodal Answer Generation with Pretrained Language Models(Zhu等人,2021)等。
沙发等你来抢
去评论
评论
沙发等你来抢