【标题】Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation

【作者团队】Xueliang Zhao, Yuxuan Wang, Chongyang Tao, Chenshuo Wang, Dongyan Zhao

【发表日期】2022.10.22

【论文链接】https://arxiv.org/pdf/2210.12460.pdf

【推荐理由】此研究基于视频的对话生成,其中基于对话上下文和相关视频生成响应。这项任务的主要挑战在于 (1) 将视频数据集成到预训练语言模型 (PLM) 中的难度,这给利用大规模预训练的力量带来了障碍;(2) 在整个推理过程中考虑各种方式的互补性的必要性。尽管在基于视频的对话生成方面取得了显着进展,但在以允许来自不同模式的信息相互补充的方式与 PLM 集成时,现有方法仍然存在不足。为了缓解这些问题,此研究首先建议从视频中提取相关信息,并将其转化为 PLM 可接受的推理路径。此外,本文提出了一种多智能体强化学习方法,以协作对不同模式(即视频和对话上下文)进行推理。在两个公共数据集上的实证实验表明,本文所提出的模型在自动和人工评估方面都大大优于最先进的模型。

内容中包含的图片若涉及版权问题,请及时与我们联系删除