- 简介本文探讨了从包含文本和图片等多模态元素的长文档中生成演示文稿的重要任务。如果手动完成,这将耗费大量时间并需要领域专业知识。现有的生成演示文稿的方法通常是半自动的,或者只是将扁平的摘要放入幻灯片中,忽略了好的叙述的重要性。本文通过提出一种使用LLM和VLM组合的多阶段端到端模型来解决这一研究空白。我们实验表明,与直接使用最先进的提示进行LLM应用相比,我们提出的多阶段解决方案在自动化指标和人类评估方面更好。
-
- 图表
- 解决问题本论文旨在解决从长文档中生成包含文本和图像等多模式元素的演示文稿的问题,该问题如果手动完成需要耗费时间和领域专业知识。现有的方法通常是半自动的,或者只将扁平化的摘要放入幻灯片中,忽略了良好叙事的重要性。
- 关键思路本文提出了一个多阶段的端到端模型,结合了LLM和VLM,以解决从文档中生成丰富演示文稿的问题。实验结果表明,与直接应用LLM并采用最先进的提示相比,我们提出的多阶段解决方案在自动评估指标和人类评估方面更好。
- 其它亮点本文提出的多阶段端到端模型在实验中表现出色,相比于现有方法有更好的表现。本文使用了自动评估指标和人类评估来评估模型的性能,同时使用了多个数据集进行实验。本文的方法可以应用于多模式元素的演示文稿生成,并且有望在此领域中产生更多的研究。
- 最近的相关研究包括:《A Review of Natural Language Generation Techniques and Applications》、《Neural Text Generation: A Practical Guide》、《A Survey of Data Augmentation Approaches for NLP》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流