- 简介随着大语言模型(LLMs)的最新进展,越来越多的人对将LLMs与多模态学习相结合感兴趣。以前的多模态大语言模型(MLLMs)的调查主要关注多模态理解。本次调查详细阐述了跨各种领域的多模态生成和编辑,包括图像、视频、3D和音频。具体而言,我们总结了这些领域的里程碑式作品中的显著进展,并将这些研究分为基于LLM和基于CLIP/T5的方法。然后,我们总结了LLMs在多模态生成中的各种角色,并详尽地调查了这些方法背后的关键技术组成部分和这些研究中使用的多模态数据集。此外,我们深入研究了工具增强的多模态代理,可以利用现有的生成模型进行人机交互。最后,我们讨论了生成AI安全领域的进展,调查了新兴应用,并讨论了未来前景。我们的工作提供了多模态生成和处理的系统性和深入的概述,预计将推动生成内容的人工智能(AIGC)和世界模型的发展。所有相关论文的策划列表可在https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。
- 图表
- 解决问题本文旨在综述多模态生成和编辑在图像、视频、3D和音频等领域中的最新进展,特别是介绍了基于LLMs和CLIP/T5的方法,并探讨了LLMs在多模态生成中的各种角色。
- 关键思路本文系统地总结了多模态生成和处理的相关技术组成部分和数据集,并研究了利用现有生成模型进行人机交互的工具增强型多模态代理。此外,本文还讨论了生成AI安全领域的进展、新兴应用和未来前景。
- 其它亮点本文总结了多模态生成和编辑在不同领域中的最新进展,包括图像、视频、3D和音频。介绍了基于LLMs和CLIP/T5的方法,并探讨了LLMs在多模态生成中的各种角色。本文详细阐述了技术组成部分和数据集,并探讨了工具增强型多模态代理的应用。此外,本文还讨论了生成AI安全领域的进展、新兴应用和未来前景。
- 在这个领域中,最近的相关研究包括:1.《Multimodal Generative Models for Scalable Weakly-Supervised Learning》;2.《Generative Modeling with Sparse Transformers》;3.《Generative Adversarial Networks for Extreme Learned Image Compression》等。
沙发等你来抢
去评论
评论
沙发等你来抢