DALL-E、「女娲」刷屏背后，多模态图像合成与编辑领域进展如何？

今年多模态图像合成与编辑方向大火，前有 DALL-E、GauGAN2，后有统一的多模态预训练模型「女娲」。来自新加坡南洋理工大学的研究者对这一领域内的进展和趋势做了系统的调查梳理。

现实世界中的信息存在于各种模态之中，多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用。凭借在多模态信息交互建模方面的强大能力，多模态图像合成和编辑已成为近年来的热门研究课题。

与提供显式线索的传统视觉指导不同，多模态指导为图像合成和编辑提供了直观、灵活的手段。另一方面，该领域在特征与固有模态差距的对齐、高分辨率图像合成、公平评估指标等方面也面临着挑战。

基于此，来自新加坡南洋理工大学的研究者做了一项调查，全面地将近来多模态图像合成和编辑的进展背景化，根据数据模态和模型架构制定分类法，并撰写了一篇综述论文。

内容中包含的图片若涉及版权问题，请及时与我们联系删除