DeepSeek-VL: Towards Real-World Vision-Language Understanding

Haoyu Lu ,
Wen Liu ,
Bo Zhang ,
Bingxuan Wang ,
Kai Dong ,
Bo Liu ,
Jingxiang Sun ,
Tongzheng Ren ,
Zhuoshu Li ,
Hao Yang ,
Yaofeng Sun ,
Chengqi Deng ,
Hanwei Xu ,
Zhenda Xie ,
Chong Ruan
2024年03月08日
  • 简介
    我们呈现了DeepSeek-VL,这是一个开源的视觉语言模型,旨在设计用于现实世界的视觉和语言理解应用。我们的方法围绕着三个关键维度展开: 我们努力确保数据多样化、可扩展性强,并广泛覆盖了包括网页截图、PDF、OCR、图表和基于知识的内容等实际场景,旨在全面呈现实际情境。此外,我们从真实用户场景中创建了一个用例分类法,并相应地构建了一个指令调整数据集。通过这个数据集的微调,大大提高了模型在实际应用中的用户体验。考虑到效率和大多数现实场景的需求,DeepSeek-VL采用了一种混合视觉编码器,可以高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕捉关键的语义和详细信息。 我们认为,一款熟练的视觉语言模型首先应该具备强大的语言能力。为确保在预训练期间保留LLM能力,我们研究了一种有效的VL预训练策略,通过从一开始就整合LLM训练,并精心管理视觉和语言模态之间观察到的竞争动态。 DeepSeek-VL系列(包括1.3B和7B模型)在现实世界的视觉语言聊天机器人应用中展示了卓越的用户体验,在相同的模型大小下在广泛的视觉语言基准测试中实现了最先进或有竞争力的性能,同时在以语言为中心的基准测试中保持了强大的性能。我们已经公开了1.3B和7B模型,以促进基于这个基础模型的创新。
  • 图表
  • 解决问题
    DeepSeek-VL论文旨在解决实际视觉语言应用中的视觉和语言理解问题,提出了一个新的视觉语言模型。
  • 关键思路
    DeepSeek-VL模型的关键思路是通过多样性、可扩展性和真实场景的广泛覆盖来确保数据的多样性,构建了一个使用案例分类法并相应地构建了一个指令调整数据集,通过这个数据集的微调,大大提高了模型在实际应用中的用户体验。此外,模型采用了高效的混合视觉编码器,以处理高分辨率图像,并在各种视觉任务中捕获关键的语义和详细信息。
  • 其它亮点
    论文使用了多种数据集,包括Web截图、PDF、OCR、图表和基于知识的内容,为实际场景提供了全面的表示。DeepSeek-VL模型展示了出色的用户体验,在实际应用中作为视觉语言聊天机器人,在各种视觉语言基准测试中实现了最先进或有竞争力的性能,同时在以语言为中心的基准测试中保持了强大的性能。1.3B和7B模型都已公开发布。
  • 相关研究
    近期在这个领域中的相关研究包括:《UNITER: Universal Image-text Representation Learning》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论