DeepSeek-VL: Towards Real-World Vision-Language Understanding

简介

我们呈现了DeepSeek-VL，这是一个开源的视觉语言模型，旨在为现实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开：我们努力确保我们的数据具有多样性、可扩展性，并广泛涵盖了包括网页截图、PDF、OCR、图表和基于知识的内容在内的现实世界场景，旨在全面代表实际情境。此外，我们从真实用户场景创建了一个用例分类法，并相应地构建了一个指令调整数据集。使用这个数据集进行微调，可以显著提高模型在实际应用中的用户体验。考虑到效率和大多数现实世界场景的需求，DeepSeek-VL采用了混合视觉编码器，可以高效处理高分辨率图像（1024 x 1024），同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕捉关键的语义和详细信息。我们认为，一款熟练的视觉语言模型首先应该具备强大的语言能力。为了确保在预训练期间保留LLM能力，我们研究了一种有效的VL预训练策略，通过从一开始就整合LLM训练，并仔细管理视觉和语言模态之间观察到的竞争动态。DeepSeek-VL家族（包括1.3B和7B模型）在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验，在相同的模型大小下，在广泛的视觉语言基准测试中实现了最先进或有竞争力的性能，并在以语言为中心的基准测试中保持了强大的性能。我们已经公开了1.3B和7B模型，以促进基于这个基础模型的创新。

作者讲解·1

讲解视频
相关报道(1)

图表

解决问题

DeepSeek-VL论文旨在设计一个用于实际应用的开源视觉语言模型，解决现有模型在处理多样化、可扩展性和实际应用中的不足。

关键思路

DeepSeek-VL的关键思路是结合多样化数据集、实际用户场景和语言模型的预训练，以提高模型的语言能力和视觉能力，并采用高效的混合视觉编码器来处理高分辨率图像。

其它亮点

DeepSeek-VL模型在实际应用中表现出优异的用户体验，同时在多项视觉-语言基准测试中取得了与同等模型大小相当的最先进或有竞争力的性能，并在以语言为中心的基准测试中保持了强大的性能。

DeepSeek-VL: Towards Real-World Vision-Language Understanding

提问交流

提问交流