NVILA: Efficient Frontier Visual Language Models

2024年12月05日
  • 简介
    视觉语言模型(VLMs)在近年来的准确性方面取得了显著进展。然而,它们的效率却受到了较少的关注。本文介绍了NVILA,这是一系列旨在优化效率和准确性的开放视觉语言模型。基于VILA,我们首先通过扩大空间和时间分辨率来改进其模型架构,然后压缩视觉令牌。这种“先扩展后压缩”的方法使NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统的研究,以在整个生命周期中提高NVILA的效率,从训练、微调到部署。NVILA在广泛的图像和视频基准测试中,其准确性与许多领先的开放和专有视觉语言模型相当或超越。同时,它将训练成本降低了4.5倍,微调内存使用量减少了3.4倍,预填充延迟减少了1.6到2.2倍,解码延迟减少了1.2到2.8倍。我们将很快公开我们的代码和模型,以促进可重复性。
  • 图表
  • 解决问题
    该论文旨在解决视觉语言模型(VLMs)在保持高准确度的同时提高效率的问题。这是一个相对较少受到关注但日益重要的问题,特别是在大规模应用和资源受限环境中。
  • 关键思路
    论文提出了一种名为NVILA的新方法,通过“先扩展后压缩”的策略来优化模型架构。具体来说,首先增加空间和时间分辨率,然后压缩视觉令牌,从而在不牺牲准确性的前提下提高处理高分辨率图像和长视频的效率。这一方法在现有VLMs的基础上进行了创新,尤其是在模型效率方面。
  • 其它亮点
    1. NVILA在多个图像和视频基准测试中匹配或超越了许多领先的开放源和专有VLMs的准确性。 2. 与现有模型相比,NVILA显著降低了训练成本(4.5倍)、微调内存使用(3.4倍)、预填充延迟(1.6-2.2倍)和解码延迟(1.2-2.8倍)。 3. 论文系统地研究了NVILA在整个生命周期中的效率提升,包括训练、微调和部署阶段。 4. 作者计划公开代码和模型,以促进可重复性研究。
  • 相关研究
    近期在视觉语言模型领域的一些相关研究包括: 1. CLIP: Connecting Text and Images (Radford et al., 2021) 2. ViT-G/14: Scaling Vision Transformers (Chen et al., 2022) 3. Florence: A Unified Foundation Model for Multimodal Downstream Tasks (Zhou et al., 2022) 4. M6: A Large-Scale Pre-trained Model for Multi-modal Understanding and Generation (Liu et al., 2022) 这些研究主要集中在提高模型的准确性和泛化能力,而NVILA则更侧重于在保持高准确度的同时提高模型的效率。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论