Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

简介

大规模多模式生成模型的出现极大地推进了人工智能，引入了前所未有的性能和功能水平。然而，由于历史上模型中心和数据中心发展的道路分离，优化这些模型仍然具有挑战性，导致结果次优和资源利用效率低下。为此，我们提出了一个专为集成数据-模型共同开发而设计的新型沙盒套件。这个沙盒提供了一个全面的实验平台，使数据和模型的快速迭代和基于洞察力的改进成为可能。我们提出的“探测-分析-改进”工作流程，通过在最先进的LLaVA-like和DiT模型上的应用进行验证，产生了显著的性能提升，例如在VBench排行榜上名列前茅。我们还从详尽的基准测试中发现了有益的见解，揭示了数据质量、多样性和模型行为之间的关键相互作用。为了促进对多模式数据和生成建模的深入理解和未来进展，我们的代码、数据集和模型均由https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md维护和提供访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题的挑战：如何优化大规模多模态生成模型的性能和功能，同时有效利用资源？
关键思路

提出一个针对数据-模型协同开发的沙盒套件，通过“探测-分析-优化”工作流程，实现数据和模型的快速迭代和精细调整，从而提高性能
其它亮点

论文提供了一个全面的实验平台，展示了基于LLaVA和DiT模型的应用，通过详尽的基准测试揭示了数据质量、多样性和模型行为之间的关键相互作用，开放了代码、数据集和模型，有望促进多模态数据和生成建模的深入理解和未来发展
相关研究

与此相关的最新研究包括：《Large Scale GAN Training for High Fidelity Natural Image Synthesis》、《Generative Pretraining from Pixels》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

提问交流

提问交流