MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax ,

Aonian Li ,

Bangwei Gong ,

Bo Yang ,

Boji Shan ,

Chang Liu ,

Cheng Zhu ,

Chunhao Zhang ,

Congchao Guo ,

Da Chen ,

Dong Li ,

Enwei Jiao ,

Gengxin Li ,

Guojun Zhang ,

Haohai Sun ,

Houze Dong ,

Jiadai Zhu ,

Jiaqi Zhuang ,

Jiayuan Song ,

Jin Zhu ,

Jingtao Han ,

Jingyang Li ,

Junbin Xie ,

Junhao Xu ,

Junjie Yan ,

Kaishun Zhang ,

Kecheng Xiao ,

Kexi Kang ,

Le Han ,

Leyang Wang ,

Lianfei Yu ,

Liheng Feng ,

Lin Zheng ,

Linbo Chai ,

Long Xing ,

Meizhi Ju ,

Mingyuan Chi ,

Mozhi Zhang ,

Peikai Huang ,

Pengcheng Niu ,

Pengfei Li ,

Pengyu Zhao ,

Qi Yang ,

Qidi Xu ,

Qiexiang Wang ,

Qin Wang ,

Qiuhui Li ,

Ruitao Leng ,

Shengmin Shi ,

Shuqi Yu ,

Sichen Li ,

Songquan Zhu ,

Tao Huang ,

Tianrun Liang ,

Weigao Sun ,

Weixuan Sun ,

Weiyu Cheng ,

Wenkai Li ,

Xiangjun Song ,

Xiao Su ,

Xiaodong Han ,

Xinjie Zhang ,

Xinzhu Hou ,

Xu Min ,

Xun Zou ,

Xuyang Shen ,

Yan Gong ,

Yingjie Zhu ,

Yipeng Zhou ,

Yiran Zhong ,

Yongyi Hu ,

Yuanxiang Fan ,

Yue Yu ,

Yufeng Yang ,

Yuhao Li ,

Yunan Huang ,

Yunji Li ,

Yunpeng Huang ,

Yunzhi Xu ,

Yuxin Mao ,

Zehan Li ,

Zekang Li ,

Zewei Tao ,

Zewen Ying ,

Zhaoyang Cong ,

Zhen Qin ,

Zhenhua Fan ,

Zhihang Yu ,

Zhuo Jiang ,

Zijia Wu

热度 124

2025年01月14日

简介

我们推出了MiniMax-01系列，包括MiniMax-Text-01和MiniMax-VL-01，这些模型在处理更长上下文方面具备卓越能力，同时与顶级模型相媲美。核心在于闪电注意力机制及其高效的扩展性。为了最大化计算能力，我们将该机制与专家混合（MoE）集成，创建了一个拥有32个专家和总计4560亿参数的模型，其中每个token激活459亿参数。我们开发了优化的并行策略和高效的计算-通信重叠技术，用于MoE和闪电注意力机制。这种方法使我们能够在包含数百万tokens的上下文中，对具有数百亿参数的模型进行高效训练和推理。MiniMax-Text-01的上下文窗口在训练时可达100万tokens，在推理时可以外推到400万tokens，且成本可控。我们的视觉-语言模型MiniMax-VL-01通过继续训练5120亿个视觉-语言tokens构建而成。在标准和内部基准测试中，我们的模型性能与GPT-4和Claude-3.5-Sonnet等最先进模型相当，同时提供20到32倍更长的上下文窗口。我们已在https://github.com/MiniMax-AI公开发布MiniMax-01。
图表
解决问题

该论文试图解决当前大型语言模型和多模态模型在处理长文本上下文时的局限性问题。这是一个新问题，因为虽然已有模型能够处理较短的文本序列，但在处理百万级甚至更长的文本序列时，现有模型往往面临计算资源和效率的瓶颈。
关键思路

关键思路在于引入了闪电注意力（lightning attention）机制，并结合专家混合（Mixture of Experts, MoE）架构，构建了一个参数量高达4560亿的模型，其中每个token激活45.9亿参数。通过优化并行策略和高效的计算-通信重叠技术，使得该模型能够在处理超长上下文（如100万token训练、400万token推理）时保持高效。相比现有研究，这种方法不仅提高了模型的上下文处理能力，还显著降低了计算成本。
其它亮点

论文的亮点包括：1) 实现了长达100万token的训练窗口和400万token的推理窗口，远超现有模型；2) 使用了大规模的视觉-语言数据集进行训练，提升了跨模态任务的表现；3) 在标准和自建基准测试中，性能与GPT-4和Claude-3.5-Sonnet等顶级模型相当；4) 开源了MiniMax-01系列模型代码，促进了社区进一步的研究和发展。未来值得深入的研究方向包括探索更大规模的数据集和更高效的训练算法。
相关研究

最近在这个领域中，相关的研究包括：1)《Scaling Laws for Neural Language Models》探讨了模型规模对性能的影响；2)《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》介绍了稀疏性在大规模模型中的应用；3)《PaLM: Scaling Language Modeling with Pathways》展示了路径方法在提升模型性能方面的潜力；4)《LAMM: Large-scale Adaptive Multi-modal Model》研究了多模态模型的适应性和扩展性。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论