NEW

Olmo 3

Team Olmo ,

: ,

Allyson Ettinger ,

Amanda Bertsch ,

Bailey Kuehl ,

David Graham ,

David Heineman ,

Dirk Groeneveld ,

Faeze Brahman ,

Finbarr Timbers ,

Hamish Ivison ,

Jacob Morrison ,

Jake Poznanski ,

Kyle Lo ,

Luca Soldaini ,

Matt Jordan ,

Mayee Chen ,

Michael Noukhovitch ,

Nathan Lambert ,

Pete Walsh ,

Pradeep Dasigi ,

Robert Berry ,

Saumya Malik ,

Saurabh Shah ,

Scott Geng ,

Shane Arora ,

Shashank Gupta ,

Taira Anderson ,

Teng Xiao ,

Tyler Murray ,

Tyler Romero ,

Victoria Graf ,

Akari Asai ,

Akshita Bhagia ,

Alexander Wettig ,

Alisa Liu ,

Aman Rangapur ,

Chloe Anastasiades ,

Costa Huang ,

Dustin Schwenk ,

Harsh Trivedi ,

Ian Magnusson ,

Jaron Lochner ,

Jiacheng Liu ,

Lester James V. Miranda ,

Maarten Sap ,

Malia Morgan ,

Michael Schmitz ,

Michal Guerquin ,

Michael Wilson ,

Regan Huff ,

Ronan Le Bras ,

Rui Xin ,

Rulin Shao ,

Sam Skjonsberg ,

Shannon Zejiang Shen ,

Shuyue Stella Li ,

Tucker Wilde ,

Valentina Pyatkin ,

Will Merrill ,

Yapei Chang ,

Yuling Gu ,

Zhiyuan Zeng ,

Ashish Sabharwal ,

Luke Zettlemoyer ,

Pang Wei Koh ,

Ali Farhadi ,

Noah A. Smith ,

Hannaneh Hajishirzi

热度 275

2025年12月15日

简介

我们推出Olmo 3，这是一系列最先进的、完全开源的语言模型，涵盖70亿（7B）和320亿（32B）参数两个规模。Olmo 3 模型的设计目标是实现长上下文推理、函数调用、代码生成、指令遵循、通用对话以及知识回忆能力。本次发布包含了完整的模型构建流程，即该系列模型的全生命周期，涵盖构建过程中使用的各个阶段、检查点、数据点以及所有依赖项。我们的旗舰模型 Olmo 3 Think 32B 是迄今为止发布的最强的完全开源“思考型”模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决构建高性能、完全开源的语言模型的问题，特别是在长上下文推理、函数调用、代码生成、指令遵循和知识回忆等关键能力上的表现。当前大多数先进语言模型（如GPT系列）并非完全开源，限制了研究社区的可复现性和进一步创新。Olmo 3试图验证：一个从数据到训练全流程完全开放的模型，是否能在7B和32B参数规模上达到最先进的性能，尤其是在‘思考型’任务（如复杂推理）中。
关键思路

Olmo 3的核心思路是‘全生命周期开源’（full lifecycle openness），不仅发布模型权重，还公开训练过程中的每一个检查点、数据点、训练脚本、依赖项和数据处理流程。这种透明性使得研究者可以完整复现并深入分析模型行为。其旗舰模型Olmo 3 Think 32B专门优化了‘思维链’（chain-of-thought）推理能力，通过高质量的长上下文数据和强化学习对齐技术提升复杂任务表现，是目前最强的完全开源‘思考模型’。
其它亮点

亮点包括：1）发布7B和32B两个规模的模型，覆盖广泛应用场景；2）支持长上下文和函数调用，适用于实际AI代理任务；3）实验设计强调可复现性，使用公开数据集（如The Pile、RefinedWeb及自建高质量推理数据）进行训练与评估；4）代码、训练日志、数据采样策略全部开源，极大促进社区研究；5）在多个基准（如MMLU、HumanEval、GSM8K）上达到或超越同规模闭源模型表现。值得深入的方向包括基于其开放数据流程改进数据质量筛选机制，以及在其基础上开发更高效的推理对齐方法。
相关研究

1. Llama 3: Open and Efficient Foundation Language Models 2. Falcon-180B: Closing the Gap with Proprietary LLMs 3. StarCoder2: An Open Large Language Model for Code with Rich Infilling Capabilities 4. Mistral 7B v0.3: A Sparse Mixture-of-Experts Model with Full Tool-Use Capabilities 5. OpenChat: Training LLMs with Reinforcement Learning from User Feedback

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问