谷歌发布最强Gemini 2.5 Pro：超越Grok-3，首次在LMArena上排名第一

今日凌晨，Google 发布了他们迄今为止性能最强的 Gemini 模型——Gemini 2.5 Pro 实验版。

据介绍，Gemini 2.5 Pro 显示了强大的推理能力和先进的代码能力，并在一系列基准测试中均处于领先地位，并首次在 LMArena 上排名第一。

作为会思考的模型，Gemini 2.5 能够在做出反应前进行推理，从而提高性能和准确性。这种“推理 ”能力不仅仅指分类和预测，还有系统分析信息、得出逻辑结论、结合上下文和细微差别并做出明智决策的能力。

这是 Google 推出的首个思维模型，通过 Gemini 2.5，将显著增强的基础模型与改进的后训练相结合，将性能提升到新的水平。谷歌表示，在所有模型中直接构建这些思维能力，这样它们就能处理更复杂的问题，支持能力更强的情境感知智能体。

Gemini 2.5 Pro 还显示出强大的推理和编码能力，在常见的编码、数学和科学基准测试中领先。在未来几周内，Google 将推出定价功能，使人们能够以更高的速率限制来使用 2.5 Pro，从而实现规模化生产。

在一系列需要高级推理的基准测试中，不使用多数投票等会增加成本的测试时间技术的情况下，Gemini 2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中实现了领先。

此外，在由数百位学科专家设计的数据集“人类最后的考试”（Humanity's Last Exam）中，在不使用工具的情况下，2.5 Pro 在各种模型中的得分率高达 18.8%，达到了 SOTA。

Gemini 2.5 Pro 擅长创建视觉上引人注目的网络应用程序和智能体代码应用程序，以及代码转换和编辑。在智能体代码评估的行业标准 SWE-Bench Verified 上，Gemini 2.5 Pro 通过自定义智能体设置获得了 63.8% 的分数。

在一下视频中，Gemini 2.5 Pro 通过单行提示即可生成可执行代码，创建一个视频游戏。

参考文献：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

整理：与可

如需转载或投稿，请直接在公众号内留言

内容中包含的图片若涉及版权问题，请及时与我们联系删除