今日凌晨,Google 发布了他们迄今为止性能最强的 Gemini 模型——Gemini 2.5 Pro 实验版。
据介绍,Gemini 2.5 Pro 显示了强大的推理能力和先进的代码能力,并在一系列基准测试中均处于领先地位,并首次在 LMArena 上排名第一。
作为会思考的模型,Gemini 2.5 能够在做出反应前进行推理,从而提高性能和准确性。这种“推理 ”能力不仅仅指分类和预测,还有系统分析信息、得出逻辑结论、结合上下文和细微差别并做出明智决策的能力。
这是 Google 推出的首个思维模型,通过 Gemini 2.5,将显著增强的基础模型与改进的后训练相结合,将性能提升到新的水平。谷歌表示,在所有模型中直接构建这些思维能力,这样它们就能处理更复杂的问题,支持能力更强的情境感知智能体。
Gemini 2.5 Pro 还显示出强大的推理和编码能力,在常见的编码、数学和科学基准测试中领先。在未来几周内,Google 将推出定价功能,使人们能够以更高的速率限制来使用 2.5 Pro,从而实现规模化生产。
增强的推理能力
在一系列需要高级推理的基准测试中,不使用多数投票等会增加成本的测试时间技术的情况下,Gemini 2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中实现了领先。
此外,在由数百位学科专家设计的数据集“人类最后的考试”(Humanity's Last Exam)中,在不使用工具的情况下,2.5 Pro 在各种模型中的得分率高达 18.8%,达到了 SOTA。
先进的代码能力
Gemini 2.5 Pro 擅长创建视觉上引人注目的网络应用程序和智能体代码应用程序,以及代码转换和编辑。在智能体代码评估的行业标准 SWE-Bench Verified 上,Gemini 2.5 Pro 通过自定义智能体设置获得了 63.8% 的分数。
在一下视频中,Gemini 2.5 Pro 通过单行提示即可生成可执行代码,创建一个视频游戏。
参考文献:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
整理:与可
如需转载或投稿,请直接在公众号内留言
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢