克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
最强编程模型让位了。
但没有换人,依然是Claude。
新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。

而且有第三方表示,Claude Sonnet 4.5能一口气工作30个小时,完全自主地编写代码。
在这30个小时里,Claude Sonnet 4.5写了11000多行代码,构建出了类似Slack的聊天应用。
此前Opus 4曾因为连续工作7小时就备受关注,现在这个数字直接变成了4倍多。

计算机操作方面,Claude Sonnet 4.5在OSWorld测试中取得了60.2分的SOTA成绩,比Sonnet 4提升了近一半。
总之,Claude Sonnet 4.5在多项领域都实现了对自己的超越,成为该领域内的最佳模型。
先有昨晚的DeepSeek-V3.2,紧接着又是Claude Sonnet 4.5,赶在节前密集上新的模型,看来是真的不让人放假了。(手动狗头)
多项指标超越自我
来看Anthropic晒出的Claude Sonnet 4.5成绩单。
除了已经介绍过的Swe-bench和OSWorld之外,Claude Sonnet 4.5也在终端编程(Terminal-Bench)、工具使用(τ2-bench)等测试集中取得长足进步。
在高中水平的数学方面,AIME 2025试题中,如果借助Python,Claude Sonnet 4.5可以做到100%的准确率,不借助任何工具也能达到87%。

另外,Anthropic还专门展示了Claude Sonnet 4.5在金融、医疗、法律以及STEM等专业领域的表现。
在这四个领域当中,Claude Sonnet 4.5相比Sonnet 4,对战baseline模型的胜率均有大幅度提升,且在16K上下文、开启思考的情况下,均超过60%。

除了以上各种性能,Anthropic还重点强调了Claude Sonnet 4.5的对齐和安全性指标。
通过安全训练,Anthropic减少了Claude Sonnet 4.5的谄媚、欺骗等不良行为;在智能体和计算机场景下,Claude Sonnet 4.5在防御即时注入攻击方面也取得了显著进展。
同时,针对正常内容的误报也有所降低,正常请求拒绝率从Sonnet 4时的0.15%下降到了0.02%。

Claude Sonnet 4.5的表现,获得了众多第三方的高度评价。
GitHub首席产品官Mario Rodriguez表示,Claude Sonnet 4.5让GitHub Copilot能更好地处理复杂的跨代码库任务。

Cognition联创兼CEO Scott Wu也表示,Claude Sonnet 4.5让Devin的规划能力和端到端评估成绩大幅度提升。

非编程类任务当中,也有金融机构的人工智能主管表示Claude Sonnet 4.5能够提供投资级的洞察。

最后说价格,Claude Sonnet 4.5提质不加价,与Sonnet 4保持一致,为3美元每百万输入token,15美元每百万输出token。
智能体SDK上线
除了发布模型更新,Anthropic还官宣了Claude Agent SDK,可以帮助开发者基于Claude Code构建智能体。
Claude Agent SDK前身为Claude Code SDK,最初的目的是提升Anthropic内部的开发效率。
更名之后,这个SDK从一个专注于代码任务的工具集,升级为一个构建通用、自主智能体的全面框架,支持构建个人助理、深度研究等各种类型的智能体。
工作流程上,Agent SDK将构建智能体的过程系统化为“收集上下文→采取行动→验证工作→重复”的循环。

在Agent SDK中,Anthropic解决了三个关键难题——智能体应该如何在长时间运行的任务中管理内存,如何处理平衡自主性与用户控制的权限系统,以及如何协调为实现共同目标而工作的子智能体。
此外Anthropic还发布了一个名为Imagine with Claude的新功能。

这个功能让Claude模型可以“实时生成软件”,只要你给一个需求或构思,它就可以即时动手写代码、搭界面、安排流程等,把你的想法变成可运行的原型或界面,整个过程无需借助已有模板。
Max订阅用户将可以在接下来的五天时间里进行尝鲜。
如果你对新的模型和功能感兴趣,就赶快试用起来,也欢迎在评论区交流使用体验~
参考链接:
[1]https://www.anthropic.com/news/claude-sonnet-4-5
[2]https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy
[3]https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🏆 年度科技风向标「2025人工智能年度榜单」评选报名开启啦!我们正在寻找AI+时代领航者 点击了解详情
❤️🔥 企业、产品、人物3大维度,共设立了5类奖项,欢迎企业报名参与 👇
一键关注 👇 点亮星标
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢