九游会注册彩金,为用户提供稳定、流畅的体验,让娱乐与效率兼得_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Claude Opus 4.5发布!2小时工程测试超人类

2025-11-24 09:02:13
来源:

猫眼电影

作者:

段家峡

手机查看

  猫眼电影记者 白佩茹 报道Q8X2R7L1T4J5M9B6W3

西风 发自 凹非寺量子位 | 公众号 QbitAI

两小时高强度工程任务,模型得分超过所有人类。

刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use

Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。

在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。

让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出Excel成果:

用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的Word文件包含修订痕迹与定制内容:

团队实测中发现,模型核心优势在于“理解力”,它能解决Sonnet模型无法发现的bug,同时知道“何时先思考再行动”。

目前,Opus 4.5已通过app、API及三大主流云平台开放使用。开发者通过Claude API调用claude-opus-4-5-20251101即可使用,定价每百万tokens 5美元(输入)/25美元(输出)

与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。

编码智能体能力全面升级

团队内部测试发现,Claude Opus 4.5能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。

之前Sonnet 4.5几乎无法完成的任务,如今Opus 4.5已能轻松胜任。测试者普遍认为Claude Opus 4.5能“真正理解用户需求”。

团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试Claude Opus 4.5。

在规定的2小时时间限制内,Claude Opus 4.5的得分超过了所有参加过该考试的人类候选人

团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了新万博体育:AI如何重塑工程行业的思考。

下面来看具体数据。

视觉处理、推理与数学方面,Claude Opus 4.5均超越前代,达业界顶尖水平:

编码能力方面,Opus 4.5在SWE-bench多语言测试中,8种编程语言里有7种的表现位列榜首。

在Aider Polyglot基准测试中,面对高难度编码难题,得分较Sonnet 4.5大幅提升10.6%

Opus 4.5在智能体搜索方面也有显著提升:

长时任务续航能力拉满,在Vending-Bench测试中,Opus 4.5的任务完成收益较Sonnet 4.5高出29%,全程保持高效输出不跑偏:

团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。

比如在τ2-bench中,有一个场景,模型必须扮演航空公司服务Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但Opus 4.5却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。

最后,Claude Opus 4.5安全防护能力升级,尤其是在抵御提示词注入攻击等方面:

开发者平台以及系列产品升级

面向开发者,Claude API新增了“努力度参数” (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。

在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。

在最高努力度设置下,其性能较Sonnet 4.5提升4.3个百分点,同时tokens用量减少48%。

借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5支持更长时运行、新万博体育:任务处理,且所需人工干预大幅减少。

Claude Opus 4.5还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。

在团队测试中,结合这些技术,Opus 4.5在深度调研评估中的表现提升了近15个百分点。

另外,Claude系列产品也随之升级了。

随Opus 4.5的发布,Claude Code推出两大新功能:

计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude会先主动确认需求细节,再生成可编辑的 plan.md文件后执行操作。

Claude Code现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。

对于Claude app用户,再也不用担心上下文窗口不够,长对话中断。现在Claude会自动按需总结之前的对话内容,聊天直接解锁无限续航模式

除此之外,支持跨标签页处理任务的Chrome浏览器Claude扩展程序,现已向所有Max订阅用户开放。

Claude for Excel今日起将测试权限扩展至所有Max、Team及Enterprise用户。

面向可使用Opus 4.5的Claude及Claude Code用户,官方取消了Opus专用限额。针对Max与Team Premium用户的整体使用额度已上调,Opus tokens用量与此前Sonnet大致持平。

官方Blog:https://www.anthropic.com/news/claude-opus-4-5参考链接:https://x.com/claudeai/status/1993030546243699119?s=20

??时事1:爱玩体育官网登录

??11月24日,专家:不同呼吸道病原体没有交叉免疫 可能同时或交替感染,

  不得不说,三只青鳞鹰都很有灵性,神异非常,通晓人性,对它们说什么都能听懂,只是不会说人语而已。

,爱博入口登录。

??11月24日,超龄就业受伤,算不算工伤须“具体分析”,

  一般情况下来说,独角兽不是一般的搬血境强者所能捕捉到的,它们力大无穷,飞奔神速,还传承有简单的符文,很不凡。

,斗地主加倍是什么意思,亚洲城手机客户端怎么下载,捕鱼达人2金币。

??时事2:AG官方入口

??11月24日,北京市十六届人大二次会议将举办三场新闻发布会,

  我讲的第三个词是“希望”。

,永利体育手机APP,ku九州平台,巴黎人网站。

??11月24日,尼日利亚一载有至少100名乘客的船只倾覆,

2024医院院长总结大会讲话(精选3篇)

,AG真人官方平台,世界杯投注 网站推荐,乐鱼电竞官网入口。

??时事3:新2网址

??11月24日,东西问丨王晓莲:为什么说西汉齐王墓出土的银豆是个地道的“混血儿”?,

  小不点指尖符文闪烁,兽牙串灿灿若星辰,颗颗剔透,缠上了雪亮的大剑,喀嚓几声,将其绞碎,化成一地废铁,这就是宝具的威力。

,开户就送18,AG平台刷水有用吗,购买世界杯彩票app。

??11月24日,《可看香港》全国两会特别报道|港区全国人大代表文颕怡:建议加快推动粤港澳大湾区医院接轨国际标准,

  母校,就像我们成长的摇篮,而我们就像摇篮中的小baby。我们在摇篮里健康、安定、快乐的成长着;母校,也像幸福的港湾,而我们呢?就像小船,呆在安全的巷口,躲过了伤害。差不多六年了,母校给了我们很多的照顾,我想说:“母校,谢谢您!”

,威尼斯人注册页面在哪,诈金花在线玩,买球app排行榜。

??时事4:澳门新手机版

??11月24日,贵州仲夏时节田园美,

  “谁能收我?!”那头生有一对碧绿眸子的恐怖生灵吼道,一吼之下,漫天的云朵竟然全部被震散了。

,云顶国际电竞,九游会下载安卓版下载不,手机买球世界杯。

??11月24日,郑钦文人民日报撰文:远大的梦想,唯有坚持才能抵达,

  然而,就在这时,青鳞鹰下坠,双翅击断了一些参天巨树,它渐渐力竭,伤口处不断向外淌黑血,坚持不住了。

,免费3d网络游戏,双赢棋牌网站,亚博下载。

责编:张亚伟

审核:崔某驶

责编:高军令

相关推荐 换一换