凯时官方版棋牌,探索无限精彩,畅享不一样的世界,让生活更有趣_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

编程测试碾压人类!Claude Opus 4.5 深夜突袭,AI 编程进入「超人时代」

2025-11-18 23:55:02
来源:

猫眼电影

作者:

黄汪

手机查看

  猫眼电影记者 李乐成 报道Q8X2R7L1T4J5M9B6W3

最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。

前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。

Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。遇到编程、搭 agents、操控电脑这些「系统级任务」依然是全球数一数二的水平。日常的研究、做 PPT、处理表格这些案头活,也都明显变强了。

今天起,Opus 4.5 已经全面开放,可以通过应用、API,还有三大主流云平台用起来。开发者只要在 Claude API 里调用 claude-opus-4-5-20251101 就行。

随发布而来的,是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造,还有「长对话不卡顿」。从应用到 API,再到云平台,这次是真的全线铺开。

Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack

大模型集体「上新季」,Opus 4.5 强势压轴

从官方和测试者的反馈看,Claude Opus 4.5 对「模糊需求」的理解力得到了明显提升,复杂 bug 自行定位也更稳,不少提前试用的客户觉得 Opus 4.5 是真的能「理解」他们想要啥。

在真实场景的软件工程测试 SWE-Bench Verified 里,它是头一个拿到 80% 以上分数的模型。

Opus 4.5 的代码质量全面升级,在 SWE-bench Multilingual 涵盖的八种编程语言里,它在其中七种都拔得头筹,表现相当亮眼。

而举例而言,Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里,结果在规定的两小时内,Claude Opus 4.5 的得分超过了所有人类候选人。

虽然编程测试只能衡量技术能力和时间压力下的判断力,那些多年经验积累出来的直觉、沟通协作能力,这些同样重要的素质并不在考察范围内。

除却软件工程,Claude Opus 4.5 的整体能力也迎来了全面开花,在视觉、推理和数学方面都比前代模型强,并且在多个重要领域都达到了业界领先水平:

更关键的是,模型的能力甚至开始超越现有的一些评测标准了。

在智能体能力测试 τ?-bench 里就出现了这么个场景:测试设定模型扮演航空公司客服,帮一位焦虑的乘客。

按照规则,基础经济舱机票是不能改的,所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案:先把舱位从基础经济舱升级到普通经济舱,然后再改航班。

这办法完全符合航空公司政策,却不在测试的预期答案范围内。从技术角度说,这算是测试失败了,但这种创造性解决问题的方式,恰恰展现了 Opus 4.5 的独特之处。

当然了,在另一些场景下,这种「钻规则空子」的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标,这是 Anthropic 安全测试重点关注的方向。

Claude 无处不在,桌面、浏览器、Excel 全接入

随着 Opus 4.5 的推出,Claude Code 获得了两项重大更新。

计划模式(Plan Mode)现在能生成更精确的执行计划了,Claude 会在操作前主动提澄清性问题,然后生成一个用户可编辑的 plan.md 文件,再根据这计划执行任务。

此外,Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话,比如一个智能体负责修代码错误,另一个负责在 GitHub 上检索资料,第三个就更新项目文档。

对于 Claude 应用用户来说,长对话不会再被打断了。Claude 会在需要的时候自动总结早期上下文,让对话持续下去。

Anthropic 研究产品管理负责人 Dianne Na Penn 在接受采访时表示:

「我们在 Opus 4.5 的训练过程中提升了对长上下文的整体处理能力,但光有更长的上下文窗口是不够的。知道哪些信息值得记住,同样非常关键。」

这些改进也实现了 Claude 用户长期呼吁的一项功能:「无尽对话」。这功能能够让付费用户在对话超过上下文窗口限制时也不会中断,模型会自动压缩上下文记忆,而不用提醒用户。

Claude for Chrome 也已经向所有 Max 用户开放了,可以让 Claude 直接在浏览器多个标签页之间执行任务。

Claude for Excel 的 Beta 测试范围已经扩展到 Max、Team 和 Enterprise 用户了。

对于能使用 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic 已经取消了和 Opus 相关的使用上限。对于 Max 用户和 Team Premium 用户,Anthropic 也提高了整体使用限额,用户可使用的 Opus token 数量与之前使用 Sonnet 时大致相同。随着未来更强模型的出现,配额也会根据情况相应更新。

让模型「更聪明也更省」,Opus 4.5 迎来底层大升级

随着模型变得更聪明,它们能用更少的步骤解决问题:减少反复试错、降低冗余推理、缩短思考过程。

Claude Opus 4.5 和前代模型比,在实现相同甚至更优结果的情况下,用的 tokens 数量明显少了。

当然了,不同任务需要不同的平衡。

有时开发者希望模型能持续深入思考,有时又需要更快速灵活的响应。

所以,API 里新加了一个叫 effort 的参数,让你可以根据需求选:要么优先省时间和成本,要么最大化模型能力。任君选择。当设置为中等 effort 等级时,Opus 4.5 在 SWE-bench Verified 测试中和 Sonnet 4.5 的最佳成绩持平,但输出 tokens 数减少了 76%。

而在最高 effort 等级下,Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点,同时还减少了 48% 的输出量。

凭借 effort 控制、上下文压缩(context compaction)和高级工具调用能力,Claude Opus 4.5 能跑更久、完成新万博体育:任务,而且需要的人工干预更少了。

此外,真正的 AI 智能体需要在成百上千种工具之间无缝协作。

想象一个 IDE 助手集成了 Git、文件管理、测试框架和部署流程,或者一个运营智能体同时连着 Slack、GitHub、Google Drive、Jira 和几十个 MCP 服务器。

问题在于,传统方式会把所有工具定义一次性塞进上下文。拿连接五个服务器的系统来说,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起来又是 8K tokens。

对话还没开始呢,就已经占了 55K tokens 了。要是再加上 Jira,轻松突破 100K tokens。更麻烦的是,当工具名字相似时,模型容易选错工具或者传错参数。

Anthropic 推出了三项新功能来解决这些问题。

Tool Search Tool 让 Claude 按需动态发现工具,只加载当前任务需要的部分,token 使用量能减少约 85%。

Programmatic Tool Calling 让 Claude 在代码里直接调用工具,避免每次调用都要完整推理一遍。

Tool Use Examples 则提供统一标准,通过示例而不是 JSON schemas 来展示工具的正确用法。

内部测试显示,启用 Tool Search Tool 后,Opus 4 在 MCP 测试中的准确度从 49% 提升到 74%,Opus 4.5 从 79.5% 提升到 88.1%。Claude for Excel 就是利用 Programmatic Tool Calling 来处理几千行数据,而不会让上下文窗口过载。

Anthropic 的上下文管理和记忆能力明显提升了模型在智能体(agent)任务中的表现。

Opus 4.5 还能高效管理多个子智能体(subagents),从而搭建复杂且协调良好的多智能体系统。在测试中,结合这些技术后,Opus 4.5 在深度研究类评估中的表现提升了将近 15 个百分点。

开发者平台(Developer Platform)也在持续变得更具可组合性,希望提供灵活的「模块化构建」能力,让你能根据具体需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系统。

虽然这次 Opus 4.5 的升级足够亮眼,但一个越来越清晰的趋势是:不同模型的「性格」差异正在被放大。

从 Claude 过往的产品线来看,Opus 这类「超大杯」依旧最擅长编程、系统级操作、结构化推理;但如果是文案工作,Sonnet 的表现和性价比往往更对路。

这次发布,也再次印证了这一点。

未来选模型,不光要看跑分榜,还得看它的「做事」方式是不是跟你合拍。换句话说,选择模型,倒是越来越像挑同事了。

附上官方博客地址:https://www.anthropic.com/news/claude-opus-4-5

??时事1:ope电竞体育

??11月18日,侨乡泉州开启“桑梓情深”华侨主题剧本沉浸式体验活动,

  第一,强化城市意识,把握发展规律。要进一步解放思想,更新观念,学会用城市的眼光来看待问题,用城市的思维来谋划工业,用城市的标准来衡量工作,牢固树立抓城建就是抓经济,抓城镇化就是抓发展、抓现代化建设的理念,不断增强法制意识、文明意识、秩序意识、服务意识和平等意识,增强工作的预见性、主动性和自觉性。要加强对城镇化理论的学习与研究,把握城镇化发展的规律,科学制定本地、本部门城镇化的发展思路和工作重点,协调解决城镇化进程中的重大问题,增强驾驭城镇化工作的能力和水平。

,dafa网站。

??11月18日,云南通报3起违规吃喝和收送礼品礼金问题,

  一是参加总公司及办事处组织的党课学习及办事处组织的每季度中心组学习,重点学习党章、党规、学习十八大历次全会精神、新万博体育:总书记系列重要讲话、公司的重要文件并开展讨论,学习效果明显。二是进取参加群众路线教育实践活动及“三严三实”教育活动。向群众学习,认真听取群众意见,在活动中不断提高自我的政治觉悟和政治素质,在开展批评与自我批评过程中找准自我存在的问题并加以整改。三是参加“两学一做”活动,改造自我的世界观。经过学习,提高自我的政治素质,增强政治意识、大局意识、核心意识、看齐意识。

,杏彩手机网页版平台,万博真人投注,新金沙app官方门。

??时事2:手机版真钱捕鱼

??11月18日,北京:鼓励有条件的在京保险公司兴办养老服务机构,

  有数米长的斑纹山猫,头上长着犄角,强劲有力,每一次都能撕开一头巨兽的躯体,浴血而狂,它的双爪也是锋锐无匹,寒光闪过,必有血液溅起。

,世界杯直播网站有哪些,禁肖-禁尾图,pg电子寻龙探宝。

??11月18日,以媒:以色列北部多个城镇遭袭 已致2人受伤,

  六、重视每一次应急疏散演练

,立博注册彩金,线上棋牌官网,体验金官网平台。

??时事3:看4张牌抢庄斗牛app

??11月18日,壶口瀑布冰瀑映彩虹 景美如画,

  第一,强化城市意识,把握发展规律。要进一步解放思想,更新观念,学会用城市的眼光来看待问题,用城市的思维来谋划工业,用城市的标准来衡量工作,牢固树立抓城建就是抓经济,抓城镇化就是抓发展、抓现代化建设的理念,不断增强法制意识、文明意识、秩序意识、服务意识和平等意识,增强工作的预见性、主动性和自觉性。要加强对城镇化理论的学习与研究,把握城镇化发展的规律,科学制定本地、本部门城镇化的发展思路和工作重点,协调解决城镇化进程中的重大问题,增强驾驭城镇化工作的能力和水平。

,斗牛顺口溜,金沙客户端电脑版下载,188BET金宝搏安卓下载。

??11月18日,坐铛铛车走中轴线 台胞感知北京城市底色,

  第二,党代会的筹备和召开,要严格执行党章规定和上级党组织的有关规定程序,严格执行这些程序,是坚持民主集中制原则,充分保障和发扬党内民主所必需的环节,上级组织要求很严,因此大家不要错误地认为这仅仅是形式。一会儿组织部会给大家做一个培训,介绍相关的程序,使大家能够了解熟悉这些程序,做到心中有数,精心操作实施,注重细节,追求实效,保证工作达到一定的标准和要求。党代会的筹备召开要注重调动广大师生员工的积极性,党代会的主要发动广大、教师和干部充分讨论,集中大家的宝贵意见和智慧。干部要深入基层,深入群众,倾听大家对学校党代阿阳会的希望和要求,并及时发映上来,各总支和支部要做好上下沟通的工作,保持信息畅通,及时化解矛盾,处理难题,维护稳定,要为党代会的顺利召开营造良好的舆论氛围,奠定坚实的群众基础。

,澳门威尼斯网络,leyu乐鱼官方下载,乐动sports。

??时事4:真钱视讯手游

??11月18日,香江观澜:港人参与国家航天事业空间无限,

  经过了数载消防的成长历程,我在汗水中浸透思想,在泪水与挫折中饱含辛酸,在喜悦和成功中收获成长,领悟消防真谛。还记得,在今年10月5日的一次消防救援工作中,在接到报警电话后,我与各消防同事立即出动备战,赶赴火灾现场,那是一场房火,火灾现场火势较大,烟雾浓厚,火势危急,现场情况十分紧急。在我消防大队领导的正确指挥下,我与各个消防同志奋力展开了灭火救援战斗。为保障人民安全,将人民从水深火热的严峻形势中拯救出来,我与各个消防人员,皆在救援工作中施展出自身的全部能力,发挥自身的全部力量,奋力投身于救援灭火工作之中。在救援工作中,我们来不及考虑自身的生命安全,脑中心中想的全部都是人民的生命安危。我们奋不顾身,铤而走险,深入火灾现场,在火灾严峻发展的形势下,我们与恶魔般的火势作着抗争,坚定救人为先的救援信念,最终,在几个小时的艰苦奋战下,我们赢得了最终的胜利,成功的将火势扑灭,并救出了一名老人。在救援行动结束之后,这名老人特送与我们一幅写着“灭火神勇,保民平安”字样的锦旗以表达他的谢意,在此次的救援行动中,作为消防警员的我们充分发挥了的消防精神,忠诚于我们的岗位工作,履行着自身的使命职责。

,扑克王输了几十万报警,体球直播,ca88亚汌城。

??11月18日,四川打造新时代更高水平“天府粮仓” 耕地面积净增加50万亩以上,

  尤其是那磨盘大的兽骨头上,还有几个可怖的爪洞,残留着血迹,显得非常狰狞。

,日博体育网用户登录,澳门威斯尼斯人4832,欧宝体育登录。

责编:胡愈之

审核:辜息

责编:皮娅·里布

相关推荐 换一换