智东西编译 王涵编辑 漠影
智东西9月30日消息,今天,Claude Sonnet 4.5正式发布,该模型能持续专注处理复杂多步骤任务超过30小时,在编程能力、计算机操作能力榜单中占据榜首,在推理、数学、智能体编程等多方面超越GPT-5。
Claude Sonnet 4.5计价标准与Claude Sonnet 4保持一致,即每百万tokens输入3美元(约合人民币21.4元),输出15美元(约合人民币106.8元)。
此外,Claude Code新增了检查点功能,用户可保存进度并支持即时回滚,Anthropic更新了其终端界面,发布了原生VS Code扩展插件。
Anthropic还向开发者开放了Claude Code的核心组件——Claude Agent SDK,用户能直接运用支撑其产品的底层架构,进行二次开发。
Claude API也新增了情境编辑与记忆工具,能够助力智能体持续处理更复杂的任务。在Claude应用中,代码执行与文件生成(电子表格/幻灯片/文档)已无缝融入对话流程。
以上功能今日已在Claude开发者平台、Amazon Bedrock及Google Cloud Vertex AI开放公测。
一、能处理超30小时的任务,Claude Sonnet 4.5超越GPT-5
在衡量真实编程能力的SWE-bench Verified评测中,Claude Sonnet 4.5稳居榜首。实际测试表明,该模型能持续专注处理复杂多步骤任务超过30小时。
在测试AI模型真实计算机操作能力的OSWorld基准评估中,Claude Sonnet 4.5以61.4%的得分率获得第一,而四个月前Sonnet 4的得分仅为42.2%。如下方演示所示,Claude可直接在浏览器环境中运行,实现网站导航、表格填写与任务执行的全流程自动化。
该模型在包括推理、数学、智能体编程等多项评估中超越GPT-5:
来自法律、金融、医学及STEM领域的专家证实,相较于旧版模型(包括Opus 4.1),Claude Sonnet 4.5在专业领域知识掌握与推理能力方面取得显著进步。
Anthropic称Claude Sonnet 4.5不仅是性能最强的模型,更是他们迄今最具价值观对齐性的前沿人工智能系统。借助模型能力提升与深入的安全训练,研究团队改善了Claude Sonnet 4.5的行为模式,有效减少了阿谀奉承、欺骗隐瞒、权力追逐及助长妄想思维等不良倾向。
▲自动化行为审计系统中的总体行为失当评分,数值越低越好。失当行为包括但不限于欺骗、谄媚、权力追逐、助长妄想、服从有害系统指令等。
二、推出原生VS Code扩展插件,Claude Code智能体能力升级
Claude Code也推出了多项升级:原生VS Code扩展插件、2.0版本终端界面,以及支持自主运行的检查点功能。
原生VS Code测试版扩展可以将Claude Code直接嵌入用户的集成开发环境。通过专属侧边栏面板和行内差异对比,用户可以实时查看Claude所作的代码变更。这款扩展为偏好IDE开发的用户提供了比终端更丰富、更可视化的Claude Code体验。
Claude Code的终端界面也迎来了更新,新版界面提升了状态可视化程度,并新增可搜索的指令历史功能。
针对需要构建定制化智能体流程的团队,Claude Agent SDK(原Claude Code SDK)开放了驱动Claude Code的核心工具、情境管理系统与权限框架。Claude Agent SDK新增加了对子智能体与钩子函数的SDK支持,开发者能更灵活地构建适配特定工作流的智能体。
随着Claude Code承担的任务日趋复杂,检查点功能可以让用户在保持控制权的同时,能更安心地将任务委托给Claude Code。
全新检查点系统会在每次代码变更前自动保存状态,用户只需双击Esc键或使用/rewind命令即可瞬间回退至历史版本。
回退检查点时,用户可选择恢复代码、对话记录或两者同时还原(注:检查点仅记录Claude的编辑操作,不包含用户编辑或bash命令,建议配合版本控制系统共同使用)。
三、性能提升39%,Token节省84%,Claude开发者平台情境管理功能升级
Claude开发者平台推出两项全新的情境管理功能:情境编辑与记忆工具。
当生产环境中的智能体处理日益复杂的任务并生成大量工具调用结果时,往往会耗尽有效情境窗口,这迫使开发者面临截断对话记录或牺牲性能的两难抉择。
情境编辑功能可在token容量接近上限时,自动清理情境窗口中的陈旧工具调用及结果。随着智能体持续执行任务并积累工具调用记录,该功能能在保持对话流完整性的同时移除过期内容,从而显著延长智能体的自主运行时长,该功能还能通过聚焦核心情境有效提升模型实际性能。
记忆工具则让Claude能通过基于文件的系统,在情境窗口之外存储并调用信息。Claude可在用户的基础设施中专设的记忆目录中创建、读取、更新及删除文件,这些文件将在多次对话间持续保存。
该功能让智能体能够逐步构建知识库、跨会话维持项目状态、参考历史学习成果,而无需将所有内容都塞入情境窗口。
记忆工具完全通过客户端工具调用运行,开发者可以自主管理存储后端,从而全面掌控数据存储位置与持久化方式。
Claude Sonnet 4.5凭借内置的情境感知能力,可以在全程对话中动态追踪可用token数量,通过自动清理情境中的陈旧工具结果,支撑更长时间对话;还可以将关键信息存入记忆库并跨会话传承,持续提升应答精准度。
Claude Sonnet 4.5可以处理完整代码库、分析数百份文档、维护大量工具交互历史。情境管理在此基础上确保智能体既能高效利用扩展容量,又能处理超越固定限制的工作流。
在智能体搜索内部评估中,研究团队还测试了情境管理对复杂多步骤任务的提升效果。结果显示,记忆工具与情境编辑结合使用较基线性能提升39%,单独使用情境编辑性能可以提升29%。
在100轮网络搜索测试中,情境编辑使智能体成功完成了原本会因情境耗尽而失败的任务,同时降低了84%的token消耗。
结语:Anthropic进一步完善其智能体开发生态
这次发布是Anthropic一次从底层模型到工具链的系列升级。
在模型层面,Claude Sonnet 4.5能够持续专注处理超过30小时的复杂任务,这一能力为长周期、多步骤的自动化流程带来了新万博体育:可能性。
Anthropic通过Claude Code的升级、Agent SDK的开放,以及情境管理功能的引入,构建了一个智能体开发生态系统,共同解决了智能体开发中的一个痛点:如何在有限的窗口内处理复杂的现实任务。
《免费观看一区视频A片》,《P6F3X2M7T9QJ8L1B4WZR》亚洲无码天堂在线观看视频
“人超人碰人超”
操女毛片
……
09月28日
“日本黄色网站xx”甘肃河西强对流天气致2人死亡
↓↓↓
09月28日,会说话就能造机器人?,丰满警察A级毛片,看强奸视频网站,影音先锋色噜噜狠狠网站,久久久久久精品ss
09月28日,陕西华山“风起云涌”美不胜收,亚洲综合网综合,国产精品四区,18岁禁入网站,超黄人牲交免费观看
09月28日,非洲工商会联盟秘书长:基础设施与数字化双轮驱动,中国助推非洲连接全球|世界观,亚洲一区二区爱爱视频,国产在线观看黄色视频,欧美的视频,在线观看亚洲国产一区二区
09月28日|美滞留空间站宇航员将于明年二月改乘“龙”飞船返回地球|国产日韩欧美另类亚洲第一|肏屄毛片免费看|玖玖爱视频在线播放|日韩精品无码中文字幕
09月28日|重大历史题材电视剧《太平年》在浙江横店开机|激情综合色五月丁香六月欧美|91在线视频国产激情自拍|wwwbbbb|国产黄色网址16
09月28日|外交部:奉劝美方停止利用网络安全问题污蔑抹黑中国|欧美日韩在线A片一区二区|无码国产盗摄偷窥|亚洲无码在线看网址|欧美一级a性欧美……
09月28日,标准引领,推动产品升级绿色转型(深入开展“两新”工作 着力扩大国内需求),日本午夜婬片A片视频,亚洲激情视频网,加勒比中文在线视频,97超碰自拍
09月28日,当年轻人的烦恼“穿越”到养老院,精品国产第1页,大鸡八网站,在线观看av黄网页,欧美老熟妇XXXX乱子另类
09月28日|首期粤港澳注册会计师青年高端人才培养项目结业|欧美精品爽一夜在线观看|国产无码视频对白刺激麻豆久久|自拍igao|免费麻豆AV福利片在线观看
09月28日,湛江海关首次查获液态洋垃圾 总重近20吨,可免费观看的黄色网址,欧美aaa~aaaaa片,女人爽到高潮的免费视频,国产日本免费A片观看
09月28日,交易规则禁售“神药”,二手平台为何禁而不止,国产一级操逼视频播放,天天碰人人操,99久久综合99久久综合网站,欧美一级日逼片
09月28日,“现代的回望:非洲艺术展”启幕,日韩乱伦国岛中文,黄片 毛片 a片,国产嘛豆欧美国际黄色视频,毛片全网站
09月28日|一季度中国财政收入60877亿元|可以直接观看免费无码AV网站|插 射 c 免费视频 在线|91丝袜福利一区在线|欧美熟妇精品一级C片
09月28日|降雨增多 云南野生菌进入交易旺季|一本久道无码DVD久道|AAA无码视频在线观看|欧美日韩乱国产|又湿又黄的黄色小视频免费网站
09月28日|云南龙陵:中缅边境山乡的热闹火把节|国产嫖娼妓院视频网站|三级片A片网站|手机在线观看黄片视频|九九自拍
李行亮热气球下求婚麦琳,闵熙珍说一切都靠自己|比往年同期低5℃ 英国气温降至零下|国产美自拍视频在线播放|黄色网站欧美性爱视频|日韩欧美性爱精品|91九九精品
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺