智东西编译 王涵编辑 漠影
智东西9月30日消息,今天,Claude Sonnet 4.5正式发布,该模型能持续专注处理复杂多步骤任务超过30小时,在编程能力、计算机操作能力榜单中占据榜首,在推理、数学、智能体编程等多方面超越GPT-5。
Claude Sonnet 4.5计价标准与Claude Sonnet 4保持一致,即每百万tokens输入3美元(约合人民币21.4元),输出15美元(约合人民币106.8元)。
此外,Claude Code新增了检查点功能,用户可保存进度并支持即时回滚,Anthropic更新了其终端界面,发布了原生VS Code扩展插件。
Anthropic还向开发者开放了Claude Code的核心组件——Claude Agent SDK,用户能直接运用支撑其产品的底层架构,进行二次开发。
Claude API也新增了情境编辑与记忆工具,能够助力智能体持续处理更复杂的任务。在Claude应用中,代码执行与文件生成(电子表格/幻灯片/文档)已无缝融入对话流程。
以上功能今日已在Claude开发者平台、Amazon Bedrock及Google Cloud Vertex AI开放公测。
一、能处理超30小时的任务,Claude Sonnet 4.5超越GPT-5
在衡量真实编程能力的SWE-bench Verified评测中,Claude Sonnet 4.5稳居榜首。实际测试表明,该模型能持续专注处理复杂多步骤任务超过30小时。
在测试AI模型真实计算机操作能力的OSWorld基准评估中,Claude Sonnet 4.5以61.4%的得分率获得第一,而四个月前Sonnet 4的得分仅为42.2%。如下方演示所示,Claude可直接在浏览器环境中运行,实现网站导航、表格填写与任务执行的全流程自动化。
该模型在包括推理、数学、智能体编程等多项评估中超越GPT-5:
来自法律、金融、医学及STEM领域的专家证实,相较于旧版模型(包括Opus 4.1),Claude Sonnet 4.5在专业领域知识掌握与推理能力方面取得显著进步。
Anthropic称Claude Sonnet 4.5不仅是性能最强的模型,更是他们迄今最具价值观对齐性的前沿人工智能系统。借助模型能力提升与深入的安全训练,研究团队改善了Claude Sonnet 4.5的行为模式,有效减少了阿谀奉承、欺骗隐瞒、权力追逐及助长妄想思维等不良倾向。
▲自动化行为审计系统中的总体行为失当评分,数值越低越好。失当行为包括但不限于欺骗、谄媚、权力追逐、助长妄想、服从有害系统指令等。
二、推出原生VS Code扩展插件,Claude Code智能体能力升级
Claude Code也推出了多项升级:原生VS Code扩展插件、2.0版本终端界面,以及支持自主运行的检查点功能。
原生VS Code测试版扩展可以将Claude Code直接嵌入用户的集成开发环境。通过专属侧边栏面板和行内差异对比,用户可以实时查看Claude所作的代码变更。这款扩展为偏好IDE开发的用户提供了比终端更丰富、更可视化的Claude Code体验。
Claude Code的终端界面也迎来了更新,新版界面提升了状态可视化程度,并新增可搜索的指令历史功能。
针对需要构建定制化智能体流程的团队,Claude Agent SDK(原Claude Code SDK)开放了驱动Claude Code的核心工具、情境管理系统与权限框架。Claude Agent SDK新增加了对子智能体与钩子函数的SDK支持,开发者能更灵活地构建适配特定工作流的智能体。
随着Claude Code承担的任务日趋复杂,检查点功能可以让用户在保持控制权的同时,能更安心地将任务委托给Claude Code。
全新检查点系统会在每次代码变更前自动保存状态,用户只需双击Esc键或使用/rewind命令即可瞬间回退至历史版本。
回退检查点时,用户可选择恢复代码、对话记录或两者同时还原(注:检查点仅记录Claude的编辑操作,不包含用户编辑或bash命令,建议配合版本控制系统共同使用)。
三、性能提升39%,Token节省84%,Claude开发者平台情境管理功能升级
Claude开发者平台推出两项全新的情境管理功能:情境编辑与记忆工具。
当生产环境中的智能体处理日益复杂的任务并生成大量工具调用结果时,往往会耗尽有效情境窗口,这迫使开发者面临截断对话记录或牺牲性能的两难抉择。
情境编辑功能可在token容量接近上限时,自动清理情境窗口中的陈旧工具调用及结果。随着智能体持续执行任务并积累工具调用记录,该功能能在保持对话流完整性的同时移除过期内容,从而显著延长智能体的自主运行时长,该功能还能通过聚焦核心情境有效提升模型实际性能。
记忆工具则让Claude能通过基于文件的系统,在情境窗口之外存储并调用信息。Claude可在用户的基础设施中专设的记忆目录中创建、读取、更新及删除文件,这些文件将在多次对话间持续保存。
该功能让智能体能够逐步构建知识库、跨会话维持项目状态、参考历史学习成果,而无需将所有内容都塞入情境窗口。
记忆工具完全通过客户端工具调用运行,开发者可以自主管理存储后端,从而全面掌控数据存储位置与持久化方式。
Claude Sonnet 4.5凭借内置的情境感知能力,可以在全程对话中动态追踪可用token数量,通过自动清理情境中的陈旧工具结果,支撑更长时间对话;还可以将关键信息存入记忆库并跨会话传承,持续提升应答精准度。
Claude Sonnet 4.5可以处理完整代码库、分析数百份文档、维护大量工具交互历史。情境管理在此基础上确保智能体既能高效利用扩展容量,又能处理超越固定限制的工作流。
在智能体搜索内部评估中,研究团队还测试了情境管理对复杂多步骤任务的提升效果。结果显示,记忆工具与情境编辑结合使用较基线性能提升39%,单独使用情境编辑性能可以提升29%。
在100轮网络搜索测试中,情境编辑使智能体成功完成了原本会因情境耗尽而失败的任务,同时降低了84%的token消耗。
结语:Anthropic进一步完善其智能体开发生态
这次发布是Anthropic一次从底层模型到工具链的系列升级。
在模型层面,Claude Sonnet 4.5能够持续专注处理超过30小时的复杂任务,这一能力为长周期、多步骤的自动化流程带来了新万博体育:可能性。
Anthropic通过Claude Code的升级、Agent SDK的开放,以及情境管理功能的引入,构建了一个智能体开发生态系统,共同解决了智能体开发中的一个痛点:如何在有限的窗口内处理复杂的现实任务。
《贝博在线买球》,《P6F3X2M7T9QJ8L1B4WZR》威尼斯人轮盘怎么做
“亚洲真人官网”
必赢亚洲网页版登录
……
09月24日
“bwin买球”凶劫601航班
↓↓↓
09月24日,世界银行批准7.5亿美元贷款 助推菲律宾数字化转型,捕鱼星力,体育彩票正版app,精版专刊,开胜棋牌官网版
09月24日,【理响中国·实践新论】短文|告别“8亿件衬衫换1架飞机”,中国凭什么,俄罗斯贵宾会,m6米乐在线登录入口,炸金花棋牌缘,易博科技彩票
09月24日,吉林市冰雪经济逐步升温,pt游戏平台,冠宇国际真人游戏,真人古装国际象棋比赛,巴黎人体育
09月24日|千年潞绸:岁月长河“织”繁华|环亚手机娱乐官网|08vip国际|猎人国际真人cs 昌平|2020年欧洲杯名单
09月24日|国家强则体育强 总书记强调弘扬中华体育精神|最新平台送体验金|凯时kb88勒沃库森|澳门真人银河国际|日博体育网站
09月24日|广州市一轿车与行人和电动自行车发生碰撞致11伤 肇事司机已被控制|伟德在线登录|爱游戏外围官网|365bet官网注册|二八杠哪个平台有……
09月24日,“2024石榴籽文化季”在北京开幕,怎么在网络上赌博,AG平台是怎么追杀的,澳门威斯尼斯人14460,澳门游戏官网真人
09月24日,浙江经济观察:小微企业需要什么样的营商环境?,白鲸体育app下载,BET9哪里下载,新利18体育登录官网,凯发娱乐注册页面在哪
09月24日|(新春见闻)北京:天坛中轴市集吸引市民|注册体验金白菜网站|e乐彩手机在线登录|手机上哪款斗地主能赢钱|头头官方app下载
09月24日,王永庆谈歼-35与歼-35A飞机有何不同,网络赌坊网址,大富豪国际彩票官网,777现金红包老虎机,yabo22vip网址
09月24日,88%在华日本企业视中国为重要市场,365bet体育,5173账号交易平台,新宝官网下载,捕鱼大亨app下载
09月24日,辽宁丹东:90后开设特色旅拍店成新晋“网红”店,私网AG,亚美AG娱乐app下载,bob综合最新下载,幸运快三正规平台
09月24日|【新春纪事】新成昆铁路动检列车成“年货专列” 丰富川滇两地年味|大发888官方经典版|双赢棋牌app|伟德网页版下载|二八杠怎么下柱能赢钱
09月24日|天津:百年金融街上演时装秀|365亚洲版网址|买球的app推荐|看四张牌抢庄牛牛棋牌|365滚球免费投注优惠
09月24日|西藏自治区开通往返北京第三个城市航线|有体验金的彩票平台|九五至尊快速开户|ayx快速开户|必赢亚洲官方登录入口
外籍之人,淘宝回应大量用户被免单|“天命人”山西古迹力战妖魔 “移动战神”密织5G网络助力游客畅游|AG亚游登录器|亚洲威尼斯人自拍|牛派乞人报|苹果app买球
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺