猫眼电影
猫眼电影记者 孔繁东 报道P6F3X2M7T9QJ8L1B4WZR
智东西编译 王涵编辑 漠影
智东西9月30日消息,今天,Claude Sonnet 4.5正式发布,该模型能持续专注处理复杂多步骤任务超过30小时,在编程能力、计算机操作能力榜单中占据榜首,在推理、数学、智能体编程等多方面超越GPT-5。
Claude Sonnet 4.5计价标准与Claude Sonnet 4保持一致,即每百万tokens输入3美元(约合人民币21.4元),输出15美元(约合人民币106.8元)。
此外,Claude Code新增了检查点功能,用户可保存进度并支持即时回滚,Anthropic更新了其终端界面,发布了原生VS Code扩展插件。
Anthropic还向开发者开放了Claude Code的核心组件——Claude Agent SDK,用户能直接运用支撑其产品的底层架构,进行二次开发。
Claude API也新增了情境编辑与记忆工具,能够助力智能体持续处理更复杂的任务。在Claude应用中,代码执行与文件生成(电子表格/幻灯片/文档)已无缝融入对话流程。
以上功能今日已在Claude开发者平台、Amazon Bedrock及Google Cloud Vertex AI开放公测。
一、能处理超30小时的任务,Claude Sonnet 4.5超越GPT-5
在衡量真实编程能力的SWE-bench Verified评测中,Claude Sonnet 4.5稳居榜首。实际测试表明,该模型能持续专注处理复杂多步骤任务超过30小时。
在测试AI模型真实计算机操作能力的OSWorld基准评估中,Claude Sonnet 4.5以61.4%的得分率获得第一,而四个月前Sonnet 4的得分仅为42.2%。如下方演示所示,Claude可直接在浏览器环境中运行,实现网站导航、表格填写与任务执行的全流程自动化。
该模型在包括推理、数学、智能体编程等多项评估中超越GPT-5:
来自法律、金融、医学及STEM领域的专家证实,相较于旧版模型(包括Opus 4.1),Claude Sonnet 4.5在专业领域知识掌握与推理能力方面取得显著进步。
Anthropic称Claude Sonnet 4.5不仅是性能最强的模型,更是他们迄今最具价值观对齐性的前沿人工智能系统。借助模型能力提升与深入的安全训练,研究团队改善了Claude Sonnet 4.5的行为模式,有效减少了阿谀奉承、欺骗隐瞒、权力追逐及助长妄想思维等不良倾向。
▲自动化行为审计系统中的总体行为失当评分,数值越低越好。失当行为包括但不限于欺骗、谄媚、权力追逐、助长妄想、服从有害系统指令等。
二、推出原生VS Code扩展插件,Claude Code智能体能力升级
Claude Code也推出了多项升级:原生VS Code扩展插件、2.0版本终端界面,以及支持自主运行的检查点功能。
原生VS Code测试版扩展可以将Claude Code直接嵌入用户的集成开发环境。通过专属侧边栏面板和行内差异对比,用户可以实时查看Claude所作的代码变更。这款扩展为偏好IDE开发的用户提供了比终端更丰富、更可视化的Claude Code体验。
Claude Code的终端界面也迎来了更新,新版界面提升了状态可视化程度,并新增可搜索的指令历史功能。
针对需要构建定制化智能体流程的团队,Claude Agent SDK(原Claude Code SDK)开放了驱动Claude Code的核心工具、情境管理系统与权限框架。Claude Agent SDK新增加了对子智能体与钩子函数的SDK支持,开发者能更灵活地构建适配特定工作流的智能体。
随着Claude Code承担的任务日趋复杂,检查点功能可以让用户在保持控制权的同时,能更安心地将任务委托给Claude Code。
全新检查点系统会在每次代码变更前自动保存状态,用户只需双击Esc键或使用/rewind命令即可瞬间回退至历史版本。
回退检查点时,用户可选择恢复代码、对话记录或两者同时还原(注:检查点仅记录Claude的编辑操作,不包含用户编辑或bash命令,建议配合版本控制系统共同使用)。
三、性能提升39%,Token节省84%,Claude开发者平台情境管理功能升级
Claude开发者平台推出两项全新的情境管理功能:情境编辑与记忆工具。
当生产环境中的智能体处理日益复杂的任务并生成大量工具调用结果时,往往会耗尽有效情境窗口,这迫使开发者面临截断对话记录或牺牲性能的两难抉择。
情境编辑功能可在token容量接近上限时,自动清理情境窗口中的陈旧工具调用及结果。随着智能体持续执行任务并积累工具调用记录,该功能能在保持对话流完整性的同时移除过期内容,从而显著延长智能体的自主运行时长,该功能还能通过聚焦核心情境有效提升模型实际性能。
记忆工具则让Claude能通过基于文件的系统,在情境窗口之外存储并调用信息。Claude可在用户的基础设施中专设的记忆目录中创建、读取、更新及删除文件,这些文件将在多次对话间持续保存。
该功能让智能体能够逐步构建知识库、跨会话维持项目状态、参考历史学习成果,而无需将所有内容都塞入情境窗口。
记忆工具完全通过客户端工具调用运行,开发者可以自主管理存储后端,从而全面掌控数据存储位置与持久化方式。
Claude Sonnet 4.5凭借内置的情境感知能力,可以在全程对话中动态追踪可用token数量,通过自动清理情境中的陈旧工具结果,支撑更长时间对话;还可以将关键信息存入记忆库并跨会话传承,持续提升应答精准度。
Claude Sonnet 4.5可以处理完整代码库、分析数百份文档、维护大量工具交互历史。情境管理在此基础上确保智能体既能高效利用扩展容量,又能处理超越固定限制的工作流。
在智能体搜索内部评估中,研究团队还测试了情境管理对复杂多步骤任务的提升效果。结果显示,记忆工具与情境编辑结合使用较基线性能提升39%,单独使用情境编辑性能可以提升29%。
在100轮网络搜索测试中,情境编辑使智能体成功完成了原本会因情境耗尽而失败的任务,同时降低了84%的token消耗。
结语:Anthropic进一步完善其智能体开发生态
这次发布是Anthropic一次从底层模型到工具链的系列升级。
在模型层面,Claude Sonnet 4.5能够持续专注处理超过30小时的复杂任务,这一能力为长周期、多步骤的自动化流程带来了新万博体育:可能性。
Anthropic通过Claude Code的升级、Agent SDK的开放,以及情境管理功能的引入,构建了一个智能体开发生态系统,共同解决了智能体开发中的一个痛点:如何在有限的窗口内处理复杂的现实任务。
??时事1:男男肠道灌水失禁play
??09月24日,司法部部长贺荣率团应邀访问越南,
2、要牢记先救人,后救物的原则。老人和小孩先撤离,不要急于抢出物品,以免延误时间,造成人员伤害。
,动漫人物打扎克免费观看全集。??09月24日,美国学者:创新活力十足 中国经济增长前景“非常乐观”,
“哈哈……”几个头领大笑,而后调转凶兽的头,扬长而去。
,国产➕黄➕无码➕瑜伽pp,卡尔蜜被扒开腿坐做❌,黑土脸红翻白眼流眼泪流口水。??时事2:芙宁娜裸体被❌涩涩的小说
??09月24日,德国索林根市持刀袭击案:不排除恐怖主义动机,
总结近三年的工作,存在一些问题和不足,一是对专业技术知识学习还不够深入,今后工作中应继续加强自身学习,不断提高业务技能水平,提高商业化业务拓展、业务创新及风险管理控本事。二是对一些逾期项目虽然进行了期限重组,延迟了风险,而未完全实质性化解风险,三是系统的政治学习还不够深入,需要进一步加强政治理论的学习,尤其要深入贯彻学习新万博体育:总书记一系列重要讲话精神,提高政治素质。四是始终坚持党的优良作风的自觉性不够,距离时时、事事、处处践行“三严三实”还有一些差距。以上不足。需要在以后的工作中及时加以改善。
,丰田露娜被❌到爽流白浆,扶她成人h动漫视频,黑蝴蝶熟女AV导航。??09月24日,陕西佛坪:大熊猫秀“花样滑雪”才艺,
那种气息太可怕了,震的另外三位族老都大口喷血,踉跄倒退,让他们心中骇然,这并非针对他们的,竟也如此。
,云缨同人18❌3D同人动漫,芙宁娜爆乳❌自慰小说,午夜福利gif动态XXOO视频。??时事3:程潇的胸好大摸起来好爽
??09月24日,遇袭半个月后 韩最大在野党党首李在明今起重返党务,
独角兽长嘶,它们的独角都亮了起来,全都飞射出光束,击向前方,由符文组合形成,不细看的话还以为是闪电呢。
,男生露出🐔🐔给别人看视频,白丝自慰呻吟白浆AV天美传媒,(少年骇客漫画18+)。??09月24日,转融通数据全是虚拟的?中证金融驳斥,
今天相聚_总部大楼,庆贺品牌“贝妮”创立14周年庆,与朋友们分享我们的喜悦。首先我要向莅临的各位领导、各位朋友、各位合作伙伴表示热烈的欢迎和衷心的感谢!
,格蕾修被❌吸乳羞羞网站,16美女隐私㊙️照片,a✔8天堂最新。??时事4:中国学生XXXX
??09月24日,外交部:一个中国原则是国际关系基本准则,中国政府从不拿原则做交易,
雷族的人脸色难看到了极点,堂堂一族之主,号令四方,掌控无垠大地,居然被俘。
,被章鱼触手❌到高潮网站,麻豆久久久久久,原神涩涩同人18❌网站魈。??09月24日,南方“小土豆”勇闯哈尔滨 请收下这份安全健康提醒,
大家新年好!
,欧美另类Z0Z❌❌X974,黑人70厘米全进去了,俄罗斯女人╳69。责编:武潜
审核:张社年
责编:戈林