银河519657

电脑版下载

86257
8

银河519657截图J8B1X4R6M2L9T5Q3W7PZ

内容详情

银河519657

就在刚刚，Anthropic 宣布推出 Claude Sonnet 4.5。官方将其定位为“全球最强的代码模型”“构建复杂智能体的最强模型”以及“最会用电脑的模型”，并称其在推理与数学上也有显著提升。新模型同步带来一组面向开发者与企业使用的能力升级：包括 Claude Code 的 VS Code 原生扩展、终端 2.0 与一键回滚的 Checkpoints，面向 API 的上下文编辑（Context Editing）与记忆工具（Memory Tool），以及用于自建智能体的 Claude Agent SDK。

从 7 小时到 30 小时：Claude 的长跑能力

最受瞩目的变化是持久执行能力。Anthropic 在客户测试中观察到，Sonnet 4.5 在复杂多步骤任务中可以连续专注运行超过 30 小时，远超前代约 7 小时的表现。这并不意味着所有任务都能达到相同时长，但足以说明模型在“耐力”上的跨越。

在权威基准测试中：

SWE-bench Verified：在“标准算力”下准确率为 77.2%，更高测试条件下最高可达 82.0%。

OSWorld（电脑使用能力）：取得 61.4% 的成绩，领先所有已知模型；而四个月前 Sonnet 4 的分数为 42.2%。

数学与推理：在 AIME、MMMLU 等多类评测上均有明显提升，系统卡披露了具体运行设置与多语言评测细节。

这些数据共同指向一个结论：Sonnet 4.5 在解决现实任务、操作复杂系统方面比以往更稳健。

不止能写代码，Claude 正在学会托管整个工程

这次更新不仅是模型能力的提升，更是开发工具链的一次升级。

Claude Code：新增 VS Code 扩展（Beta），提供可视化改动与内联 diff；终端 2.0 支持历史检索，新增 Checkpoints 功能，允许在大改动前保存进度、随时回滚。Sonnet 4.5 也成为 Claude Code 的默认模型。

Claude Agent SDK：开放内部的“智能体底座”，包括上下文管理、权限/交互设计、子智能体协作等机制，方便企业定制自己的专用智能体。

上下文管理与记忆：

1. Context Editing 能在接近 token 上限时自动清理陈旧信息，保留关键上下文。

2. Memory Tool 允许在对话外存储和复用知识。官方数据显示，两者结合可让复杂检索任务成功率提升最高 39%，并在长时 Web 搜索中将 token 消耗减少 84%。

应用层体验：Claude 网页和桌面端新增代码执行与文件生成功能，Chrome 扩展也面向 Max 用户开放。

换句话说，Claude 4.5 不只是“更聪明的助手”，更像一个能全天候值守的开发伙伴。

安全边界更严，价格却没涨

Sonnet 4.5 以 ASL-3 安全级别发布。Anthropic 强调，它在防止逢迎、欺骗、提示注入等方面表现更稳健，并配有针对 CBRN（化生放核）风险的内容分类器，以降低滥用可能。

定价维持不变：

API：输入 $3 / 百万 token，输出 $15 / 百万 token。

模型名：claude-sonnet-4-5-20250929（别名 claude-sonnet-4-5）。

渠道：已上线 AWS Bedrock 与 Google Cloud Vertex AI。

此外，Anthropic 还推出了为期五天的实验项目 “Imagine with Claude”，面向 Max 用户展示 Sonnet 4.5 如何从零生成应用。

夜班战士与干将智囊：开发者怎么用 Claude 4.5

在早期客户的实验中，Sonnet 4.5 被用于从零构建一个聊天应用：模型不仅能拉起前端与后端，还能自行调试数据库接口，连续工作超过一天一夜。这种“长跑式执行”让开发者直呼“就像有了一个夜班战士”。

在实际使用中，开发者们发现 Sonnet 4.5 与更强大的 Opus 形成了互补：前者更适合日常落地和持续推进，后者则用于解决最复杂的问题。有人戏称，“Claude 已经变成双保险：Opus 担当‘智囊’，Sonnet 则是‘干将’。”

当然，现实也提醒我们保持冷静。一些研究指出，即便是最强的生成模型，自动生成的代码仍可能隐藏缺陷或带来安全隐患。因此，Claude 再强，也依然需要人类开发者的监督和测试。

从助手到工友：耐久执行的 Claude 时代

Claude Sonnet 4.5 的关键词是 “耐久执行”。它不仅能做事，还能把事坚持做下去，并配套一整套工具链，把开发流程托管得更稳。这意味着 AI 正在从“对话助手”逐渐走向“可靠工友”，从短平快的输出迈向长期、系统化的执行。

而这一切，也让人联想到不久前 Anthropic 联合创始人曾透露的那句话：“在公司内部，工程师们已经不再写代码了。” 当时不少人半信半疑，觉得这更像是一种宣传话术。可如今，当我们看到一个能连续工作 30 小时、能自己拉起网站、写前后端、调试接口的 Claude 4.5 真正发布出来时，那句“工程师已不写代码”的未来图景，似乎真的有了几分可信。

信息来源：

Anthropic 官方新闻稿：Introducing Claude Sonnet 4.5

Reuters（路透社）： https://www.reuters.com/business/retail-consumer/anthropic-launches-claude-45-touts-better-abilities-targets-business-customers-2025-09-29/

点个“爱心”，再走吧