新闻速递AG九游国际湖南凤凰古城迎客流高峰水上舞蹈"演绎《边城》故事3.75."31热点聚焦

首页 >新闻 >社会新闻

LeCun团队开源首个代码世界模型：能生成代码还能自测自修

2025-09-20 18:34:40

来源：

猫眼电影

作者：

帕斯泽克

手机查看

　　猫眼电影记者江波报道P6F3X2M7T9QJ8L1B4WZR

衡宇发自凹非寺量子位 | 公众号 QbitAI

刚刚，Meta FAIR推出了代码世界模型！

CWM（Code World Model），一个参数量为32B、上下文大小达131k token的密集语言模型，专为代码生成和推理打造的研究模型

这是全球首个将世界模型系统性引入代码生成的语言模型。

与现有代码大模型相比，CWM最与众不同的一点在于，它不仅能生成代码、理解语义。

更关键的是，它“懂得”代码如何执行，能模拟代码运行过程中变量的状态变化与环境反馈，从而推动代码理解、调试乃至规划的整体能力提升。

也就是说，它具备接近人类程序员的思考能力。

在多个代码与推理任务上，CWM均有出色表现，譬如其在SWE-bench Verified得分65.8%，领先所有开源同规模模型，已接近GPT-4级别。

更重要的是，Meta FAIR这次开源了模型代码、训练细节以及多个阶段的权重检查点，诚意十足。

有人给LeCun留言问：

“你不是一直认为语言模型只是AI道路上的一个支线（LLMs are an off ramp），怎么又推出了以语言模型为基础的世界模型？”

LeCun轻松回复称：

是的，不过咱现在讲的是编程，不是ASI哟～让大模型“懂动态执行”

CWM的诞生，直击当前大模型在代码生成中的一大痛点：

尽管现有大模型已经具备写代码的能力，但代码执行效果并不稳定，生成内容难以调试、不可执行，甚至存在隐藏逻辑错误。

FAIR团队认为，其根源在于大模型只是把代码当作文本来预测。

它不理解代码会如何运行，对变量状态的变化、函数调用的副作用一知半解（甚至一无所知）。

在FAIR团队看来：

如果希望模型像程序员一样思考，就必须教会它代码执行的“世界状态”变化。

因此，CWM首次在训练过程中引入代码世界建模（code world modeling）的概念，明确让模型学习“代码运行过程中，程序状态如何一步步演变”。

这意味着，CWM的理解维度，从静态文本跃迁到了动态执行。

Meta FAIR专攻AI与代码生成的资深研究科学家，也是CWM的资深核心贡献者Gabriel Synnaeve在上分享了CWM追踪执行计算”strawberry”中”r”个数的代码的例子：

你可以把它想象成一个可以设置为任何初始帧状态的神经‘pdb’，推理可以作为工具在标记空间中查询。

相较于传统代码大模型生成token接token的静态预测，CWM在三大能力有所升级——

第一，代码执行模拟。

CWM可以逐行模拟代码执行过程，预测每一行代码如何影响变量状态，甚至提前判断出执行中的潜在错误。

这种能力为构建“神经调试器”提供了可能。

在CWM的推理过程中，变量状态可以随代码运行不断更新。

它甚至可以模拟终止条件、循环展开、边界情况，从而更精准地理解程序逻辑。

第二，自我调试与修复。

不止会写代码，CWM还能自测、修错。

它能够在生成代码后自动构造测试用例，并在发现代码失败后用多种修改路径来尝试自我修复。

整个流程模拟了人类程序员常见的开发闭环：写→测试→改→再测。

第三，推理与规划能力。

面对复杂问题时，CWM还能进行推理与规划。

例如，在编程竞赛或数学任务中，它可以根据问题描述分析步骤、规划函数结构，再结合执行预测逐步生成并验证代码，展现出多轮逻辑推理能力。

CWM模型信息：参数、架构、性能一次看全

CWM的模型架构采用了64层的decoder-only Transformer，参数规模为32B。

它支持131k tokens的长上下文输入——这大幅拓展了复杂项目、多文件代码、文档上下文的处理能力。

相对应的，Attention结构采用了局部+全局交替机制，兼顾效率与上下文覆盖。

FAIR提供了以下3个checkpoints，供研究人员使用：

CWM预训练模型：例如用于新的后训练方法。CWM SFT：例如用于强化学习研究。CWM：例如用于推理时间扩展。

在与多个一线模型的评测对比上，CWM成绩如下：

SWE-bench Verified得分65.8%，领先所有开源同规模模型，接近GPT-4级别；LiveCodeBench v5得分68.6%，展示高复杂度编程任务上的准确性；Math-500得分96.6%，AIME 2024模拟题达76.0%；Terminal-Bench得分26.3%，高于Gemini 2.5 Pro；Aider Polyglot（多语言代码生成）得分35.1%，与Qwen3-32B相近。

综合来看，CWM在理解、生成、验证、修复等多个环节上，都有不俗表现。

FAIR团队称CWM验证了“代码世界建模”对提升推理与代码生成的价值。

Gabriel Synnaeve表示：

我对我的CodeGen团队所做的工作感到无比自豪！这个团队由博士生和经验丰富的资深员工组成。我们所有人都齐心协力，全力以赴，绝不将任何问题归咎于他人。整个Meta AI社区都为此共同努力。非常感谢整个领导层始终如一的支持。

三阶段训练流程，与数据集构建

CWM分三阶段进行训练——

第一阶段，预训练阶段（Pretrain）。

在这个阶段，CWM使用了8T tokens的数据进行通用语言与代码建模训练。

其中代码占比约30%，上下文长度为8k token。

第二阶段，中期训练阶段（Mid-train），这也是CWM最具特色的一步。

在这个阶段，模型引入了5T tokens的世界建模数据，用于训练模型识别“代码运行过程中，程序状态如何变化”。

这部分核心数据类型包括：

Python执行轨迹数据来自数千万函数调用与代码提交，记录每一行代码执行时变量的值如何变化；ForagerAgent数据模型驱动的智能体在真实Docker环境中运行代码，修复Bug，执行任务，生成真实交互轨迹（共300万条）；自然语言描述版本将执行过程转化为自然语言，便于泛化迁移。

也是在这一阶段，CWM的上下文能力扩展到了131k token，支撑对大型项目和代码流程的完整建模。

第三阶段，后训练阶段（SFT+多任务RL）。

最后，CWM进行了100B tokens的监督微调训练（SFT）和172B tokens的多任务强化学习（RL）训练。

训练任务覆盖了真实软件工程任务（如SWE-bench）、编程竞赛问题（CodeContests等）、数学推理题目（如AIME模拟题、MathQA）。

在这一阶段，FAIR团队使用异步RL机制、分布式环境以及自举方法，提升了模型在多环境、多任务间的泛化能力。

基础设施方面，CWM训练使用了FlashAttention-3、FSDP+TP并行策略，并采用fp8低精度加速。

Meta FAIR强调其训练过程遵循了Frontier AI Framework中的前沿AI安全框架。

结果表明，CWM不会对网络安全、化学、生物等高敏感领域构成滥用风险。

此外需要注意的一点是，当前CWM的世界建模数据仅支持Python语言，尚未覆盖C++、Java等主流语言或符号执行任务。

不过，研究团队表示未来将探索多语言扩展，有望形成自动化编程助手的通用框架。

Two More Things

BTW，如果你想使用使用CWM，有两点需要特别注意：

第一点，CWM主要面向代码理解与复杂推理研究，没有做RLHF。

因此，它并不适合对话任务或作为Chatbot使用。

第二点，CWM明确定位是“研究用”，即仅供非商业研究使用。

Anyway，总之，CWM团队选择了模型开源、数据透明、训练复现全开放。借此也向研究社区抛出一个重要问题：

如果大模型能理解世界，它能成为更好的程序员吗？

??时事1：he乐8

??09月20日,千余精品菊花汇聚南京争奇斗艳,

　　据了解，我国每年大约有1.6万名中小学生非正常死亡，中小学生因安全事故、食物中毒、溺水、自杀等死亡的，平均每天有40多人，也就是说每天将有一个班的学生在“消失”。

,沙巴投注登录。

??09月20日,【国际漫评】日式“斯德哥尔摩综合征”,

　　经他一说，所有人都一怔。

,靠谱的德州app,356手机版,AG贵宾。

??时事2：伟德体育1946手机版下载

??09月20日,耶鲁大学教授约翰·格瑞姆：看到新疆现代化，感受到中国开放姿态共赢胸怀,

　　紫山族惊悚，整座王城都离地而起，如黑色山岭般的城墙、宏伟的宫殿等全部龟裂，满城人口全部落入那血色大口中。

,龙8国际登陆,德赢体育vwin,财神捕鱼试完。

??09月20日,柬埔寨举办首届数字政府论坛推动技术研发创新,

　　为了给石昊洗礼，村中进行了各种准备，老药、毒虫、泉水、古鼎，连熬炼真血的木材都选了最好的黑蛟木。

,双彩网3d,可靠的体育平台有哪些,盈鑫国际。

??时事3：鸭脖体育下载地址

??09月20日,南京禄口国际机场国际航线持续恢复增长,

　　千里之行始于足下，实施绿色消费，保护生态环境，建设美好家园，要从我做起，从小事做起：不乱扔垃圾、不浪费粮食，最大限度地节约能源，节约用纸，拒绝使用一次性的“白色污染物”，多栽树种草，保护野生动植物资源……那么，我们头顶上的天空会更蔚蓝，身边的河水会更清澈，周围的大山会更翠绿……

,打牌游戏,至尊炸金花安卓版,电子游戏的。

??09月20日,【中新画报】请查收这份中国人的“春节实践指南”,

　　“我也去，大鹏、小青、紫云你们在村中等我，要乖哦。”小不点石昊也要跟随。

,云顶娱乐网页投注,云顶娱乐登录界面在哪,银河好玩吗?。

??时事4：od体育官网登陆

??09月20日,自信、友好、国际范！中国运动员告诉世界“何为中国”,

　　从某种意义上说：学习能够统一思想，凝聚人心;学习可以明辨是非，同时学习可以提高修养，净化人格。只有学习理论，掌握政策，我们在实际工作中，才能知道哪些话能说，哪些话不能说;才有知道哪些事情该干，哪些事情不该干，才能知道怎样把事情办得更好，更切合实际、更符合群众愿望。有了较好的政治理论修养和政策水平，在实际工作中，才能把道理说清楚，让群众听明白，把党的意志变成群众的行动。相反，如果自己政治理论水平不高，政策掌握模棱两可，讲话三两句，道理说不清，群众不理解;结果工作也就不可能落到实处，弄不好群众还会有意见，有些干部本来是想为群众办好事，但群众反而不领情，不配合，有些干部在处理一些问题的时候，本是出于好意，但群众反而意见大了;有的干部在处理各类矛盾纠纷时，说不了几句话就发脾气，不做耐心的思想工作;有的干部群众向他反映问题，却背而不见，怕与群众见面，怕接触矛盾，不知道问题如何处理，束手无策。听到这些问题，都是与我们少数干部政治理论修养不够，政策水平不高有很大的关系，我们不要求大家什么都精通，什么都掌握，但我们不能什么都不懂，什么都模模糊糊。因此我希望大家能加强学习，全面提高自身素质，学会用先进的理念破解发展中的难题，进一步提高科学决策的能力和实际操作水平。

,博狗888平台,威尼斯人官网,波音app官网。

??09月20日,国际商事仲裁理事会大会首次在香港揭幕,

　　“杀了你们，掳走你们的妇孺，就说我们两村合并归一了，我族祭灵若是突破了，还有谁敢多说什么。”狈村狩猎队伍的头领狈山冷笑道。

,k1体育棋牌链接,澳门威泥官方,线上娱乐登录。

【江南华南强降水显著减弱贵州广西等地多阴雨对流天气】

【为什么加强相关两用物项对美出口管制？商务部回应】

责编：叶敬忠

审核：阮树强

责编：李逵

新万博体育

LeCun团队开源首个代码世界模型：能生成代码还能自测自修