(6秒轻松理解)新天地官网安卓版v73.51.97.27.52.5.35-2265安卓网

首页 >新闻 >社会新闻

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

2025-10-17 21:54:24

来源：

猫眼电影

作者：

慕容军

手机查看

　　猫眼电影记者焦健报道Q8X2R7L1T4J5M9B6W3

智东西编译程茜编辑李水青

智东西10月15日消息，10月14日，小米和北京大学联合署名的论文发表于arXiv，曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。

通讯作者中的罗福莉是95后，她本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。随后罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO，并推动了AliceMind的开源工作，2022年入职DeepSeek，参与了MoE大模型DeepSeek-V2的研发。去年年底，小米被曝以千万年薪挖角DeepSeek-V2核心开发者之一罗福莉，使其冲上热搜，但双方至今都未公开声明是否正式入职小米。

▲DeepSeek“天才少女”罗福莉（图源：罗福莉个人公众号）

这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay（R3）。实验结果证明，R3的整体性能优于GRPO、TIS这类强化学习领域提升模型性能的优化算法，且引入R3的所有组合方法全过程无崩盘，训练过程中训练-推理KL散度等始终较低，在不影响训练速度的情况下，使得极端token比例减少一个量级。

当下，强化学习（RL）已成为提升大语言模型能力的关键方法。然而，在MoE模型中，路由机制往往会引入不稳定性，甚至导致强化学习训练崩溃，但现有的引入重要性采样机制等并不能提升训练稳定性。不同于此前采取诸如丢弃差异较大的数据之类的变通方法，这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。

论文地址：https://arxiv.org/pdf/2510.11370

一、破解强化学习崩溃的关键方法，小米团队提出R3

强化学习已成为大语言模型后期训练的基石，利用大规模强化学习，大模型更深入、更广泛推理，获得解决复杂问题所需的高级能力，但其面临的关键挑战是如何平衡效率和稳定性。

现代强化学习框架通常使用不同的引擎进行推理和训练用于部署，但这种架构上的分离可能导致token概率出现分歧，甚至可能导致灾难性的强化学习崩溃。然而，现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。

研究人员提出的R3，其工作原理是在序列生成期间从推理引擎捕获路由分布，并将其直接重放到训练引擎中。这一过程可以缩小训练和推理之间的差距，其显著特征是不同引擎生成的逻辑向量的KL散度（量化两个概率分布之间的差异程度，值越小说明两个分布越接近）显著降低，两个阶段之间概率差异显著的token数量减少了大约一个数量级。

此外，该方法同时适用于在线策略（on-policy）和小批量（mini-batch）式离线策略强化学习（off-policy）场景。

论文提到了研究团队的三大主要贡献：

1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异，强调了它们在训练不稳定性中的作用；

2、提出Rollout Routing Replay，它重用训练引擎内部的推理时间路由分布，以协调训练和推理之间的路由行为；

3、将R3应用于多种RL设置进行MoE强化学习，并表明R3在稳定性和整体性能方面优于GSPO和TIS。

二、可显著缩小训练-推理差异，对Agent任务大有裨益

R3的主要思路是在训练前向传播过程中重用推理路由掩码I，同时仍将softmax应用于训练逻辑以保持梯度流。

这种设计主要有两个目的：一是对齐训练和推理，确保训练重放期间使用的专家与推理期间选择的专家相匹配，从而消除专家选择中的不匹配；二是保留梯度数据流，通过仅重放掩码，梯度仍然可以流回logits而不会干扰计算图，这有助于有效地优化路由器。

▲重放门控权重、重放输出y的计算方式

具体来看，R3在效率优化上，通过路由掩码缓存（Router Mask Caching）适配多轮对话场景，降低计算开销。

其论文提到，缓存的路由掩码具有相似的属性，对于相同的前缀token，MoE路由器应该产生相同的结果，因此来自推理引擎的路由掩码可以与前缀KVCache一起缓存。

对于每个层和token前缀，相应的路由掩码都存储在KVCache中。当相同的前缀出现并命中缓存时，这些掩码可以被重用，从而无需重新计算，这使得R3能够与前缀缓存机制无缝集成。

研究人员称，缓存路由掩码在Agent场景中有较大应用空间。例如软件工程和网页浏览等Agent任务，都涉及自回归生成和工具调用之间的多轮交互，为了提高效率，这些过程直接重用了前几轮的KVCache，因此无需重新生成已计算的数据。路由掩码缓存使R3能够在强化学习代理任务中保持高效，而无需重新预填充以生成路由掩码。

为了证明R3在缩小训练-推理差异上的有效性，研究人员使用Qwen3-30B-A3B模型进行了验证，其将推理过程中获得的路由分布缓存在SGLang上，并在Megatron框架内重放它们。

▲使用Megatron进行两次前向传播获得的概率

结果表明，应用R3后，训练和推理之间的KL散度从1.5×10??减小到7.5×10??，接近于稠密模型的6.4×10??水平，这表明其训练-推理差异减少。

研究人员还绘制了使用R3的训练-推理差异比率的累积分布图，对于MoE模型，应用R3可将具有较大训练推理差异的token的频率降低一个数量级。

▲a、MoE模型中训练-推理差异的说明，b、MoE+R3模型中训练-推理差异的说明，c、稠密模型中训练-推理差异的说明，d、极端token分布函数

三、实测三大能力提升：整体性能、训练稳定、优化生成行为

为了评估R3对强化学习的性能改进，研究人员从BigMath、ORZ等开源数据集筛选约10万道可验证数学题，采用AIME24、AIME25、AMC23和MATH500作为基准数据集进行评估，并在单次训练过程中每5个全局步骤测量一次模型性能。

其选择的模型是Qwen3-30B-A3B-Base及其微调模型Qwen3-30B-A3B-SFT。

评估方式是每5个全局步骤记录模型性能，最终报告最佳性能及对应训练步骤，若模型后期性能骤降，同时追踪训练崩盘步骤”。

实验结果表明，整体性能上，R3在多步更新场景，GRPO+R3平均得分68.05分，比GSPO高出1.29分；GSPO+R3进一步提升至69.00，比单独GSPO高2.24分。

单步更新场景，SFT模型上，GRPO+R3平均得分71.83分，比GRPO（62.23）高9.6分，比GRPO+TIS（66.24）高5.59分；Base模型上，GRPO+R3平均得分70.73，比GRPO（61.69）高9.04分。

▲主要评估结果

研究人员还发现，将R3与TIS结合使用并不能带来明显的性能提升，甚至可能降低性能，例如在SFT模型的单小步设置下，TIS+R3的得分比单独使用R3低1.69分。由于R3已经显著降低了训练和推理之间的策略差异，因此TIS的额外校正效果微乎其微。

训练稳定性方面：如GRPO、GRPO+TIS等无R3的方法在单步更新场景中均出现崩盘，GRPO在60步崩盘、GRPO+TIS在105步崩盘。

引入R3后，所有组合方法均无崩盘，且训练过程中训练-推理KL散度等始终较低。

▲多步更新训练-推理崩溃分析

优化与生成行为方面，在训练过程中，R3还能增强优化稳定性、探索行为和生成动态。下图是研究人员绘制的单步+基础模型组训练过程中的序列长度、梯度范数、生成熵和评估分数。

▲wen3-30B-A3B-Base训练动态

结果显示，R3具有更小的梯度范数、更平滑的序列增长模式和更稳定的熵。实验中使用R3时，生成的序列长度在训练开始时迅速上升，表明R3能够快速捕捉到正确的优化方向，相比之下其他两个训练过程在第80步之后才缓慢上升，并且波动更为明显；R3始终保持较低的梯度范数，表明优化过程更加稳定；实验使用R3时，熵在大约第25步后开始稳步上升，表明模型更早地开始探索更优策略，不使用R3时，熵上升得更晚，并且波动较大。

结语：聚焦MoE模型训练难题，小米提出新思路

MoE架构如今已成为扩展现代语言模型的基石，其采用门控网络，对每个token稀疏地仅激活一部分专家参数，从而将模型的总参数数量与其推理成本分离开来，从而大幅提升了模型容量。然而，由于门控网络的敏感性，MoE模型容易受到训练不稳定性的影响，这使得路由稳健性成为有效模型收敛的核心挑战。

在这篇论文中，研究人员在训练过程中重用推理时的路由分布，以在保留梯度流的同时对齐专家选择。这种思路或为行业提供了新的研究思路。

??时事1：立博中文官网

??10月17日,《中国婚礼通志》发布《中华岁时通志》启动出版,

　　古人说，"廉者，政之本也。"清正廉洁是从政者应有的品格。古往今来，清正廉洁、两袖清风、一身正气、名垂青史的"清官"不乏其人。他们以公正廉明、刚正不阿、尽职尽责、鞠躬尽瘁的敬业精神，用以俭为荣、洁身自好、奉献为德的人格魅力，为我们树起了座座丰碑，赢得了人们的爱戴。古有狄仁杰、"包青天"，今有焦裕禄、牛玉儒、郑培民，他们都是严于律己廉洁从政的好榜样。

,万博官网网页版首页登录入口。

??10月17日,海关总署推进“四下基层”常态化长效化,

　　神曦弥漫，在其体外化形，宛若一片又一片神羽，小不点体内血气隆隆，每一滴血都孕出一个符文，凝结在一起，气息越来越强盛了。

,线上信誉app,世界杯买球的网站,澳门游戏网站是多少。

??时事2：开户即送38元

??10月17日,关注巴以局势：以军行动持续加沙地带多地发生激烈战斗,

京东白条逾期起诉了会坐牢吗？逾期起诉了怎么应诉？

,蛇报B,ballbet贝博登陆备用,188bet体育在线下载。

??10月17日,第六届中国青年马克思主义大会在昆明召开,　　携程集团副总裁秦静认为，随着这一政策的施行，将加速中国与澳大利亚之间的旅游交流及经贸互动。同时，政策也将惠及在澳大利亚生活的逾百万华人华侨，使得他们回国探亲或旅游的过程更为简便顺畅。秦静指出，作为亚太地区的重要国家，中国与澳大利亚在经济上具有高度的互补性，合作潜力巨大，未来也期盼在旅游领域激发更强劲的合作动力。,沙巴体育到344k.com,赌博手游下载,世界杯投注网站推荐。

??时事3：澳博可靠吗

??10月17日,新图景里的数智脉动｜大国重器,　　6月17日，澎湃新闻（www.thepaper.cn）从陈政高同志多位亲友处获悉，住房和城乡建设部原部长、党组书记陈政高同志，因病于2024年6月16日在北京逝世，享年72岁。,AG亚游网址,世界杯彩票投注网站,jdb夺宝游戏。

??10月17日,（经济观察）东盟国家数字化建设给中国企业带来机会,

　　随着人口逐渐增长，世界经济、科技迅猛发展，人类活动对气候的影响和范围也在不断地加速和扩大，据研究表明，近50年的全球气候变暖很大程度上与人类活动的影响有关，这主要是由温室气体的增长造成的。21世纪，人类对气候的影响将更为突出，气候变化也将给人类带来严重影响。预计21世纪地球气候将继续变暖，全球平均气温将升高1.4～5.8℃。由于温度上升，极端天气与气候事件发生的可能性将不断扩大，最高气温会变得更高，炎热的日数增多，干旱、洪涝灾害的威胁加重。随着社会财富的不断增加，由气象灾害引起的损失也将急剧增大。它对环境、经济、农业、林业等方面的影响最终都会直接或间接影响到人类健康和空气污染。除了国家采取节能减排、开发利用无污染资源等政策性措施外。

,澳门薪萄京娱乐官网,AG视讯假不假,日博体育真人百家乐。

??时事4：羽毛球比分

??10月17日,讲述民政榜样故事 2024“北京榜样·最美民政人”揭晓,

　　“唔，既然如此，我也不好不表示，我这里有一罐罕见的异种凶禽血。”罗浮大泽的中年人开口道。

,天博官方网站app,beplay官网全站苹果,果盘游戏。

??10月17日,8大类家电新增10.2万种，家电新品种你用过吗？,

　　他知道，那是真正的王侯，统御一方，掌控十数亿人的生死，是人皇下最强大的人，恐怖震世！

,188体育网上注册首页,雷速体育没有指数了么,世博体育官网登录网址。

【中国援尼泊尔医疗队：助当地医院填补多项腔镜手术空白】

【中外学者齐聚大同灵丘共话有机农业发展】

责编：郭志恒

审核：信诺佰

责编：金焱

新万博体育

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

京东白条逾期起诉了会坐牢吗？逾期起诉了怎么应诉？