(5秒全面了解)po19网站在线观看最新版v79.19.99.90.99.88.86-2265安卓网_新万博体育
po19网站在线观看 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件徐明浩新型citywalk → po19网站在线观看 v1.389 IOS版

po19网站在线观看

po19网站在线观看

  • 电脑版下载
猜你喜欢
标签: po19网站在线观看 欧美老妇女性爱网站
详情
介绍
猜你喜欢
相关版本

内容详情

po19网站在线观看

智东西编译 程茜编辑 李水青

智东西10月15日消息,10月14日,小米和北京大学联合署名的论文发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,出现在了这篇论文的通讯作者之列,但值得注意的是,论文作者中并没有标注罗福莉属于小米大模型团队。

通讯作者中的罗福莉是95后,她本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。随后罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。去年年底,小米被曝以千万年薪挖角DeepSeek-V2核心开发者之一罗福莉,使其冲上热搜,但双方至今都未公开声明是否正式入职小米。

▲DeepSeek“天才少女”罗福莉(图源:罗福莉个人公众号)

这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。实验结果证明,R3的整体性能优于GRPO、TIS这类强化学习领域提升模型性能的优化算法,且引入R3的所有组合方法全过程无崩盘,训练过程中训练-推理KL散度等始终较低,在不影响训练速度的情况下,使得极端token比例减少一个量级。

当下,强化学习(RL)已成为提升大语言模型能力的关键方法。然而,在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。

论文地址:https://arxiv.org/pdf/2510.11370

一、破解强化学习崩溃的关键方法,小米团队提出R3

强化学习已成为大语言模型后期训练的基石,利用大规模强化学习,大模型更深入、更广泛推理,获得解决复杂问题所需的高级能力,但其面临的关键挑战是如何平衡效率和稳定性。

现代强化学习框架通常使用不同的引擎进行推理和训练用于部署,但这种架构上的分离可能导致token概率出现分歧,甚至可能导致灾难性的强化学习崩溃。然而,现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。

研究人员提出的R3,其工作原理是在序列生成期间从推理引擎捕获路由分布,并将其直接重放到训练引擎中。这一过程可以缩小训练和推理之间的差距,其显著特征是不同引擎生成的逻辑向量的KL散度(量化两个概率分布之间的差异程度,值越小说明两个分布越接近)显著降低,两个阶段之间概率差异显著的token数量减少了大约一个数量级。

此外,该方法同时适用于在线策略(on-policy)和小批量(mini-batch)式离线策略强化学习(off-policy)场景。

论文提到了研究团队的三大主要贡献:

1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异,强调了它们在训练不稳定性中的作用;

2、提出Rollout Routing Replay,它重用训练引擎内部的推理时间路由分布,以协调训练和推理之间的路由行为;

3、将R3应用于多种RL设置进行MoE强化学习,并表明R3在稳定性和整体性能方面优于GSPO和TIS。

二、可显著缩小训练-推理差异,对Agent任务大有裨益

R3的主要思路是在训练前向传播过程中重用推理路由掩码I,同时仍将softmax应用于训练逻辑以保持梯度流。

这种设计主要有两个目的:一是对齐训练和推理,确保训练重放期间使用的专家与推理期间选择的专家相匹配,从而消除专家选择中的不匹配;二是保留梯度数据流,通过仅重放掩码,梯度仍然可以流回logits而不会干扰计算图,这有助于有效地优化路由器。

▲重放门控权重、重放输出y的计算方式

具体来看,R3在效率优化上,通过路由掩码缓存(Router Mask Caching)适配多轮对话场景,降低计算开销。

其论文提到,缓存的路由掩码具有相似的属性,对于相同的前缀token,MoE路由器应该产生相同的结果,因此来自推理引擎的路由掩码可以与前缀KVCache一起缓存。

对于每个层和token前缀,相应的路由掩码都存储在KVCache中。当相同的前缀出现并命中缓存时,这些掩码可以被重用,从而无需重新计算,这使得R3能够与前缀缓存机制无缝集成。

研究人员称,缓存路由掩码在Agent场景中有较大应用空间。例如软件工程和网页浏览等Agent任务,都涉及自回归生成和工具调用之间的多轮交互,为了提高效率,这些过程直接重用了前几轮的KVCache,因此无需重新生成已计算的数据。路由掩码缓存使R3能够在强化学习代理任务中保持高效,而无需重新预填充以生成路由掩码。

为了证明R3在缩小训练-推理差异上的有效性,研究人员使用Qwen3-30B-A3B模型进行了验证,其将推理过程中获得的路由分布缓存在SGLang上,并在Megatron框架内重放它们。

▲使用Megatron进行两次前向传播获得的概率

结果表明,应用R3后,训练和推理之间的KL散度从1.5×10??减小到7.5×10??,接近于稠密模型的6.4×10??水平,这表明其训练-推理差异减少。

研究人员还绘制了使用R3的训练-推理差异比率的累积分布图,对于MoE模型,应用R3可将具有较大训练推理差异的token的频率降低一个数量级。

▲a、MoE模型中训练-推理差异的说明,b、MoE+R3模型中训练-推理差异的说明,c、稠密模型中训练-推理差异的说明,d、极端token分布函数

三、实测三大能力提升:整体性能、训练稳定、优化生成行为

为了评估R3对强化学习的性能改进,研究人员从BigMath、ORZ等开源数据集筛选约10万道可验证数学题,采用AIME24、AIME25、AMC23和MATH500作为基准数据集进行评估,并在单次训练过程中每5个全局步骤测量一次模型性能。

其选择的模型是Qwen3-30B-A3B-Base及其微调模型Qwen3-30B-A3B-SFT。

评估方式是每5个全局步骤记录模型性能,最终报告最佳性能及对应训练步骤,若模型后期性能骤降,同时追踪训练崩盘步骤”。

实验结果表明,整体性能上,R3在多步更新场景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3进一步提升至69.00,比单独GSPO高2.24分。

单步更新场景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。

▲主要评估结果

研究人员还发现,将R3与TIS结合使用并不能带来明显的性能提升,甚至可能降低性能,例如在SFT模型的单小步设置下,TIS+R3的得分比单独使用R3低1.69分。由于R3已经显著降低了训练和推理之间的策略差异,因此TIS的额外校正效果微乎其微。

训练稳定性方面:如GRPO、GRPO+TIS等无R3的方法在单步更新场景中均出现崩盘,GRPO在60步崩盘、GRPO+TIS在105步崩盘。

引入R3后,所有组合方法均无崩盘,且训练过程中训练-推理KL散度等始终较低。

▲多步更新训练-推理崩溃分析

优化与生成行为方面,在训练过程中,R3还能增强优化稳定性、探索行为和生成动态。下图是研究人员绘制的单步+基础模型组训练过程中的序列长度、梯度范数、生成熵和评估分数。

▲wen3-30B-A3B-Base训练动态

结果显示,R3具有更小的梯度范数、更平滑的序列增长模式和更稳定的熵。实验中使用R3时,生成的序列长度在训练开始时迅速上升,表明R3能够快速捕捉到正确的优化方向,相比之下其他两个训练过程在第80步之后才缓慢上升,并且波动更为明显;R3始终保持较低的梯度范数,表明优化过程更加稳定;实验使用R3时,熵在大约第25步后开始稳步上升,表明模型更早地开始探索更优策略,不使用R3时,熵上升得更晚,并且波动较大。

结语:聚焦MoE模型训练难题,小米提出新思路

MoE架构如今已成为扩展现代语言模型的基石,其采用门控网络,对每个token稀疏地仅激活一部分专家参数,从而将模型的总参数数量与其推理成本分离开来,从而大幅提升了模型容量。然而,由于门控网络的敏感性,MoE模型容易受到训练不稳定性的影响,这使得路由稳健性成为有效模型收敛的核心挑战。

在这篇论文中,研究人员在训练过程中重用推理时的路由分布,以在保留梯度流的同时对齐专家选择。这种思路或为行业提供了新的研究思路。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    不知火舞私秘 奶头大屁股视频 鲜嫩多汁的白虎穴 中学生乱伦视频 国产午夜羞羞视频 中文字幕久久久av一区 特黄特黄的AAAAA片 欧美激情亚洲综合一区二区 久久精品乱无码一区二区 中文日本在线观看中文幕 污黄啪啪18以下勿进免费网站 玄兵大战倾辛2024免费观看 把空姐按在床上草 18岁女生艹在线免费观看 www黄色 欧美激情AⅤ另类 坤坤寒进桃子里在线看歌词漫画 每日国产精品自拍 姬小满流眼泪翻白眼流口水的表情 樱空秘 无码一区二区 亚洲AV秘 无码玫瑰园 全亚洲A片网址在线观看 funny榨精肌肉Gay龙男同 操我视频 色爱综合区国产精品 二次元露内裤露屁股的视频 毛片免费视频特级 三级片国产色色观看 云璃流眼泪翻白眼咬铁球图片 黄色网站禁止18岁 成 人 黄色视频在线观看 美女被啪到深处白浆GIF动态图 龙珠18号被爆 羞羞视频 国产欧美亚洲三区久久 毛片在线播放不卡的 日韩精品视频在线第一区 亚洲Aⅴ天堂Av天堂无码不卡 图片 视频 小说 最黄色操屄片 男人j放进女人P全黄在线网站 Kylieng合集 av中文不卡在线看 欧美WWW色 国产精彩绝伦推理片 欧美三十五页在线视频 百度一下 你就知道 尤酸乳视频成人 国产十欧美十日韩十免费 污女视频网站 黄色视频哪里看com.... 欧美性爱激情视频在线 菲谢尔乳液狂飙翻白眼 国产一级黄片不卡免费视频 A级黄片视频免费看 男女18禁啪啪无遮挡激烈动态图红 杨幂,公交车性交 亚洲一区二区三区黄网站 国产一站黄片 手机在线免费观看黄色视频 国产一级a爱视频免费观看 好深 好爽 17c视频 一级a片网站网址 导管专用网站入口免费下载安装 插入嫩逼水多视频 玖玖综合视频 国产片区免费 校花主动脱 让我 动漫 国产福利小视频在线看国产 天天操天天射天天拍 亚洲精品男女 韩国三级a片免费在线观看 AV.jyl 91免费在线视屏 偷拍偷窥免费视频网址 亚洲精品国偷拍自产电影91 色五月视频在线观看 真实迷奸在线播放 98国产在线观看 黑人暴力强奸乳娘梦露小说 69亚洲精品无码专区在线 久久九九99 日韩美女黄片不卡 小南躺床上流白色黏液 欧洲亚洲一区二区在线观看 色大片视频在线观看 黄片免费动漫 欧美日韩精品二区 波多野结衣 面瘫 黄网国产丝袜在线 久久无码A级毛片 扒开 让老师的 进去网站 一级黄啊啊啊啊网站 在线人成视屏免费 欧美黄色视频免费在线观看 色妞www精品视频一级下载 妓女妓女妓女妓女av网站 16岁下载破解安装 久久机热这里只有精品国产 手机看片92 无遮一级毛片性视频不卡 商务旅行戴女老板帽子 97AV自拍 91人妻论坛申精 欧美性爱精品一级 91人妻人人做人人爽九色888 女同视频一区二区在线观看 免费 成人 葫芦 日本免费一级高清婬曰本片 A片一级黄片视频 高清乱码   免费阅读 未18禁止看的黄色网站 日本欧美激情中文字幕在线视频 中国老太婆级特黄大片真人的 chinese男男山东gary 欧美国产日本在线播放 91日韩美女在线视频观看 KTV包间多P在线播放 欧美狠狠 儿子隔板猜妈妈姐姐妹妹节目 女人把㊙️扒开给男人看视频真人 雷狮顶安迷修的生育
    热门网络工具