(7分钟轻松理解)博必胜娱乐安卓版v46.16.27.90.89.85-2265安卓网

首页 >新闻 >社会新闻

北大彭一杰教授课题组提出RiskPO，风险度量优化重塑大模型后训练

2025-10-15 04:17:51

来源：

猫眼电影

作者：

苏方

手机查看

　　猫眼电影记者苏群报道Q8X2R7L1T4J5M9B6W3

该项目由北京大学彭一杰教授课题组完成，第一作者为任韬，其他作者包括江金阳、杨晖等。

研究背景与挑战：大模型后训练陷入「均值陷阱」，推理能力难破界

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略，过度聚焦高概率输出序列，却忽略了「低概率但高信息密度」的推理路径：模型训练早期就会出现熵坍缩，过早丧失探索能力；面对全错的难题时，优势函数直接归零，模型在薄弱环节完全无法学习。最终结果是，大模型看似在 Pass@1 等短视指标上有提升，实则推理边界从未拓宽，更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」，成为大模型后训练的关键瓶颈。

AIME2024 上的学习表现

技术方案概述：用「风险度量」破局，MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷，北大团队提出 RiskPO，核心突破在于将风险规避（risk-averse）理念融入优化目标，用「关注奖励分布左尾（难任务）」替代「追求整体均值」，从根本上引导模型突破推理短板。

论文链接：https://arxiv.org/abs/2510.00911v1代码链接：https://github.com/RTkenny/RiskPO

为配合 MVaR 目标，团队提出「多问题捆绑」策略，将多个问题打包成 bundle 计算奖励，把稀疏的二进制反馈转化为更丰富的分布信号，彻底解决「难题零梯度」问题—— 比如将 5 个数学题打包后，模型能从整体得分中捕捉到「部分正确」的学习信号，而非单个题目非对即错的极端反馈。

算法架构图

实验：三大任务全面碾压，难问题上优势更显著

好的技术方案，终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上，用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上，优势远超 GRPO 及其变体。

在数学推理领域，RiskPO 在 AIME24（美国数学邀请赛）任务上表现惊艳：Pass@32 得分比 GRPO 高出近 7 个百分点，比最强基线 DAPO 提升 6.7 个百分点；即便是相对简单的 MATH500 数据集，其 Pass@1 也达到 81.8%，超出 GRPO 2.6 个百分点。

更关键的是，随着评估指标从 Pass@1 转向 Pass@8、Pass@16，RiskPO 的优势持续扩大 ——这意味着模型不仅能给出更优的单条答案，还能探索新万博体育：有效推理路径，真正突破了「采样效率优化」的局限。

数学推理任务

Pass@k 学习曲线

在跨领域任务中，RiskPO 同样稳定领先：代码生成任务 LiveCodeBench 上，Pass@1 比 GRPO 提升 1 个百分点；多模态几何推理任务 Geo3K 上，准确率达到 54.5%，优于 DAPO 的 54.3%。这种「全场景增益」，证明了风险度量优化的泛化能力。

其他任务

理论 + 消融：熵坍缩缓解有依据，参数设计有章法

RiskPO 的性能突破，并非依赖工程调参，而是有扎实的理论支撑和严谨的消融实验验证。

高熵更新定理

从理论层面，团队证明了「风险规避更新」能有效缓解熵坍缩：通过分析策略熵的变化机制，发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO，模型不会过度强化已掌握的易任务，从而保持更高的熵值和探索能力。

实验中也能清晰看到：训练 500 步后，GRPO 的熵值已趋近于 0，而 RiskPO 仍能维持 0.2 以上的熵水平，确保对难任务的持续探索。

训练集 DAPOMATH-17k 上的各项指标

值得注意的是，在训练过程中，若仅观察以均值为核心的指标曲线（如平均奖励），GRPO 与 RiskPO 的表现几乎难分伯仲，甚至 RiskPO 因更高的探索性还伴随轻微波动；但切换到风险敏感指标（如下尾 RVaR、MVaR 奖励）时，两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先，且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象，再结合最终测试集上 RiskPO 在 Pass@k（尤其是高 k 值）、难任务（如 AIME 竞赛题）上的优势，进一步印证了：均值目标只能让模型在「已知能力范围内优化采样效率」，而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。

不同风险偏好对比实验

结果显示，风险寻求模型的熵值在训练早期就剧烈坍缩—— 训练 150 步后熵值已降至 0.1 以下，远低于 RiskPO 的 0.2；性能上，风险寻求模型在训练 50 步后便进入平台期，MATH 数据集 Pass@1 仅从 52% 提升至 54%，而 RiskPO 则持续优化至 56%，实现 1.5 倍的提升幅度。

这一对比清晰证明，聚焦易任务的风险寻求策略会加速模型「固步自封」，只有风险规避才能驱动模型突破推理边界

??时事1：皇冠捕鱼大全

??10月15日,2024钻石杯青少年网球挑战赛沈阳站开赛,

　　像是九天上的惊雷响起，震的群山乱颤，它迅若一道金色的闪电，扑杀向那两头称尊一方的兽王。

,AG恒峰娱乐。

??10月15日,快讯！法国总理巴尼耶前往总统府向马克龙递交辞呈,

　　去年11月份以来，全市围绕建设发展型党组织这个中心，把干部教育培训工作提高到前所未有的高度。按照市委大规模、高标准培训村干部的要求，我县从去年的11月份开始，对全县1450多名村干部全部轮训一遍。希望大家充分认识加强村干部培训工作的重要意义，切实增强责任感，提高主动性，认真学习培训。

,世界杯买球平台叫什么,万博手机版网页版登录,AG真人是哪里开出来的。

??时事2：188宝金博注册送18

??10月15日,你有一份两会晨报，请查收！〔第8期〕,

　　在“七一”讲话中指出：“全体、干部都要把学习作为一种精神追求，深入学习和掌握马列主义、毛泽东思想，深入学习和掌握中国特色社会主义理论体系，牢固树立辨证唯物主义和历史唯物主义世界观和方法论，真正做到学以立德、学以增智、学以创业。”当前，我市正处在加快发展的关键时期，各级干部都面临着事业发展的严峻挑战。围绕“加速发展、加快转型、推动跨越”和工业强市、城镇化带动战略目标要求，我市农村基层干部队伍要特别注重提升干部服务发展、改善民生、构建和谐、改革创新能力。在座的各位都是新进乡镇党委班子的同志，有的具备农村工作经验，需要加强全局观的培养;有的缺乏乡镇工作的锻炼，需要加强调研，虚心向基层干部群众学习。

,hth华体会在线官网,比分直播188体育新版,vwin德赢体育。

??10月15日,热浪来袭很危险！这些“高温病”如何预防？,

　　众人晕菜，这个小东西怎么什么都不知道，难道真的是从原始老林子里跑出来的？

,bob综合体育pc网页版,澳门永利www,永利新网首页。

??时事3：多宝网投平台

??10月15日,“2024爱沈阳”5大主题300余项活动开启沈阳文旅“春的乐章”,

　　管事脸色阴沉，道：“还有，那个破庄子中的几个老怪物都死绝了，那个孩子还活着？”

,千赢国际官网APP,澳门威斯尼斯人官网,金宝搏188手机app下载。

??10月15日,生态环境部发布第一批城市和产业园区减污降碳协同创新试点名单,

　　同学们，赶快行动起来吧!让我们都来做地球卫士，从我做起，从点点滴滴做起。如少喝瓶装水和饮料，多喝白开水;尽量少开空调，开空调时冬天开低一度，夏天打高一度;购物时自带购物袋，减少一次性塑料袋的使用;少用一次性筷子，避免室内电器待机状态;每次减少一分钟淋浴时间，减少看电视的时间等等。并要坚决和破坏环境的行为作斗争。

,365博彩官网,亚新官网APP,kb88凯时在线。

??时事4：百老汇体育APP

??10月15日,聚力攻坚“港”“廊”“链” 浙江金华跑出高质量发展加速度,

　　“两万斤的没有，两千斤的倒是有一柄。”中年人咚的一声扔过来一柄小磨盘般大的锤子，将地面直接砸出一个深坑。

,澳门威斯人网站5555,龙8国际注册,三亿体育在线登录。

??10月15日,中国慰安妇受害者子女首次在国内起诉日本政府,

　　“哈哈……好一头鸾鸟，竟然是强大的遗种，体内流淌有太古神禽的血，真是一种罕见的宝药啊，看我如何将它射杀！”一个老人大笑。

,b体育公司,特码大王A（新图）,mg官方电子平台。

【汇集众多“首发”新产品新技术第十届上交会开幕】

【习近平离京对法国、塞尔维亚和匈牙利进行国事访问】

责编：蒋孝武

审核：埃森哲

责编：刘雪枫