贵宾网,界面清爽、功能强大,专为极致体验而生_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

微软发布首个测试时扩展大规模研究,还给出了终极指南

2025-12-05 02:50:30
来源:

猫眼电影

作者:

叶丁

手机查看

  猫眼电影记者 斯特拉卡拉 报道Q8X2R7L1T4J5M9B6W3

机器之心报道

编辑:Panda

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配新万博体育:计算资源,就能让模型的智商原地起飞。

但问题来了:我们该怎么让 LLM「多想」?

好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?

更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。

究竟哪个 TTS 策略才是那个「天选之子」?

为了结束这场盲人摸象般的争论,微软终于出手了。

他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。

论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008

这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营。

基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究。

测试时扩展方法简介

LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)。虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的

并行扩展策略

通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止。

序列扩展策略

通过迭代式的修正、重启或回溯来扩展推理深度。思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制。S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。

混合扩展策略

该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体(具有工具调用能力的 LLM)在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正,模拟自我改进循环。这些元调度器(meta-schedulers)认识到仅靠深度或并行扩展是不够的,旨在根据模型行为和提示动态调整策略。相比之下,内部扩展策略修改模型在推理过程中的内部计算量,而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性,如果置信度高则提前终止。

没有哪种策略是普遍最佳的。多项实证研究加强了这一观点,即没有 TTS 策略能持续占据主导地位。

微软这项研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前两者由变量 k 和 N 参数化,而后者仅由 N 参数化。

FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票(MV)以确定结果;而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的,随后对这些样本进行多数投票。

束搜索涉及维护一组高概率的部分假设(partial hypotheses),并在解码过程中不断更新这些前缀。

研究结果

束搜索显示出逆扩展或无扩展

研究的第一个爆点来自于对经典算法束搜索(Beam Search)的宣判。

在实验中,研究人员观察到了一个极其反直觉的现象:在「短视界」和「非推理」这两个模型家族中,束搜索表现出了一致的逆扩展(inverse-scaling) 模式:随着束大小 N 的增加,性能单调下降(图 1)。

看图便知,对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型,增加 N 也未能带来收益,准确率曲线要么躺平,要么缓慢下滑。

这意味着什么?意味着在束搜索上投入新万博体育:的计算量(增加 N 会消耗新万博体育: token),不仅是浪费,甚至是有害的。简直是花钱买罪受。

推理路径长度与质量的相关性

这项研究最核心的贡献,在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。

FFS 和 LFS 基于两个截然相反的观点:越短越好和越长越好。

为了调查哪种假设(或哪些假设)适用于特定模型,该团队报告了给定推理路径长度区间和问题难度下的准确率(表 1)。

请注意,问题难度是通过所有模型和路径的平均准确率来衡量的,而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是,问题难度与推理路径长度存在混淆(confounded,图 3):短路径通常源于较容易的问题,而长路径往往对应较难的问题。

为缓解这种混淆效应,他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集,他们分别计算短路径和长路径的单一准确率值,然后在数据集之间平均这些值,从而防止数据集大小的差异不成比例地影响聚合结果。

结果,他们将六个推理模型清晰地划分为两大阵营:

1. 短视界模型

代表成员:R1, QwQ-32B, DAPO-32B行为特征:对于给定的问题难度,更短的推理路径比更长的路径更可能是正确的。

这意味着这些模型在推理时往往「直击要害」,如果它们开始长篇大论,很可能是在「胡言乱语」或者陷入了无效循环。

有趣的是,DAPO-32B 尽管使用了 GRPO 等技术,依然表现出与 R1 相似的长度偏置,说明目前的后训练技术在缓解长度偏置方面可能还很有限。

2. 长视界模型

代表成员:Qwen3-32B, GPT-OSS-120B行为特征:它们的表现更为复杂且「世故」。

在简单问题上,它们倾向于较短的路径。但在困难问题上,它们则偏好较长的路径。

这类模型展现出了更强的适应性:遇到难题时,它们确实在利用额外的计算步骤进行有效推理,而非无效空转。

深度分析:预算与策略的博弈

既然模型性格迥异,那么在给定的计算预算(Token 消耗量)下,我们该如何选择最佳的 k 和 N?

研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线,发现了几个关键趋势:

LFS 的奥义在于「全员投票」

对于 LFS 系列方法,给定总计算量下的最大性能总是当 k 很大时(即 k=N)实现。注意,当 k=N 时,LFS 实际上就退化成了 多数投票(MV-N)。

结论非常简单粗暴:在消耗相同 token 的情况下,直接做多数投票(MV@N)总是优于刻意筛选最长路径的 LFS-k@N。

FFS 的微妙权衡

对于短视界模型: 较大的 N 值总是最好的。这意味着你应该采样很多样本,然后从中选出最短的那一批进行投票。

对于长视界模型:存在权衡。如果你想用高计算量换取高性能,你必须选择较小的 N(本质上是执行简单解码);而在非推理模型上则相反。

这一分析告诉我们,最佳 TTS 策略是随着预算的增加而动态扩展的

终极配方:如何为你的模型选择 TTS 策略?

基于上述海量实验数据,微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析,更是给算法工程师们的实战手册。

让我们来拆解这个配方的内在逻辑:

场景一:如果你使用的是「短视界模型」(如 R1, QwQ)

这类模型有个特点:无论题目难易,它们总是觉得「长话短说」的答案更靠谱。

低计算预算时:使用 FFS,且设定 k=1。即:采样 N 个答案,直接挑最短的那个作为最终答案。简单、快速、有效。

高计算预算时: 使用 FFS,且设定 k=N(等同于 MV@N)。即:采样 N 个答案,因为 N 个最短路径就是所有路径,所以这实际上就是标准的多数投票。

核心逻辑:对于短视界模型,性能随 N 的增大而提升。因此,只要预算允许,把 N 拉满,做多数投票即可。

场景二:如果你使用的是「长视界模型」(如 Qwen3)

这类模型比较「纠结」,策略选择稍微复杂一些。

面对高难度问题(High Difficulty):模型倾向于长路径。由于 LFS@N 随 N 增加而提升:

高计算预算: 使用大 N 的 MV@N。低计算预算: 使用小 N(理想情况下 N=1)的简单解码(SD)。

这里有一个有趣的结论:在保持 k=N 的情况下(即 MV),性能随 k 增大而提升。

面对低难度问题(Low Difficulty):此时模型偏好短路径(杀鸡焉用牛刀)。

高计算预算: 使用大 k 的 FFS。低计算预算: 使用小 k 的 FFS。

在这种设置下,设定 N=k(即 MV@N)依然是稳健的选择。

总结来看,尽管模型类型和任务难度千差万别,但最终的「配方」却表现出了惊人的殊途同归:对于绝大多数情况,多数投票(MV@N) 或者是其变体(如 FFS 中的 k=N)往往是性价比最高的选择。特别是对于「短视界」模型,不要试图通过让它「多想」来强行提升效果,新万博体育:时候,从大量的快速回答中通过投票筛选出共识,才是正确的打开方式。

微软的这项研究,实际上是在为 LLM 的推理能力「祛魅」。它告诉我们,测试时扩展并不是简单地堆砌算力,更不是盲目地追求更长的思维链。

理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天,这份基于 300 亿 token 实测得出的决策配方,无疑为我们节省了大量的试错成本。

下一次,当你准备让你的模型「再想一下」时,不妨先查查这份配方,看看你是否正在为一个「短视界」的模型,强加它并不擅长的长考重担

??时事1:线上博狗正网

??12月05日,河南百年“豆腐村”:庭院经济打造匠心品牌,

  狂风暴雨来袭时,小草就像是在为大地而歌,为天空而舞。暴风显然是来者不善,它还痴心妄想将草儿连根拔起。其实纤身细腰的小草早已在这场生死搏斗前备战已久;因为它时刻牢记着大地交给它的绿色任务。小草迎着风雨,忽而昂首挺胸,忽而摇摇摆摆,有如醉酒欢歌,随即大地上奏演了一场“劲草斗疾风”的赞歌。狂风暴雨退步而下,甘拜下风。雨后彩虹焕发七彩光芒把小草身上的“珍珠”折射得更加璀璨……

,爱博入口登录。

??12月05日,香港商场“花样年花”贺岁龙年,

  “小友,你这样过分了,伤我族人马无数,还想继续下去吗?”一个中年男子有点无奈了,难道要向族中求援吗,以全族之力来征伐这个孩子?

,e乐彩登录入口下载,开元棋盘怎么样,万利国际。

??时事2:188金宝博登录入口

??12月05日,【央广时评】“双11”当日快递量创新高 “小包裹”映射活力中国,

  “轰”的一声,恶魔猿一拳擂碎了那残存的半截石山,神威惊荒林,击空后它并不停留,一个跳跃就是二百米高,就要展翅逃走。

,澳门海立方下载,九州体育下载,mile811。

??12月05日,欧盟推新计划要强化投资审查,专家:将对中欧多领域造成负面影响,

  狈村很多人弯弓搭箭,就要射杀石昊,进行救援。

,gt千炮捕鱼平台,众恒网址,大圣棋牌游戏。

??时事3:真人游戏手机版

??12月05日,第十三届郑仙诞文化旅游周在广州白云山启动,

  在赤色的长廊上,有两圈弧长,在绿色场地上,有你的明亮,画出两圈生命 的轨迹,夺得无数由衷的惊喜。迈出不一样的生活旋律,奏出不同凡响的歌曲!

,M6app链接,盈丰国际真人娱乐,2022世界杯用球购买。

??12月05日,西安回民街人气十足迎来大量游客,

  这只是个孩子而已,竟有这种神通,一个诡异的符文出现在他的掌心,那是雷电的奥义,为该族不传之秘,是一种罕见的宝术!

,完美体育官网入口登录,澳门赌盘官方,斗牛顺口溜。

??时事4:电竞竞猜哪个平台好

??12月05日,青海设立关爱帮扶基金让退役军人“难有所解”,

  进一步加强保密工作。某近年来虽然没有发生过大的失泄密案件,但通过有关部门的几次专项检查,还是暴露出许多薄弱环节,有些单位和部门甚至存在失泄密的重大隐患,这些问题如果任其发展,后果不堪设想。对此,我们要有清醒的认识,采取措施,强化管理,牢固构筑保密安全防线。一是要切实抓好规范定密工作,从源头抓起,尽快建立和完善有关定密工作的规章制度,严格执行定密程序,坚决克服定密工作的随意性;二是高度重视电子政务建设和应用中的保密管理,重点抓好政务内网建设和应用中的保密管理,严禁涉及秘密的信息上网。三是加强保密督促检查和对失泄密案件的督查力度,弥补漏洞,减少隐患,杜绝泄密事件发生;四是抓好保密技术工作,增强保密技术防范能力,逐步改善保密设施和办文条件,努力提高地某地保密技术的整体防范能力。

,国内的线上德州平台,365bet在线中文网,世界杯竞猜投注规则。

??12月05日,第三对中央赠港大熊猫适应新家情况如何?带你先睹为快,

  今年4月,我与谷歌签订的四年合约期满。4月20日,公司首席执行官Eric Schmidt和我的直接上司Alan Eustace约我谈续约的事。总部对过去四年,谷歌中国取得的成绩深表满意。为了事业的稳步发展,公司自然希望中国领导层高度稳定。但对于我,公司正健康、稳步发展,功成身退,这是一个最佳时机。于是我非常坦诚地告诉他们,我可能不会续约。我的回答自然出乎他们的预料。但是,他们希望我能回去仔细考虑一下。

,现实炸金花必胜口诀,炸金花不要钱,澳门皇冠手机游戏网子。

责编:费利奇亚诺

审核:胡文平

责编:刀郎

相关推荐 换一换