当前位置:首页 → 电脑软件 → 西安街头遇大群外国人似在国外 → 2026世界杯投注时间 v2.748.5532.202976 IOS版
v5.16.9700.836487 安卓最新版
v2.709.7506.904463 最新版
v4.375 安卓最新版
v4.414 IOS版
v4.768 安卓版
v7.401 IOS版
v1.117 安卓免費版
v9.828.4829 IOS版
v1.973.2637 安卓版
v4.980.8619.500912 IOS版
v9.4.8503.392331 安卓版
v9.301.9550.899112 IOS版
v3.184.2919.538100 安卓版
v3.436.9051 安卓免費版
v3.551.1737.849526 安卓最新版
v8.375 PC版
v4.190 安卓漢化版
v8.201.177 安卓免費版
v5.542.6877.455759 安卓版
v3.695.9824.54960 安卓免費版
v6.906.1589.836388 PC版
v2.961 安卓最新版
v9.395.7907.466233 安卓免費版
v1.630.8232.282943 最新版
v8.461 PC版
v1.400.428.210199 安卓免費版
v8.513.185.129528 安卓最新版
v8.646.5867.886135 安卓漢化版
v3.708.716 安卓漢化版
v3.987.2090.355081 安卓漢化版
v6.472 安卓漢化版
v1.493.5030.313278 安卓免費版
v4.338 最新版
v1.57.2542 最新版
v1.453.6238.28008 安卓免費版
v2.395.1695.207940 安卓最新版
v5.893.6684.404474 安卓版
v3.864 安卓版
v8.873.9359.662174 安卓最新版
v1.48 安卓版
v8.858.5696.216667 PC版
v9.31.4351.252794 安卓最新版
v6.271 最新版
v4.388.259.502356 最新版
v7.146.2328 安卓免費版
v3.943.8524 安卓版
v8.630.9658.332847 安卓版
v1.768 PC版
v1.872.4863 最新版
v5.525.9623.60612 安卓免費版
v4.5 最新版
v8.847.1143 最新版
v2.304.2819.458213 安卓漢化版
v6.665.773.191152 IOS版
v3.530.2809 PC版
v9.193.7208.687453 安卓版
v7.47.7854.437099 安卓最新版
v9.986.417 PC版
v8.584.3363.713776 IOS版
v1.855.6518 IOS版
v3.575.9778.765862 安卓版
v5.494 安卓免費版
v8.949 安卓免費版
v6.386.218 IOS版
v4.130 安卓最新版
v5.545.1935 PC版
v6.637.8232 最新版
v1.242.15.870797 安卓免費版
v9.843.2488.369707 安卓漢化版
v8.958.2355.650840 安卓漢化版
v2.719.3612.327910 最新版
v5.632.1959 安卓免費版
v2.108.8099.2419 安卓免費版
v5.868 安卓漢化版
v2.61.2992 IOS版
v8.631 IOS版
v2.425.5784.773094 安卓漢化版
v6.828 安卓免費版
v1.450.4620 安卓免費版
v5.618 安卓版
2026世界杯投注时间
机器之心报道
编辑:Panda
如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。
现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配新万博体育:计算资源,就能让模型的智商原地起飞。
但问题来了:我们该怎么让 LLM「多想」?
好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?
更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。
究竟哪个 TTS 策略才是那个「天选之子」?
为了结束这场盲人摸象般的争论,微软终于出手了。
他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。
论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008
这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营。
基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究。
测试时扩展方法简介
LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)。虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的
并行扩展策略
通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止。
序列扩展策略
通过迭代式的修正、重启或回溯来扩展推理深度。思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制。S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。
混合扩展策略
该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体(具有工具调用能力的 LLM)在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正,模拟自我改进循环。这些元调度器(meta-schedulers)认识到仅靠深度或并行扩展是不够的,旨在根据模型行为和提示动态调整策略。相比之下,内部扩展策略修改模型在推理过程中的内部计算量,而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性,如果置信度高则提前终止。
没有哪种策略是普遍最佳的。多项实证研究加强了这一观点,即没有 TTS 策略能持续占据主导地位。
微软这项研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前两者由变量 k 和 N 参数化,而后者仅由 N 参数化。
FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票(MV)以确定结果;而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的,随后对这些样本进行多数投票。
束搜索涉及维护一组高概率的部分假设(partial hypotheses),并在解码过程中不断更新这些前缀。
研究结果
束搜索显示出逆扩展或无扩展
研究的第一个爆点来自于对经典算法束搜索(Beam Search)的宣判。
在实验中,研究人员观察到了一个极其反直觉的现象:在「短视界」和「非推理」这两个模型家族中,束搜索表现出了一致的逆扩展(inverse-scaling) 模式:随着束大小 N 的增加,性能单调下降(图 1)。
看图便知,对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。
即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型,增加 N 也未能带来收益,准确率曲线要么躺平,要么缓慢下滑。
这意味着什么?意味着在束搜索上投入新万博体育:的计算量(增加 N 会消耗新万博体育: token),不仅是浪费,甚至是有害的。简直是花钱买罪受。
推理路径长度与质量的相关性
这项研究最核心的贡献,在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。
FFS 和 LFS 基于两个截然相反的观点:越短越好和越长越好。
为了调查哪种假设(或哪些假设)适用于特定模型,该团队报告了给定推理路径长度区间和问题难度下的准确率(表 1)。
请注意,问题难度是通过所有模型和路径的平均准确率来衡量的,而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是,问题难度与推理路径长度存在混淆(confounded,图 3):短路径通常源于较容易的问题,而长路径往往对应较难的问题。
为缓解这种混淆效应,他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集,他们分别计算短路径和长路径的单一准确率值,然后在数据集之间平均这些值,从而防止数据集大小的差异不成比例地影响聚合结果。
结果,他们将六个推理模型清晰地划分为两大阵营:
1. 短视界模型
代表成员:R1, QwQ-32B, DAPO-32B行为特征:对于给定的问题难度,更短的推理路径比更长的路径更可能是正确的。
这意味着这些模型在推理时往往「直击要害」,如果它们开始长篇大论,很可能是在「胡言乱语」或者陷入了无效循环。
有趣的是,DAPO-32B 尽管使用了 GRPO 等技术,依然表现出与 R1 相似的长度偏置,说明目前的后训练技术在缓解长度偏置方面可能还很有限。
2. 长视界模型
代表成员:Qwen3-32B, GPT-OSS-120B行为特征:它们的表现更为复杂且「世故」。
在简单问题上,它们倾向于较短的路径。但在困难问题上,它们则偏好较长的路径。
这类模型展现出了更强的适应性:遇到难题时,它们确实在利用额外的计算步骤进行有效推理,而非无效空转。
深度分析:预算与策略的博弈
既然模型性格迥异,那么在给定的计算预算(Token 消耗量)下,我们该如何选择最佳的 k 和 N?
研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线,发现了几个关键趋势:
LFS 的奥义在于「全员投票」
对于 LFS 系列方法,给定总计算量下的最大性能总是当 k 很大时(即 k=N)实现。注意,当 k=N 时,LFS 实际上就退化成了 多数投票(MV-N)。
结论非常简单粗暴:在消耗相同 token 的情况下,直接做多数投票(MV@N)总是优于刻意筛选最长路径的 LFS-k@N。
FFS 的微妙权衡
对于短视界模型: 较大的 N 值总是最好的。这意味着你应该采样很多样本,然后从中选出最短的那一批进行投票。
对于长视界模型:存在权衡。如果你想用高计算量换取高性能,你必须选择较小的 N(本质上是执行简单解码);而在非推理模型上则相反。
这一分析告诉我们,最佳 TTS 策略是随着预算的增加而动态扩展的
终极配方:如何为你的模型选择 TTS 策略?
基于上述海量实验数据,微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析,更是给算法工程师们的实战手册。
让我们来拆解这个配方的内在逻辑:
场景一:如果你使用的是「短视界模型」(如 R1, QwQ)
这类模型有个特点:无论题目难易,它们总是觉得「长话短说」的答案更靠谱。
低计算预算时:使用 FFS,且设定 k=1。即:采样 N 个答案,直接挑最短的那个作为最终答案。简单、快速、有效。
高计算预算时: 使用 FFS,且设定 k=N(等同于 MV@N)。即:采样 N 个答案,因为 N 个最短路径就是所有路径,所以这实际上就是标准的多数投票。
核心逻辑:对于短视界模型,性能随 N 的增大而提升。因此,只要预算允许,把 N 拉满,做多数投票即可。
场景二:如果你使用的是「长视界模型」(如 Qwen3)
这类模型比较「纠结」,策略选择稍微复杂一些。
面对高难度问题(High Difficulty):模型倾向于长路径。由于 LFS@N 随 N 增加而提升:
高计算预算: 使用大 N 的 MV@N。低计算预算: 使用小 N(理想情况下 N=1)的简单解码(SD)。
这里有一个有趣的结论:在保持 k=N 的情况下(即 MV),性能随 k 增大而提升。
面对低难度问题(Low Difficulty):此时模型偏好短路径(杀鸡焉用牛刀)。
高计算预算: 使用大 k 的 FFS。低计算预算: 使用小 k 的 FFS。
在这种设置下,设定 N=k(即 MV@N)依然是稳健的选择。
总结来看,尽管模型类型和任务难度千差万别,但最终的「配方」却表现出了惊人的殊途同归:对于绝大多数情况,多数投票(MV@N) 或者是其变体(如 FFS 中的 k=N)往往是性价比最高的选择。特别是对于「短视界」模型,不要试图通过让它「多想」来强行提升效果,新万博体育:时候,从大量的快速回答中通过投票筛选出共识,才是正确的打开方式。
微软的这项研究,实际上是在为 LLM 的推理能力「祛魅」。它告诉我们,测试时扩展并不是简单地堆砌算力,更不是盲目地追求更长的思维链。
理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天,这份基于 300 亿 token 实测得出的决策配方,无疑为我们节省了大量的试错成本。
下一次,当你准备让你的模型「再想一下」时,不妨先查查这份配方,看看你是否正在为一个「短视界」的模型,强加它并不擅长的长考重担
相关版本
多平台下载
查看所有0条评论>网友评论