(8分钟图文详解)高清无码zwzm安卓版v43.53.80.02.29.87-2265安卓网_新万博体育
高清无码zwzm 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件北方多地本周最高温或超30度 → 高清无码zwzm v3.295.2987 安卓免費版

高清无码zwzm

高清无码zwzm

  • 电脑版下载
猜你喜欢
标签: 高清无码zwzm 78色国产精品
详情
介绍
猜你喜欢
相关版本

内容详情

高清无码zwzm

机器之心报道

编辑:Panda

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配新万博体育:计算资源,就能让模型的智商原地起飞。

但问题来了:我们该怎么让 LLM「多想」?

好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?

更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。

究竟哪个 TTS 策略才是那个「天选之子」?

为了结束这场盲人摸象般的争论,微软终于出手了。

他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。

论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008

这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营。

基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究。

测试时扩展方法简介

LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)。虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的

并行扩展策略

通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止。

序列扩展策略

通过迭代式的修正、重启或回溯来扩展推理深度。思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制。S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。

混合扩展策略

该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体(具有工具调用能力的 LLM)在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正,模拟自我改进循环。这些元调度器(meta-schedulers)认识到仅靠深度或并行扩展是不够的,旨在根据模型行为和提示动态调整策略。相比之下,内部扩展策略修改模型在推理过程中的内部计算量,而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性,如果置信度高则提前终止。

没有哪种策略是普遍最佳的。多项实证研究加强了这一观点,即没有 TTS 策略能持续占据主导地位。

微软这项研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前两者由变量 k 和 N 参数化,而后者仅由 N 参数化。

FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票(MV)以确定结果;而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的,随后对这些样本进行多数投票。

束搜索涉及维护一组高概率的部分假设(partial hypotheses),并在解码过程中不断更新这些前缀。

研究结果

束搜索显示出逆扩展或无扩展

研究的第一个爆点来自于对经典算法束搜索(Beam Search)的宣判。

在实验中,研究人员观察到了一个极其反直觉的现象:在「短视界」和「非推理」这两个模型家族中,束搜索表现出了一致的逆扩展(inverse-scaling) 模式:随着束大小 N 的增加,性能单调下降(图 1)。

看图便知,对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型,增加 N 也未能带来收益,准确率曲线要么躺平,要么缓慢下滑。

这意味着什么?意味着在束搜索上投入新万博体育:的计算量(增加 N 会消耗新万博体育: token),不仅是浪费,甚至是有害的。简直是花钱买罪受。

推理路径长度与质量的相关性

这项研究最核心的贡献,在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。

FFS 和 LFS 基于两个截然相反的观点:越短越好和越长越好。

为了调查哪种假设(或哪些假设)适用于特定模型,该团队报告了给定推理路径长度区间和问题难度下的准确率(表 1)。

请注意,问题难度是通过所有模型和路径的平均准确率来衡量的,而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是,问题难度与推理路径长度存在混淆(confounded,图 3):短路径通常源于较容易的问题,而长路径往往对应较难的问题。

为缓解这种混淆效应,他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集,他们分别计算短路径和长路径的单一准确率值,然后在数据集之间平均这些值,从而防止数据集大小的差异不成比例地影响聚合结果。

结果,他们将六个推理模型清晰地划分为两大阵营:

1. 短视界模型

代表成员:R1, QwQ-32B, DAPO-32B行为特征:对于给定的问题难度,更短的推理路径比更长的路径更可能是正确的。

这意味着这些模型在推理时往往「直击要害」,如果它们开始长篇大论,很可能是在「胡言乱语」或者陷入了无效循环。

有趣的是,DAPO-32B 尽管使用了 GRPO 等技术,依然表现出与 R1 相似的长度偏置,说明目前的后训练技术在缓解长度偏置方面可能还很有限。

2. 长视界模型

代表成员:Qwen3-32B, GPT-OSS-120B行为特征:它们的表现更为复杂且「世故」。

在简单问题上,它们倾向于较短的路径。但在困难问题上,它们则偏好较长的路径。

这类模型展现出了更强的适应性:遇到难题时,它们确实在利用额外的计算步骤进行有效推理,而非无效空转。

深度分析:预算与策略的博弈

既然模型性格迥异,那么在给定的计算预算(Token 消耗量)下,我们该如何选择最佳的 k 和 N?

研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线,发现了几个关键趋势:

LFS 的奥义在于「全员投票」

对于 LFS 系列方法,给定总计算量下的最大性能总是当 k 很大时(即 k=N)实现。注意,当 k=N 时,LFS 实际上就退化成了 多数投票(MV-N)。

结论非常简单粗暴:在消耗相同 token 的情况下,直接做多数投票(MV@N)总是优于刻意筛选最长路径的 LFS-k@N。

FFS 的微妙权衡

对于短视界模型: 较大的 N 值总是最好的。这意味着你应该采样很多样本,然后从中选出最短的那一批进行投票。

对于长视界模型:存在权衡。如果你想用高计算量换取高性能,你必须选择较小的 N(本质上是执行简单解码);而在非推理模型上则相反。

这一分析告诉我们,最佳 TTS 策略是随着预算的增加而动态扩展的

终极配方:如何为你的模型选择 TTS 策略?

基于上述海量实验数据,微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析,更是给算法工程师们的实战手册。

让我们来拆解这个配方的内在逻辑:

场景一:如果你使用的是「短视界模型」(如 R1, QwQ)

这类模型有个特点:无论题目难易,它们总是觉得「长话短说」的答案更靠谱。

低计算预算时:使用 FFS,且设定 k=1。即:采样 N 个答案,直接挑最短的那个作为最终答案。简单、快速、有效。

高计算预算时: 使用 FFS,且设定 k=N(等同于 MV@N)。即:采样 N 个答案,因为 N 个最短路径就是所有路径,所以这实际上就是标准的多数投票。

核心逻辑:对于短视界模型,性能随 N 的增大而提升。因此,只要预算允许,把 N 拉满,做多数投票即可。

场景二:如果你使用的是「长视界模型」(如 Qwen3)

这类模型比较「纠结」,策略选择稍微复杂一些。

面对高难度问题(High Difficulty):模型倾向于长路径。由于 LFS@N 随 N 增加而提升:

高计算预算: 使用大 N 的 MV@N。低计算预算: 使用小 N(理想情况下 N=1)的简单解码(SD)。

这里有一个有趣的结论:在保持 k=N 的情况下(即 MV),性能随 k 增大而提升。

面对低难度问题(Low Difficulty):此时模型偏好短路径(杀鸡焉用牛刀)。

高计算预算: 使用大 k 的 FFS。低计算预算: 使用小 k 的 FFS。

在这种设置下,设定 N=k(即 MV@N)依然是稳健的选择。

总结来看,尽管模型类型和任务难度千差万别,但最终的「配方」却表现出了惊人的殊途同归:对于绝大多数情况,多数投票(MV@N) 或者是其变体(如 FFS 中的 k=N)往往是性价比最高的选择。特别是对于「短视界」模型,不要试图通过让它「多想」来强行提升效果,新万博体育:时候,从大量的快速回答中通过投票筛选出共识,才是正确的打开方式。

微软的这项研究,实际上是在为 LLM 的推理能力「祛魅」。它告诉我们,测试时扩展并不是简单地堆砌算力,更不是盲目地追求更长的思维链。

理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天,这份基于 300 亿 token 实测得出的决策配方,无疑为我们节省了大量的试错成本。

下一次,当你准备让你的模型「再想一下」时,不妨先查查这份配方,看看你是否正在为一个「短视界」的模型,强加它并不擅长的长考重担

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    欧美A在线免费观看 一级黄片婬片视频在线观看 美女互扣 欧洲美熟女乱又伦AA片试看 在线人成免费观看网站 精品自拍不卡在线观看 可以直接去看的黄色网站 视频色在线看网站aaa 黄片免费视频在线观看 日韩精品一区二区不卡视频在线观看 斩神红缨h乳欲伦岳小说 TS米兰的最新视频 by12777·coon免费观看电视剧 国产热线一区 日本     色情65 91国产 日韩高清dvd碟片 刷刀体质修改器(免费) 操B操B 日韩 欧美 在线视频 99久久精品无码一 亚洲精品国产精品麻豆99 18禁  女奥特曼被捏胸 精品一区二区三区美女 好爽⋯要高潮了⋯,小 国产aⅴ无码片毛片一级网站 国产在线精品免费观看 2020人人摸人人操 国产最新视 日本一级片 美女隐私无遮挡 国产操片 国产精品不卡站 国产自国产在线观看免费观看 超91自拍偷拍 欧美妓女视频 99r在线 国产乱子一级毛片手机在线 www.s1566.com 自拍偷拍25页 青少年gαy洗澡互吃鳮吧网站 亚洲自拍无码 久热婷婷 亚洲一区二区三区黄网站 永久免费在线观看视频 干欧美美女 2019狠狠干 色哟哟网址入口在线播放 精品国产AV。th 日韩av免费av 毛片电影在线免费看 涩涩网站免费 操逼欧美视频 成年在线观看网站免费视频 快手约炮 国产黄色网www XXXX日本三级网站 5h3CCA片-5h3CCA片最新版v32.8.96.3.7 性生大片免费观看网站 性爱视频免费网站 亚洲黄色录像 国黄色录像一级视频 98国产在线视频福利 yy无码 男生和女生一起打扑克 igao视频为爱找点刺激 黄色网站入口 色色色66 9.1免费cad网站 嗯啊求求你戴套人妻排卵期啊小说 久久91精品综合国产91久久 唐安琪最想删除的三个角色 毛在线 呦呦呦网站 欧美色黄在线直播视频 大便goshopping网站 亚洲无矿转吗免费在线看中文版在线看 东京热久久 99re3在线视频 婷婷五月天最新网址 欧美作爱情侣网 肌肉男脱短裤露出睾丸视频被绑视频 国产永久视频 国产一区二区免费精品无码 舒淇被 到喷水18禁视频 超碰在线免费观看免费在线观看免费在线观看免费在线观看免费在线观看免费在线 av在线青春草 大鸡巴导航 一级a啪啪不卡91 男生把坤坤放入女生坤坤中 黃色AAAA片三級免费看 6月色色色色色色 人人操人人插人人爱人人色人人尻 久久免費黃色網站 欧美一级操逼大片 8x8×在线永久免费视频 琪亚娜被爆 羞羞漫画 天天色欲色香 超碰动态图 玖玖国产午夜福利 91苏州晶体公司安卓 免费稿黄动漫在线看 a级片在线免费视频 久久手机视频精品 99ri国产一区 大爷操 亚洲日韩乱伦中文 日韩精品欧美亚洲国产最大 69国产超级乱婬Aⅴ片 男男搞基 欧美性爱与欧美性爱 日韩欧美在线精品视频一区二区 理论偷拍片 chinese猛男twink国产 8000块钱买初一原视频 airfly87黄小鬼画片解析摄像头人是谁 全祼美女做爱无码 孙阿姨仓库保洁1-10章的读后感 花季传谋色板 我是你小䧅快拔出来在线视频
    热门网络工具