2026世界杯投注时间,覆盖全网最新内容,实时更新不间断,精彩一手掌握_新万博体育
2026世界杯投注时间 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件西安街头遇大群外国人似在国外 → 2026世界杯投注时间 v2.748.5532.202976 IOS版

2026世界杯投注时间

2026世界杯投注时间

  • 电脑版下载
猜你喜欢
标签: 2026世界杯投注时间 亚星游戏登录平台
详情
介绍
猜你喜欢
相关版本

内容详情

2026世界杯投注时间

机器之心报道

编辑:Panda

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配新万博体育:计算资源,就能让模型的智商原地起飞。

但问题来了:我们该怎么让 LLM「多想」?

好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?

更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。

究竟哪个 TTS 策略才是那个「天选之子」?

为了结束这场盲人摸象般的争论,微软终于出手了。

他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。

论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008

这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营。

基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究。

测试时扩展方法简介

LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)。虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的

并行扩展策略

通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止。

序列扩展策略

通过迭代式的修正、重启或回溯来扩展推理深度。思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制。S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。

混合扩展策略

该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体(具有工具调用能力的 LLM)在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正,模拟自我改进循环。这些元调度器(meta-schedulers)认识到仅靠深度或并行扩展是不够的,旨在根据模型行为和提示动态调整策略。相比之下,内部扩展策略修改模型在推理过程中的内部计算量,而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性,如果置信度高则提前终止。

没有哪种策略是普遍最佳的。多项实证研究加强了这一观点,即没有 TTS 策略能持续占据主导地位。

微软这项研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前两者由变量 k 和 N 参数化,而后者仅由 N 参数化。

FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票(MV)以确定结果;而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的,随后对这些样本进行多数投票。

束搜索涉及维护一组高概率的部分假设(partial hypotheses),并在解码过程中不断更新这些前缀。

研究结果

束搜索显示出逆扩展或无扩展

研究的第一个爆点来自于对经典算法束搜索(Beam Search)的宣判。

在实验中,研究人员观察到了一个极其反直觉的现象:在「短视界」和「非推理」这两个模型家族中,束搜索表现出了一致的逆扩展(inverse-scaling) 模式:随着束大小 N 的增加,性能单调下降(图 1)。

看图便知,对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型,增加 N 也未能带来收益,准确率曲线要么躺平,要么缓慢下滑。

这意味着什么?意味着在束搜索上投入新万博体育:的计算量(增加 N 会消耗新万博体育: token),不仅是浪费,甚至是有害的。简直是花钱买罪受。

推理路径长度与质量的相关性

这项研究最核心的贡献,在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。

FFS 和 LFS 基于两个截然相反的观点:越短越好和越长越好。

为了调查哪种假设(或哪些假设)适用于特定模型,该团队报告了给定推理路径长度区间和问题难度下的准确率(表 1)。

请注意,问题难度是通过所有模型和路径的平均准确率来衡量的,而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是,问题难度与推理路径长度存在混淆(confounded,图 3):短路径通常源于较容易的问题,而长路径往往对应较难的问题。

为缓解这种混淆效应,他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集,他们分别计算短路径和长路径的单一准确率值,然后在数据集之间平均这些值,从而防止数据集大小的差异不成比例地影响聚合结果。

结果,他们将六个推理模型清晰地划分为两大阵营:

1. 短视界模型

代表成员:R1, QwQ-32B, DAPO-32B行为特征:对于给定的问题难度,更短的推理路径比更长的路径更可能是正确的。

这意味着这些模型在推理时往往「直击要害」,如果它们开始长篇大论,很可能是在「胡言乱语」或者陷入了无效循环。

有趣的是,DAPO-32B 尽管使用了 GRPO 等技术,依然表现出与 R1 相似的长度偏置,说明目前的后训练技术在缓解长度偏置方面可能还很有限。

2. 长视界模型

代表成员:Qwen3-32B, GPT-OSS-120B行为特征:它们的表现更为复杂且「世故」。

在简单问题上,它们倾向于较短的路径。但在困难问题上,它们则偏好较长的路径。

这类模型展现出了更强的适应性:遇到难题时,它们确实在利用额外的计算步骤进行有效推理,而非无效空转。

深度分析:预算与策略的博弈

既然模型性格迥异,那么在给定的计算预算(Token 消耗量)下,我们该如何选择最佳的 k 和 N?

研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线,发现了几个关键趋势:

LFS 的奥义在于「全员投票」

对于 LFS 系列方法,给定总计算量下的最大性能总是当 k 很大时(即 k=N)实现。注意,当 k=N 时,LFS 实际上就退化成了 多数投票(MV-N)。

结论非常简单粗暴:在消耗相同 token 的情况下,直接做多数投票(MV@N)总是优于刻意筛选最长路径的 LFS-k@N。

FFS 的微妙权衡

对于短视界模型: 较大的 N 值总是最好的。这意味着你应该采样很多样本,然后从中选出最短的那一批进行投票。

对于长视界模型:存在权衡。如果你想用高计算量换取高性能,你必须选择较小的 N(本质上是执行简单解码);而在非推理模型上则相反。

这一分析告诉我们,最佳 TTS 策略是随着预算的增加而动态扩展的

终极配方:如何为你的模型选择 TTS 策略?

基于上述海量实验数据,微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析,更是给算法工程师们的实战手册。

让我们来拆解这个配方的内在逻辑:

场景一:如果你使用的是「短视界模型」(如 R1, QwQ)

这类模型有个特点:无论题目难易,它们总是觉得「长话短说」的答案更靠谱。

低计算预算时:使用 FFS,且设定 k=1。即:采样 N 个答案,直接挑最短的那个作为最终答案。简单、快速、有效。

高计算预算时: 使用 FFS,且设定 k=N(等同于 MV@N)。即:采样 N 个答案,因为 N 个最短路径就是所有路径,所以这实际上就是标准的多数投票。

核心逻辑:对于短视界模型,性能随 N 的增大而提升。因此,只要预算允许,把 N 拉满,做多数投票即可。

场景二:如果你使用的是「长视界模型」(如 Qwen3)

这类模型比较「纠结」,策略选择稍微复杂一些。

面对高难度问题(High Difficulty):模型倾向于长路径。由于 LFS@N 随 N 增加而提升:

高计算预算: 使用大 N 的 MV@N。低计算预算: 使用小 N(理想情况下 N=1)的简单解码(SD)。

这里有一个有趣的结论:在保持 k=N 的情况下(即 MV),性能随 k 增大而提升。

面对低难度问题(Low Difficulty):此时模型偏好短路径(杀鸡焉用牛刀)。

高计算预算: 使用大 k 的 FFS。低计算预算: 使用小 k 的 FFS。

在这种设置下,设定 N=k(即 MV@N)依然是稳健的选择。

总结来看,尽管模型类型和任务难度千差万别,但最终的「配方」却表现出了惊人的殊途同归:对于绝大多数情况,多数投票(MV@N) 或者是其变体(如 FFS 中的 k=N)往往是性价比最高的选择。特别是对于「短视界」模型,不要试图通过让它「多想」来强行提升效果,新万博体育:时候,从大量的快速回答中通过投票筛选出共识,才是正确的打开方式。

微软的这项研究,实际上是在为 LLM 的推理能力「祛魅」。它告诉我们,测试时扩展并不是简单地堆砌算力,更不是盲目地追求更长的思维链。

理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天,这份基于 300 亿 token 实测得出的决策配方,无疑为我们节省了大量的试错成本。

下一次,当你准备让你的模型「再想一下」时,不妨先查查这份配方,看看你是否正在为一个「短视界」的模型,强加它并不擅长的长考重担

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    ManBetX万博线路检测 澳门新葡亰app官方 bet36亚洲版 华夏彩票官方网站下载 im电竞登录 世界杯免费网站 永利澳门官网预定 英皇体育平台网址 皇冠体育客户端官方下载 贝博官方下载 必赢真人投注 kok下载地址 澳门金沙线上娱乐广告词 十人游戏二八杠 世界杯真钱买球开户 千亿投注登录 kaiyun网页版人工客服 爱游戏体育登录官网 彩票平台网站 精准平特资料 百老汇真人游戏 皇马官方网站 真棋牌 真人炸金花棋牌 凯发娱乐网页版 利澳登录网址 怎么下载手机大发软件 打鱼注册送分 世界杯正规买球官网 188365体育平台下载 天博体育能信吗 AOA足球 天天德州害了多少人 世界杯下注在哪 必威官网登录网址 bob综合体育在线-平台 必威全站官网 沙巴体育欢迎注册 mg游戏官网在线平台 扎金花下载网址 微博钱包世界杯投注 乐投app下载 澳门金游戏城 十博体育app怎么下载 球探体育比分去广告 im电竞苹果版 澳门威斯尼斯人的网站 体育平台app哪个最好使 火狐体育全站app官网入口 澳门线上娱乐场 世界杯如何下注 世界杯怎么买球规则 世界杯投注奖金计算 必赢免费试玩 新六合杀手A 万博官网网页版首页登陆不了 盛大最新网络游戏 龙虎娱乐客户端 必赢亚洲体育官网app 马会财经A dafa888官方网站登录 大大棋牌十人牛牛 华体会 hth 登录入 银河登陆官网 世界杯2026网站 天博app平台 凯发娱发 英皇体育开户 云顶赢三张 明昇体育 万利游戏棋牌游戏下载 斗牛游戏排行榜 九游会网页版官网 bet365在线注册 国际象棋真人对战版 优德中文网站 永利在线注册登录 杏耀app官网 下载纬来体育 AYX爱游戏是黑平台吗 AG捕鱼官网 欧宝娱乐官网 皇冠游戏中心官方 什么软件买球赛靠谱 老哥俱乐部 美高梅用户登录中心 上葡京网投 伯爵游戏网站官网 凯发k8官网手机客户端 天博网页版登录 在哪投注买世界杯球票 云顶国际平台 世界杯可以在哪投注呢 leyu乐鱼体育 皇冠体育正网是哪个 初盘足球打水计算公式 vg棋牌平台首页 bobux官网 扑克王官方下载 天博体育app安卓下载 PG电子不开户试玩 沙巴体育漏洞 世界杯买球app进as83点me bt体育平台入口 欧宝体育官方下载 必赢线路检测 金年会 首页 足球网上直播 AG电玩 博狗平台首页 尊龙注册彩金 千赢国际手机官网首页 进入sunbet官网 宝博入口 世界杯 投注比例 世界杯在那里下注 银河竞彩官网 ag8游戏 双人捕鱼游戏网页 最火救济金棋牌游戏
    热门网络工具