新智元报道
编辑:LRST
【新智元导读】杜克大学团队发现,扩散大语言模型只需关注少量「中奖」token,就能在推理时把速度提升61-97倍,还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息,实现「少算多准」的双赢。
在大型语言模型的优化中,业界通常认为计算量与模型性能正相关。
然而,杜克大学陈怡然教授团队的一项最新研究DPad,却揭示了一个反直觉的现象:对于扩散大语言模型(dLLMs),通过一种「先验丢弃」策略,主动减少其计算量,不仅能带来高达61倍的推理加速,还能意外地增强模型语境学习的能力。
这一发现源于对dLLM内部一种「中奖彩票」(Lottery Ticket)现象的洞察。模型在生成文本时,其庞大的注意力网络中似乎隐藏着一个极度稀疏但高效的「中奖组合」。
DPad的核心贡献就在于,它无需训练,便能在推理时动态地、近乎零成本地找出这个组合,从而实现速度与精度的双重飞跃。
论文地址:https://arxiv.org/abs/2508.14148
代码地址:https://github.com/Crys-Chen/DPad
论文作者团队来自杜克大学CEI中心,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李海教授、陈怡然教授,其他作者还包括魏迟越、何银涛、张健一。
独特的注意力机制
dLLM的草稿纸
团队发现,dLLM的独特之处在于双向注意力,这使得它在生成文本时,会关注所有待生成的后文词元(Suffix Token),并将它们用作规划全文的「草稿纸」。
「草稿纸」机制使得模型能在Transformer的第n层往后文写入信息,然后在第n+1层读取后文信息,用于辅助前文的解码。
图1 「草稿纸机制」示意图,左下角为前文往后文写入信息,右上角为前文从后文读取信息
反直觉的实验
随手一抓,都能中奖?
前文提到,dLLM在解码前文时,会将大段的后文词元作为草稿纸。
团队进一步分析了模型对后文词元的注意力分数,发现模型对后文词元的注意力随着距离快速衰减,但还是会有一些零星「尖峰」。
说明后文词元有强烈的稀疏性,仅存在少量比较重要的词元。
这个发现完美契合了深度学习中著名的「彩票假说」(Lottery Ticket Hypothesis)。
受此启发,团队提出了「扩散彩票假说」(Diffusion Lottery Tickets Hypothesis):在dLLM的后缀token中,存在一个稀疏的「中奖彩票」子集,只要能「抽中」它们,就能在大幅降低计算成本的同时,达到甚至超越完整模型的性能。
图2 当前块对后缀token的注意力分数图。可以看到,后文token存在部分尖峰
这也是正常词元剪枝(Token Pruning)的逻辑——统计注意力分数,确定不重要的词元,然后将其删除。
然而,DPad团队并不满足于此,他们进行了一项颠覆性的实验:强行删除那些距离很远、但注意力得分很高的「尖峰」词元。
结果出乎意料——模型的准确率几乎毫无损失!
不同于自回归模型,dLLM展现出了惊人的「自愈能力」,仿佛后文词元的信息可以自由流动,当一个关键路径被阻断时,注意力会立刻转移到邻近的词元上,形成新的信息通路。
图3 「注意力迁移」现象,删除「关键词元」后,模型的注意力尖峰转移到附近词元
这个「注意力迁移」现象有力地证明:dLLM的全局规划能力并非依赖于某些特定位置的「明星词元」,而更像是一种分布式的、可替代的冗余系统。
研究人员并没有必要花费大量的计算去确定「关键词元」,直接先验地剪枝,最终保有一套系统就行。
DPad的核心
从「事后剪枝」到「事前筛选」
基于上述发现,DPad提出了一套全新的「事前筛选」逻辑。
不再让模型「全力计算后才发现浪费」,而是在计算开始前就果断地丢弃掉绝大部分冗余部分。
实现该目标的核心是两大策略:
1.滑动窗口 (Sliding Window):将模型的「目光」强制聚焦在当前解码位置附近的一个固定长度窗口内,从根本上杜绝了对遥远未来的无效关注。
这好比作家在写当前章节时,只详细规划紧邻的几章,而不是构思最后一章的具体措辞。
2.距离衰减丢弃 (Distance-decay Dropout):在窗口内部,也并非一视同仁。DPad采用一种随距离递减的概率来保留词元,即「越近的草稿越详细,越远的草稿越潦草」。
这两招简单而有效,共同构成了一个动态的「中奖彩票」筛选器,让模型在每一解码步都只使用一个极度稀疏但高效的注意力子集。
图4 (a)自回归模型;(b) 传统dLLM,需要关注所有后缀token;(c) DPad,仅关注附近少数经过筛选的后缀token
颠覆性的成果
速度与精确度的意外双赢
DPad带来的并非传统意义上「牺牲精度换速度」的权衡,而是一场双赢。
「严格匹配」准确率的大幅提升
在常规评测中,「灵活匹配」(Flexible-Match)只要求答案数值正确,而「严格匹配」(Strict-Match)则要求模型严格遵循范例的格式与推理步骤,是衡量模型「语境学习能力」的关键指标。
图5 「灵活匹配」得分和「严格匹配」得分。原始模型(左)没能按照「####」的格式输出答案,没能通过「严格匹配」;使用DPad(右)后模型成功「记得」按「####」输出答案,通过「严格匹配」
图6 DPad在LLaDA-Instruct上的效果
实验显示,原始的LLaDA-Instruct模型在GSM8K任务上严格匹配率仅为37.38%,因为它虽然能算对答案,却无法很好地复刻范例格式。
而应用DPad后,通过滤除大量无关后文词元的干扰,模型能更专注于学习prompt中的有效信息,严格匹配率跃升至63.84%。
这表明,DPad让模型变得更「专注」,更能领会并执行复杂指令。
图7 DPad在LLaDA-1.5上的效果
图8 DPad在Dream-Base上的效果
意料之中的惊人加速比
当模型不再需要为海量冗余信息耗费算力后,其推理速度得到了指数级解放。在短示例、长文本生成场景下,DPad的优势被发挥到极致:
图9 在GSM8K(1024 tokens, 1-shot)任务上,LLaDA-1.5+Fast-dLLM+DPad实现了61.39倍的加速
图10 在HumanEval(2048 tokens, 0-shot)任务上,Dream-Base+Fast-dLLM+DPad实现了97.32倍的加速
在LLaDA-1.5模型(1024 词元输出)上,DPad结合并行解码等优化后,实现了61.39倍的综合加速。
在Dream模型(2048 词元输出)上,这一数字更是达到了97.32倍。
总结
DPad证明,对于dLLM而言,「少即是多」。
它通过一种巧妙的、免训练的「事前筛选」机制,揭示并利用了dLLM中潜在的稀疏结构。
其带来的不仅是接近两个数量级的推理加速,更有对模型深层能力的意外增强。
这项工作为我们开辟了一条全新的优化思路:未来的模型设计或许可以更大胆地探究稀疏性,让dLLM在「化繁为简」的道路上走得更远。
参考资料:
https://arxiv.org/abs/2508.14148
《火影雏田裸体❌开腿视频》,《P6F3X2M7T9QJ8L1B4WZR》肥猫中国韩国女团
“无遮挡同人漫画网站”
交换的乐趣许明林雪小说免费阅读
……
09月23日
“国精产品㊙️一区二区”广州:呼吸道疾病以流感为主
↓↓↓
09月23日,太湖边参加定向越野赛,是一种怎样的体验?,景甜裸被❌视频网站new,虐乳➕灌➕电击➕虐菊,佐伊被❌吸乳羞羞漫画,虞书欣被到喷水18禁视频
09月23日,【科技强国有我】加快发展新质生产力,少妇婬乱全黄A片免费看楼梯裸体,拳交孕妇极端,摸同桌的胸小🐔直了起来,梅花十三❌🐻黄漫扒衣服
09月23日,美国青年泛舟杭州西湖 感受世遗魅力,gorgeous霉霉,YOUJIZZJIZZJIZZ18,美女校花🌸张开腿让我❌,96XXXX👅护士
09月23日|外交部:以“产能过剩”为由打压中国绿色产业发展不利于应对气变|小🐔🐔伸进禁🈲🔞🔞网|骑马羞意|色欲av㊙️臀av高清红桃|多强被❌c到爽🔞H游戏
09月23日|习近平离京赴利马出席亚太经合组织第三十一次领导人非正式会议并对秘鲁进行国事访问|王局长把乳罩解开吃胸的动态图|🈚️🐴🈲群•免•费看🔞|无爱不欢(**)原创视频|欧美精品国产动漫
09月23日|广东省卫生健康委原副主任徐庆锋被“双开”|美女C八衣服网站动画|火影扒开腿做❌同人动漫|❤国产精品海角影院❤|花火被狂❌到高潮在线看……
09月23日,东西问丨汉学家马克林:为什么说新疆现实与所谓“种族灭绝”的恶意指控恰恰相反?,坤坤浏览器官网入口,动漫美女裸体㊙️免费视频-百度,草莓视频在线观看比赛,美丽姑娘免费播放电视剧全部
09月23日,一手拿钥匙、一手拿房本!“交房即交证”背后有这些创新→,ΠOнлайн❤hd365,骇爪私下脱袜子,希格雯裸体被❌涩涩,喜猫猫把棉签戳进屁屁里
09月23日|调查:韩国总统尹锡悦施政好评率创近19个月新低|⭕⭕⭕⭕XXXX|女生啊~你tm别㖭了麻豆的软件|欧美男男GaYGAYS✅免费|小🐤🐤戳进🍑是什么感觉
09月23日,北京通州谋建环球影城二三期 年客流量望达3000万人次,Gay打屁股撅起来打屁股,疯狂❌喷水爽www噜噜噜,高潮喷水抽搐合不拢H,五十路近亲祖母
09月23日,高峰日产原油约2600吨 我国海上首个多层稠油热采开发项目投产,阿米娅裸体污图,女性自慰喷水流白浆A片,国产51精品㊙️入口,免费吃瓜 黑料泄密 爆料曝光
09月23日,北极寒流来袭 美国多地遭遇创纪录低温,ben10同人黄漫,日本❌❌❌69人妻在线石川,Gay男男受虐视频免费看,半夜脱亲妺妺的内裤好爽作文
09月23日|促进房地产市场平稳健康发展税收优惠政策发布|黄❌色❌网❌站❌3D|3d动漫大全|体内裸交❌❌❌❌|深田在线亚洲一区红桃♥️
09月23日|广西桂林市入选“自然城市”平台|!脱👙让摸🐻|三个妇女玩人妖|白燕妮被戴乳环蒂环|打屁股㊙️真人视频网站
09月23日|何立峰会见法国赛诺菲集团董事会主席乌代阿时指出 中国正不断扩大高水平对外开放 鼓励外资企业在华持续投资发展|刘浩纯的裸奶无遮挡照片|崩坏H黄污同人18禁|美女❌❌❌免费动漫观看|吴艳妮自慰喷水免费观看
只有央妈才能做的节目,小义 时间线|国台办主任宋涛为海峡两岸青少年棒球邀请赛开球 与台湾球员互动|350234黑土怎么找本|纳西妲被胸❌脱内内|麻豆国产91❤在线播放猎赤|女儿牦户突出图片欣赏
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺