ag捕鱼平台登录,让你的娱乐方式焕然一新,体验全新的互动快感

首页 >新闻 >社会新闻

通用的dLLM开发框架，让BERT掌握扩散式对话

2025-11-21 23:32:34

来源：

猫眼电影

作者：

曲英杰

手机查看

　　猫眼电影记者俞越报道Q8X2R7L1T4J5M9B6W3

周展辉（https://zhziszz.github.io/）：加州大学伯克利分校计算机博士生；

陈凌杰（https://lingjiechen2.github.io/）：伊利诺伊大学厄巴纳香槟分校计算机博士生

扩散式语言模型（Diffusion Language Model, DLM）虽近期受关注，但社区长期受限于（1）缺乏易用开发框架与（2）高昂训练成本，导致多数 DLM 难以在合理预算下复现，初学者也难以真正理解其训练与生成机制。

为此，伯克利与 UIUC 团队基于自研的扩散语言模型工具 dLLM，做了一个简单的实验：让 BERT 通过离散扩散学会对话。结果远超预期 —— 无需生成式预训练，仅约 50 GPU?小时的监督微调，ModernBERT-large-chat-v0（0.4B 参数）在多项任务中的表现已逼近 Qwen1.5-0.5B，证明「离散扩散 + 轻量级指令微调」即可赋予经典 BERT 强生成能力，为社区提供了真正高效、低成本的方案。

更重要的是，团队已将训练、推理与评测的全流程代码完全开源，并封装为可直接运行的「Hello World」示例，使初学者也能轻松复现并理解扩散式语言模型的关键步骤。同时团队也开源了其背后的支持框架 dllm，兼容当前主流开源扩散模型且有极强的可扩展性。

项目链接：https://github.com/ZHZisZZ/dllm项目报告：https://wandb.ai/asap-zzhou/dllm/reports/dLLM-BERT-Chat--VmlldzoxNDg0MzExNg项目模型：https://huggingface.co/collections/dllm-collection/bert-chat

dLLM: 支撑 BERT Chat 的通用扩散语言模型框架

BERT Chat 系列的训练、评测与可视化均基于团队自研的 dLLM—— 一个面向扩散式语言模型的统一开发框架。dLLM 不仅是工具库，更是一体化的研究平台，持续吸引研究者使用与贡献。

在设计上，dLLM 强调易用性与可复现性。框架结构清晰、脚本完善，使 BERT Chat 等扩散式训练实验能够在单卡甚至笔记本环境复现，非常适合初学者快速入门。同时，它兼容当前主流的开源扩散语言模型，包括 Dream、LLaDA、RND 等，提供灵活的模型基座选择。

更重要的是，dLLM 还实现了多个缺乏公开实现的研究算法，如 Edit Flows，使许多原本停留在论文中的扩散式生成方法得以真正落地，为社区进一步探索提供了坚实基础。

基座模型选择：为何最终选择 ModernBERT

在选择基座模型之前，实验首先关注 ModernBERT 这一近期提出的 BERT 变体。相比原始 BERT 的 512-token 上下文窗口，ModernBERT 将上下文长度显著扩展至 8,192 tokens，并在多个非生成式基准任务上表现更优。因此，实验的核心问题是：这些改进是否能够在生成式训练场景中带来实际收益？为此，实验采用离散扩散语言建模，在 Wikitext-103-v1 数据集上进行了预训练测试。结果显示，在一众对比的模型中，ModernBERT 达到了最低的训练 loss，表明它在生成式训练中同样具备优势。基于这一表现，我们选定 ModernBERT 为后续离散扩散训练与指令微调的主要基座模型。

扩散式预训练是否必要？

SFT 已足以激活生成能力

在探索扩散式训练路径时，实验首先尝试在更大规模的语料库（OpenWebText）上对 ModernBERT 进行离散扩散语言建模预训练。然而，与在 Wikitext-103-v1 上的训练效果不同，模型在 OpenWebText 上的训练 loss 并未出现显著下降。这一结果表明，ModernBERT 的原始 MLM 预训练已经提供了大量语言与世界知识，对相似语料进行额外的 MDLM 预训练可能收益有限。

由此进一步提出疑问：对于 ModernBERT 而言，持续的生成式预训练是否真的必要？为验证这一点，实验分别对三种 ModernBERT-large 检查点进行指令微调（SFT）：

(1) 未经任何生成式预训练的版本，

(2) 在 Wikitext-103-v1 上做过 MDLM 预训练的版本，

(3) 在 OpenWebText 上做过 MDLM 预训练的版本。

尽管经过生成式预训练的模型（2 和 3）在 SFT 初期具有更低的训练 loss，但三者最终在训练与评测 loss 上的收敛表现几乎相同。该结果说明，ModernBERT 的原始 MLM 预训练已编码了足够的语言知识，在此基础上进行额外的离散扩散语言建模预训练，对后续的指令微调带来的收益非常有限。

在确认预训练并非必要后，团队扩大了 SFT 数据规模，将 allenai/tulu-3-sft-mixture 与 HuggingFaceTB/smoltalk 拼接，并分别在 ModernBERT-base 与 ModernBERT-large 上进行离散扩散微调，最终得到两个模型权重：ModernBERT-base-chat-v0（0.1B）与 ModernBERT-large-chat-v0（0.4B）。两者均展现出稳定的多轮对话能力。综合这些结果可以得到结论：对于 BERT 而言，扩散式 SFT 本身就足以激活生成能力；额外的生成式扩散预训练带来的收益极小，而决定最终性能的关键是指令微调。

实验结果：超乎预期的小模型表现

在多项主流评测任务上，对 ModernBERT 系列模型进行了系统测试，包括 LAMBADA（语言理解）、GSM8K（数学推理）以及 CEVAL-valid（中文知识测评）。结果显示，ModernBERT-base-chat-v0（0.1B）与 ModernBERT-large-chat-v0（0.4B）在各项指标上均表现稳定，其中 large 版本的整体性能已接近 Qwen1.5-0.5B。值得注意的是，ModernBERT-base-chat-v0 仅使用约四分之一规模的参数（0.1B），便能够生成流畅自然的语言，这进一步说明扩散式训练在小模型规模下依然具备竞争力。

项目说明：一份为学习而生的扩散模型示例

团队将 BERT Chat 系列定位为一项教学与研究实验，而非商用系统。在 0.1B 与 0.4B 这样的小模型规模下，我们并不过多追求其在基准测试集上的表现，但它们足以作为入门示例，帮助研究者理解扩散式语言模型的训练与生成机制。若希望进一步探索模型潜力，也可以尝试减少扩散步数（例如将 T 减半），通常会带来明显的生成速度提升，因为扩散模型能够在一次迭代中并行生成多个 token。

为保持研究过程的透明与可复现性，团队不仅开放了完整的训练脚本，还公布了全部训练曲线、消融实验、参数设置与运行指令。相关记录可直接在 W&B 报告中查看。我们相信，开放研究不应只呈现成功的结果，而应将完整的探索过程一并公开，帮助社区更全面地理解扩散语言模型的研究路径。

总结：BERT 的新潜力

本研究展示了一个简单却关键的结论：仅依靠扩散式 SFT 与少量指令数据，就能够赋予传统 BERT 实用级的对话生成能力。无需庞大的自回归预训练，也无需 TB 级 token 的数据成本，BERT 仍然具备被「重新激活」的潜力。对于一直希望找到一个「能跑通、能看懂」的 Diffusion LM 教程的读者而言，dLLM 正是一个从训练、推理到评测都能完整贯通的起点。

??时事1：188宝金博网站是什么

??11月21日,利马APEC国际媒体中心：VR技术带记者体验古老文明,

　　创新工场的主要预期分为三部分：从人才培养的角度，我们希望看到越来越多的青年在我们的帮助下实现梦想、创造奇迹;从公司商业运作的角度，希望每年能够孵化出3-5个成熟的公司，看到他们一天天的成长;从投资者的角度，我们希望在几年之后就能够有对投资者有优厚的回报。

,和记娱乐开户网址。

??11月21日,在发展中保障和改善民生,

　　像这个学期，我们学校团委在抓好各项工作的同时就开展了许多富有朝气的活动，比如元旦文艺汇演、手抄报展、中学生广播体操比赛、学生篮球联赛等等，这都得到了学校领导的高度重视和大力支持，活动也被纳入到学校“阳光体育”活动的

,888真人国际网站,188金博网app下载,葡京官网开户。

??时事2：亚新在线登陆

??11月21日,民政部联合多部门打击整治非法社会组织 1100多家被处置、164个网站被关停,

　　五年来，全乡把加快发展作为第一要务，突出抓好经济建设，并根据该乡农业生产特点，适时调整农业产业结构。在注重抓好经济发展的同时，乡党委下大力气加强了乡村两级班子的思想和工作作风建设，进一步融洽了党群干群关系，有力地促进全乡经济和各项事业的健康发展。

,手机买球,抢庄牛牛手游下载,美高梅正网平台。

??11月21日,2023年云南林木植被碳储量达11.7亿吨居全国第一,

毕业班篇26

,九卅娱乐手机版app,永利电玩城app,优德真人。

??时事3：澳门赌场游戏

??11月21日,2024年9月全国查处违反中央八项规定精神问题22313起,

　　众人直愣愣，近乎傻眼，这样强大的一件宝具，几乎等同于神狼己身亲自出马啊，就直接被废了。

,开元棋牌怎么开户,bwin网投,美高梅官网网。

??11月21日,专家：症状减轻不代表炎症消失哮喘治疗应长期、连贯,

　　二要联系实际，活学活用。大家在学习的时候，要对照自己的村情，结合各自的实际，有针对性地学，特别是结合工作实践中的疑难问题和薄弱环节，带着问题学，使这次学习培训取得良好效果。

,手机真钱的棋牌游戏,美高梅注册,金世豪娱乐城。

??时事4：火狐体育网址多少

??11月21日,“黑科技”扎堆亮相浙江交博会展现智慧交通新图景,

　　“毅儿在哪里，是不是他手下的人做的？！”如黄金狮子般的四太爷喝道。

,ju11手机登录,澳门世界杯投注平台,Yabo下载。

??11月21日,多国和国际组织重申恪守一个中国原则外交部：正义之声、和平之声,

　　显然，这是一件极其珍贵的宝具，可以贴地飞行，缩地成寸。

,威尼斯人官网登陆页,威尼斯赌城线上网投,银河快速注册。

【柬埔寨举办首届数字政府论坛推动技术研发创新】

【去年以来缅甸累计向中方移交4.9万名中国籍涉诈犯罪嫌疑人】

责编：王春强

审核：程渡生

责编：武昌雄

新万博体育

通用的dLLM开发框架，让BERT掌握扩散式对话

毕业班 篇26

毕业班篇26