(8秒深度揭秘)胜博发注册最新版v83.1.97.1.22.66.31.9-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

2025-11-15 15:44:25
来源:

猫眼电影

作者:

陈谱

手机查看

  猫眼电影记者 沈厚富 报道Q8X2R7L1T4J5M9B6W3

机器之心报道

机器之心编辑部

今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。

据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主决定关注哪些位置。

MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。

然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。

在这篇论文中,来自MIT、NVIDIA机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。

基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。

然而,尽管小块尺寸在理论上更优,但在现有的 GPU 实现中,小块会导致严重的内存访问碎片化和低并行度,速度甚至慢于稠密注意力。

为解决这一矛盾,研究者进一步提出了FlashMoBA,一种硬件友好的 CUDA kernel,可在小块配置下仍然高效地执行 MoBA。

结果显示优化后的 MoBA 在性能上可与密集注意力基线相匹敌。对于小块场景,FlashMoBA 相比 FlashAttention-2 可实现最高 14.7 倍加速。

论文地址:https://arxiv.org/pdf/2511.11571项目地址:https://github.com/mit-han-lab/flash-moba论文标题:OPTIMIZING MIXTURE OF BLOCK ATTENTION

FLASHMOBA:一种面向小块 MoBA 的优化内核

理论模型表明,较小的块尺寸能带来显著的质量提升,但朴素的 GPU 实现效率低下。由月之暗面发布的原始 MoBA 实现,在配置小块尺寸时会遭遇性能瓶颈,这些瓶颈抵消了稀疏性带来的计算节省,导致执行速度比稠密注意力更慢。

研究者推出了 FlashMoBA,这是一种硬件感知的 CUDA 内核,旨在使小块 MoBA 变得实用且高效。

小块带来的性能挑战

小块尺寸引入了几个关键的性能挑战,要在实际部署中应用必须解决这些问题。

首先,在为每个查询收集稀疏、不连续的键值块时,会出现低效的内存访问,导致从 HBM 读取数据时出现非合并内存读取。

FLASHMOBA 内核设计

为了克服这些挑战,FlashMoBA 采用了三个融合内核,以最大限度地减少 HBM 往返次数,并使计算与 GPU 架构相对齐,如图 1 所示。

分块 Top-K 选择

Top-k 选择过程是原始 MoBA 实现中的主要瓶颈,该实现显式生成了完整的分数矩阵并串行处理批次序列。研究者将其替换为Flash TopK(图 1 中的步骤 1),这是一个由融合内核组成的高度优化的三阶段流水线。

最后,一个高效的后处理步骤将以查询为中心的索引重新格式化为以键块为中心的变长布局,以便进行主注意力传递。整个流水线在批次和注意力头之间完全并行化,消除了原始的性能瓶颈。

采用「收集并致密化」策略的前向传播

为了处理 MoBA 的不规则稀疏性,前向内核使用了一种基于两级分块机制的「收集并致密化」策略,详见算法 1。

要区分两种类型的块:

这种两级方法是关键所在,因为在 SRAM 中缓存查询允许在逻辑键块的所有物理图块之间复用数据,从而通过高效的稠密 GEMM(通用矩阵乘法)分摊昂贵的不规则内存访问成本。

带重计算的反向传播

反向传播利用了 FlashAttention-2 的内存高效设计,并实现为三个内核的序列(算法 5)。

主内核在键维度上并行化计算,每个线程块处理一个键块。为了处理稀疏性,它镜像了前向传播的「收集并致密化」策略,使用变长索引收集查询子集并将梯度输出到片上图块中。

遵循 FlashAttention-2 的方法,研究者在反向传播期间重计算注意力分数,以避免将完整的注意力矩阵存储在内存中。虽然键和值的梯度直接写入 HBM,但部分查询梯度需要跨多个键块进行累加,这是通过对高精度全局缓冲区使用原子加法来高效且安全地处理的。

这种设计确保了反向传播在序列长度上保持线性复杂度,这是相对于标准注意力的二次复杂度的一个关键改进。由于反向传播通常构成优化注意力实现的主要性能瓶颈(通常比前向传播慢 2-3 倍),因此我们需要反向内核的高效率对于实现长序列的实际训练至关重要。

实验及结果

本文从零开始预训练模型,并进行可控实验来验证 MoBA 的设计原则。实验共训练了两个模型,所有实验均在 8× H100 80GB GPU 上完成:

340M 参数模型(hidden size 1024,16 heads,中间层规模 2816);1B 参数模型(hidden size 2048,32 heads,中间层规模 8192)。

质量评估结果

本文在语言建模、长上下文检索以及真实任务上对 MoBA 的表现进行了评估。实验结果表明,改进后的模型在多种基准测试中提高了性能。

这一趋势在所有基准和不同模型规模上都保持一致。对 340M 模型来说,将块大小从 512 缩小到原来的 1/4 到 128,可带来如下提升:

语言建模准确率从 44.6% 提升到 45.6%(表 1);RULER 准确率从 38.8% 提升到 63.9%(表 3);LongBench 综合得分从 13.2 提升到 15.3(表 5)。

总体来看,小块尺寸对于 MoBA 达到与密集注意力相当的性能是必要的。

Key Convolution 。Key Convolution 在不同任务中都能带来性能提升,而且具有任务偏好特性。对于 340M 模型:

kconv3 将语言建模准确率从 45.1% 提升到 45.6%(表 1);kconv5 在 64K 长度检索任务中达到 100% 的检索率(表 3);在 LongBench 上,kconv3 得分达到 15.3%(表 5)。

对于 1B 模型:

kconv3 将语言建模准确率提升到 52.7%(表 2);将 RULER 准确率提升到 68.2%(表 4)。

这些结果表明,卷积通过使相关 token 在块内聚集,提升了有效均值差异 ,从而显著提高路由准确性。

注:卷积核宽度 W∈{3,5},分别记作 kconv3 和 kconv5。

稀疏匹配密集注意力机制。在多个基准测试和规模下,MoBA 的表现与密集注意力机制相当甚至更胜一筹。

效率结果

虽然理论上小块尺寸能够带来更高的模型质量,但此前由于 GPU 利用率低下,小块一直难以在实际中使用。FlashMoBA 的出现让这些配置真正变得可行。

端到端性能。图 3 对比了不同序列长度(8K 至 512K token)下的延迟和内存占用。FlashMoBA 在两项指标上都显著优于原始实现。

在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,内存占用减少 6.1 倍,原始 MoBA 在 128K 序列就会 OOM(内存溢出),而 FlashMoBA 能扩展到 512K。

随着序列越长、块越小,优势更明显,因为 FlashMoBA 消除了全局 reindex 的开销,在长序列条件下可实现最高 14.7× 快于 FlashAttention-2 的速度。

为了理解 FlashMoBA 的提速来源,图 4 展示了在 N=64K 下前向传播的耗时分布。

原始 MoBA 包含 5 个阶段:(1)计算质心并执行 top-k、(2)全局 reindex、(3)在路由后的索引上执行注意力、(4)局部因果注意力以及(5)合并结果。

其中步骤 (1)、(2)、(5) 占据了超过 70% 的执行时间。

FlashMoBA 则使用两个融合 kernel,这种融合设计将 64K 序列下的前向传播时间降至 49 ms,而 FlashAttention-2 在相同设置下为 99 ms。

??时事1:国际象棋的游戏真人怎么做

??11月15日,2023年川渝共建重大项目完成投资4138.4亿元,

  6、外出游玩,不随便跟陌生人走,不和陌生人说话,不接受陌生人给的食物或礼物,要提高辨别是非的能力。如果遇到与家长走散的情况,保持冷静,不要着急慌张,要知道拨打110或找警察帮忙,或在原地等候,切忌乱跑乱动,哭叫喊闹,需要医疗救护拨打120。

,库博体育app下载。

??11月15日,江西省宜春市人大常委会原党组成员、副主任刘安安被开除党籍,

  城中,土山上,那株祭灵再次绽放赤霞,那朵红花盛开,一道赤电冲起,横空斩了过去,锋锐无比。

,威尼斯5139手机版,万博手机版登录地址,老k游戏官网。

??时事2:日博游戏登录入口

??11月15日,部长通道丨如何解决“一票难求”、入境游客便利性等问题 部长回应来了→,

  不过,很快地,我们也开始种树苗了,张天未去领来一颗小桃树苗,递给我,我把小树苗放进挖好的坑里。他们一边填土,我一边把树苗往上提。不一会儿,我们的树苗就栽好了。但是,这可还没结束哦,我们还得把埋树苗的土踩成凹进去的样子,再踩平之后把小树浇上水,才算大功告成呢。于是,我们便抬起脚狂踩,不一会儿,土就踩平了,可我们的鞋子上都糊满了泥。最后,焦云帆和张天未去提了两桶水回来,给小树浇上,我们才拍拍手,终于舒了一口气。

,新联合早报,99游戏网,88什么网站。

??11月15日,探访福州侨厝心远庐:家的温暖 侨的根魂,

  好了,我就说到这儿,反正要切实做好儿童、少年的安全教育工作,提高青少年的交通安全意识,家长应该教给他们的子女一些应知的交通安全知识,避免发生交通事故,也应该培养他们的自救自护的能力。

,龙虎和官方正规平台,奔驰宝马电玩城游戏,抢庄牛牛游戏哪个。

??时事3:立即博

??11月15日,最高检:加强灵活就业和新就业形态劳动者权益保障,

  为了把你们培育成材,老师们付出了巨大的劳动。老师们也是人,也都有头疼脑热的时候,请同学们想一想,我们的老师多麽敬业呀:我们的老师风雨无阻,始终和同学们在一起,从来没有无故缺过一节课。我作为你们的班主任,作为你们的老师,我可以自豪地说,我始终和同学们在一起,摸怕滚打,朝夕与共,我基本对得起班级的每一个同学,对得起我们这个班集体,我做好了导演、配角、观众的角色,实践了我第一次给同学们立下的军令状:严字当头,学习第一,追求卓越,让每个同学都有一个精彩的人生;让平凡的教室洒满阳光,让你们心中都有一片灿烂的阳光,用师者的胸怀去包容一颗颗年轻的心,用师者的爱心去铸造每个学生的辉煌;捧出一颗心,献出全部情,严在当严处,爱在细微中。

,捕鱼大师每天什么时候吐分,w8优德官方网站,开元棋脾788vip下载。

??11月15日,(两会观察)两会多维度解答文化热题,

  4.发生火灾时要迅速逃生,不可贪恋财物。

,韦德国际官网,凯发APP下载,快3福彩平台。

??时事4:中国象棋大师网官网

??11月15日,台湾花莲县发生5.9级地震 震源深度9千米,

  “爹射杀了一头血脉非常纯净的貔貅的幼子,这……惹了大祸啊!”一位英姿慑人的年轻男子在殿宇中来回走动,非常不安。

,世界杯视频网站转播权,KU游娱乐登录入口,冠亚体育网站。

??11月15日,人民论坛网评|推动“四下基层”制度走深走实、见行见效,

  “人皇命我等来查,自是完全信任,谁敢不服?”殿中传来这般威严的声音。

,澳门永利网址下载,世界杯足彩怎么投注,be365体育平台。

责编:张振

审核:肖艺九

责编:向哲浚

相关推荐 换一换