成人 免费A片视频,让你的娱乐方式焕然一新,体验全新的互动快感_新万博体育
成人 免费A片视频 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件老家伙 → 成人 免费A片视频 v7.956 安卓免費版

成人 免费A片视频

成人 免费A片视频

  • 电脑版下载
猜你喜欢
标签: 成人 免费A片视频 欧美一级A片网站
详情
介绍
猜你喜欢
相关版本

内容详情

成人 免费A片视频

机器之心报道

机器之心编辑部

今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。

据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主决定关注哪些位置。

MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。

然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。

在这篇论文中,来自MIT、NVIDIA机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。

基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。

然而,尽管小块尺寸在理论上更优,但在现有的 GPU 实现中,小块会导致严重的内存访问碎片化和低并行度,速度甚至慢于稠密注意力。

为解决这一矛盾,研究者进一步提出了FlashMoBA,一种硬件友好的 CUDA kernel,可在小块配置下仍然高效地执行 MoBA。

结果显示优化后的 MoBA 在性能上可与密集注意力基线相匹敌。对于小块场景,FlashMoBA 相比 FlashAttention-2 可实现最高 14.7 倍加速。

论文地址:https://arxiv.org/pdf/2511.11571项目地址:https://github.com/mit-han-lab/flash-moba论文标题:OPTIMIZING MIXTURE OF BLOCK ATTENTION

FLASHMOBA:一种面向小块 MoBA 的优化内核

理论模型表明,较小的块尺寸能带来显著的质量提升,但朴素的 GPU 实现效率低下。由月之暗面发布的原始 MoBA 实现,在配置小块尺寸时会遭遇性能瓶颈,这些瓶颈抵消了稀疏性带来的计算节省,导致执行速度比稠密注意力更慢。

研究者推出了 FlashMoBA,这是一种硬件感知的 CUDA 内核,旨在使小块 MoBA 变得实用且高效。

小块带来的性能挑战

小块尺寸引入了几个关键的性能挑战,要在实际部署中应用必须解决这些问题。

首先,在为每个查询收集稀疏、不连续的键值块时,会出现低效的内存访问,导致从 HBM 读取数据时出现非合并内存读取。

FLASHMOBA 内核设计

为了克服这些挑战,FlashMoBA 采用了三个融合内核,以最大限度地减少 HBM 往返次数,并使计算与 GPU 架构相对齐,如图 1 所示。

分块 Top-K 选择

Top-k 选择过程是原始 MoBA 实现中的主要瓶颈,该实现显式生成了完整的分数矩阵并串行处理批次序列。研究者将其替换为Flash TopK(图 1 中的步骤 1),这是一个由融合内核组成的高度优化的三阶段流水线。

最后,一个高效的后处理步骤将以查询为中心的索引重新格式化为以键块为中心的变长布局,以便进行主注意力传递。整个流水线在批次和注意力头之间完全并行化,消除了原始的性能瓶颈。

采用「收集并致密化」策略的前向传播

为了处理 MoBA 的不规则稀疏性,前向内核使用了一种基于两级分块机制的「收集并致密化」策略,详见算法 1。

要区分两种类型的块:

这种两级方法是关键所在,因为在 SRAM 中缓存查询允许在逻辑键块的所有物理图块之间复用数据,从而通过高效的稠密 GEMM(通用矩阵乘法)分摊昂贵的不规则内存访问成本。

带重计算的反向传播

反向传播利用了 FlashAttention-2 的内存高效设计,并实现为三个内核的序列(算法 5)。

主内核在键维度上并行化计算,每个线程块处理一个键块。为了处理稀疏性,它镜像了前向传播的「收集并致密化」策略,使用变长索引收集查询子集并将梯度输出到片上图块中。

遵循 FlashAttention-2 的方法,研究者在反向传播期间重计算注意力分数,以避免将完整的注意力矩阵存储在内存中。虽然键和值的梯度直接写入 HBM,但部分查询梯度需要跨多个键块进行累加,这是通过对高精度全局缓冲区使用原子加法来高效且安全地处理的。

这种设计确保了反向传播在序列长度上保持线性复杂度,这是相对于标准注意力的二次复杂度的一个关键改进。由于反向传播通常构成优化注意力实现的主要性能瓶颈(通常比前向传播慢 2-3 倍),因此我们需要反向内核的高效率对于实现长序列的实际训练至关重要。

实验及结果

本文从零开始预训练模型,并进行可控实验来验证 MoBA 的设计原则。实验共训练了两个模型,所有实验均在 8× H100 80GB GPU 上完成:

340M 参数模型(hidden size 1024,16 heads,中间层规模 2816);1B 参数模型(hidden size 2048,32 heads,中间层规模 8192)。

质量评估结果

本文在语言建模、长上下文检索以及真实任务上对 MoBA 的表现进行了评估。实验结果表明,改进后的模型在多种基准测试中提高了性能。

这一趋势在所有基准和不同模型规模上都保持一致。对 340M 模型来说,将块大小从 512 缩小到原来的 1/4 到 128,可带来如下提升:

语言建模准确率从 44.6% 提升到 45.6%(表 1);RULER 准确率从 38.8% 提升到 63.9%(表 3);LongBench 综合得分从 13.2 提升到 15.3(表 5)。

总体来看,小块尺寸对于 MoBA 达到与密集注意力相当的性能是必要的。

Key Convolution 。Key Convolution 在不同任务中都能带来性能提升,而且具有任务偏好特性。对于 340M 模型:

kconv3 将语言建模准确率从 45.1% 提升到 45.6%(表 1);kconv5 在 64K 长度检索任务中达到 100% 的检索率(表 3);在 LongBench 上,kconv3 得分达到 15.3%(表 5)。

对于 1B 模型:

kconv3 将语言建模准确率提升到 52.7%(表 2);将 RULER 准确率提升到 68.2%(表 4)。

这些结果表明,卷积通过使相关 token 在块内聚集,提升了有效均值差异 ,从而显著提高路由准确性。

注:卷积核宽度 W∈{3,5},分别记作 kconv3 和 kconv5。

稀疏匹配密集注意力机制。在多个基准测试和规模下,MoBA 的表现与密集注意力机制相当甚至更胜一筹。

效率结果

虽然理论上小块尺寸能够带来更高的模型质量,但此前由于 GPU 利用率低下,小块一直难以在实际中使用。FlashMoBA 的出现让这些配置真正变得可行。

端到端性能。图 3 对比了不同序列长度(8K 至 512K token)下的延迟和内存占用。FlashMoBA 在两项指标上都显著优于原始实现。

在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,内存占用减少 6.1 倍,原始 MoBA 在 128K 序列就会 OOM(内存溢出),而 FlashMoBA 能扩展到 512K。

随着序列越长、块越小,优势更明显,因为 FlashMoBA 消除了全局 reindex 的开销,在长序列条件下可实现最高 14.7× 快于 FlashAttention-2 的速度。

为了理解 FlashMoBA 的提速来源,图 4 展示了在 N=64K 下前向传播的耗时分布。

原始 MoBA 包含 5 个阶段:(1)计算质心并执行 top-k、(2)全局 reindex、(3)在路由后的索引上执行注意力、(4)局部因果注意力以及(5)合并结果。

其中步骤 (1)、(2)、(5) 占据了超过 70% 的执行时间。

FlashMoBA 则使用两个融合 kernel,这种融合设计将 64K 序列下的前向传播时间降至 49 ms,而 FlashAttention-2 在相同设置下为 99 ms。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    国产精品91九色 www 色色com 欧美又粗又大又长又美 久久av免费一区二区观看 国产麻豆剧传媒精品国产AV网站 美女又爽 又黄 免费蘑菇动漫 久久亚洲中文字幕精品有坂深雪 爱爱亚洲图片网址 人人操人人搞人人 八重神子被悼哭了免费视频 国产欧美日韩精品久久 9999黄色网站 免费在线观看日本视频 日韩视频精品 系统给我cao到崩溃H男男 热岛电影网 码精品 xxnx 19日本 2019年免费黄片 偷拍视频在线观看 真人三级片视频在线观看 动漫人物拔萝卜喷牛奶 福瑞黄 十八十九一级A片 人妻人人添人妻人人爱 美女裸体羞羞喷水wwwAPP 无尽十大胸 动漫 扶墙 亚洲国产系列久久精品99 久久网站精品 免费片片片 色综合天天综合网色狠狠 免费看一级黄片 g头条破解版 中文无码Av天天爽无码精品人妻 高清爆操无码 婷婷五月丁香中文 白洁王乙传说 小樱在吃精子 三级片不卡视频 日本黄色视频在线看网站 久久国产加勒比精品无码 操外国老女毛片 【男仕后花园】;{url:https://www.urlshare.cn/umirror_url_check?_wv=1&srct 欧美性交网 在线huangse网站 PORNO93HD馃槏馃槏鉂o笍 涩涩动态图视频 www.花火和博人的秘密.hdk.11 亚洲人妻一区二区三区 吃伽罗太华的乳液 黄 色 小说网站在线观看 国产人人干人人 男被 c 黄扒衣服好爽三亚 a片视频网址大全 美女高潮免费观看久久一区 www.kdenj.com 精品狼友视频 激情性爱黄色视频在线免费点击进入开心视频在线 黄片随便看XXXXX 欧洲熟妇乱XXXXX大屁股7 女学生喷浆   麻豆小说 超碰人人中文 成人扒开🍑伸进🍌❌暗夜动漫官方版 熟女丰满 日本动漫无码 漫画视频 14HDXXXX欧美处第一次 久久精品最新视频 黄片视频进入 国产 日韩 精品 视频 二区 一区 91PORNY丨首页❤入口在 久久久久久久久精品国产电影一 爱情岛论坛 永久入口 技校下课一个接一个欣赏海鲜 女人喷水高潮视频免费一区 你懂的网址色精品国产 三个人猛躁我一晚上Np 免费 成人   结动漫網站 国产青草AV二区 骚贷大ji巴cao死你 特级黄色网站 欧美性性影院 玖辛奈被强 喷水羞羞动漫 星野和光头哥视频原版在线观看免费版 小兰被 吸乳脱内内 柳神双腿被分到最后的命运 精品久久综合影院熟女 综合福利久久久久久 精品久久久久久国产91 黄色网址视频免费观看 免费看美女隐私全部软件 成人色情播放器 国产三区免费在线视频 模板报表小蛙导航 XNXX 下载视频 校花上课掀开裙子让我桶 武警在树林里玩交警 18禁止看爆乳奶头 久久99国产精品72精 美女性生活网站 免费不卡视频,台湾一级野外在线播放 裸体裸乳被扒蜜桃 在线观看国产在线 洪真英韩国财阀的坐骑 拔萝卜的视频免费播放大全在线观看 我和亲女疯狂做爰 啪在线看 亚洲无矿转吗免费在线看中文版在线看 欧美在线一二三xx 欧洲大妈与黑人视频网站 法国天体舞03 com.欧美 欧美日韩专区在线 欧美专区综合 奶头张开腿被 的视频 狂野 欧美 在线无码第一页 推特中国版r8 G漫彩虹官方网站进入 国产熟女老妇乱视频 干熟女国产刺激精品上传视频
    热门网络工具