(1分钟全面认识)球王会体育注册苹果版v29.84.12.546.891.75-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

2025-10-28 16:48:42
来源:

猫眼电影

作者:

齐旻

手机查看

  猫眼电影记者 刘继雄 报道Q8X2R7L1T4J5M9B6W3

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

Transformer的时代,正在被改写。

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型

在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

有网友表示期待:这个架构下的Kimi K2.5何时来??

不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。

让注意力真正线性化

Transformer确实聪明,但聪明得有点太烧钱。

它的注意力机制是全连接的,每个token都要和其他所有token打交道。

计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。

这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。

模型越强,显卡越崩,钱包越痛。

所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。

但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。

现在,Kimi Linear以既要又要还要的姿态登场了。

Kimi Linear的核心创新是Kimi Delta Attention(KDA)

它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。

更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。

它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。

这也让Kimi Linear能在超长上下文中跑得稳。

整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。

团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。

结果,没有RoPE,模型反而更稳、更泛化。

在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。

核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。

此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。

在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。

这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。

实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。

长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。

不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。

One More Thing

不得不说,Transformer的地位正在被重新审视。

Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。

苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。

现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。

或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。

但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。

技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

??时事1:世界杯买球软件叫什么

??10月28日,国产大飞机C919商业首航重庆,

  第三,加快城镇化进程,是建设社会主义新农村的助推器。xx届五中全会提出了建设社会主义新农村的重要历史任务。我县是农业大县,要实现建设社会主义新农村的目标,难点、重点和关键点都在“农”字上。根本出路在于加速推进城镇化建设,通过城镇化“化”农业、“化”农民,把大量农村人口变为城镇居民,不断提高农业劳动生产率,为农村经济集约式发展提供广阔的空间。同时,城镇建设与人民群众的生活息息相关。加快城镇化进程,不仅能促进物质文明的快速发展,还能引发人们对教育、医疗卫生、文化艺术等更高层次发展的需求,促进精神文明的发展和公共服务设施改善。我们只有加速推进城镇化,不断完善城镇基础设施,才能为新农村的建设打下良好的工作基础。

,世界杯网站游戏大全。

??10月28日,暴雨红色预警 海南三亚发布停课通知,

  太阳西落,夕阳红艳,整片山地都被染上一层红彤彤的光晕,在落日的余晖中一片宁静与祥和。

,BB新体育官网,w8优德,OD体育外围。

??时事2:世界杯竞猜下注app

??10月28日,《自然》最新考古学论文:古基因组研究揭示玛雅人祭祀仪式细节,

  夜已深,天色很黑,一座又一座山峰矗立,巍峨而磅礴,原始山脉中传来各种嘶吼声,此起彼伏,惊人魂魄。

,盈乐彩真不真,澳门永利是干嘛的,淘金娱乐城。

??10月28日,互联互通 习近平推动共建“一带一路”高质量发展,

  (2)中秋期间,街上游人较多,尤其是有文艺演出活动时,同学们要注意远离人员密集的场所,避免拥挤和踩踏事件的发生。

,揭密皇冠hg国际真人游戏骗局,168体育官方,ag8国际大厅登录。

??时事3:新澳门金沙官网网址

??10月28日,电影“火锅”突然撤档冲上热搜,

  “人类你可知在对说话?!”它话语铿锵,如刀剑齐鸣,有一种威严。

,全讯白菜大全,2026世界杯买球app,买球贝博艾弗森。

??10月28日,杨凌农高会见闻:科技为农业装上“智慧大脑”,

  (二)、立足岗位、充分履职,在带领群众发展致富上创造新业绩。

,大发手机版登陆,永利轮盘登录,365体育比分网站。

??时事4:2022世界杯用球购买

??10月28日,尤伯杯羽毛球团体赛半决赛:中国队胜日本队,

  紫山昆震撼,极速施法,展宝术进行防御。

,bibo必博体育网,188宝金博体育APP,万博官网打不开。

??10月28日,杭州绕城西复线借力交旅融合 为乡村发展添动能,

  每当看到我国第一艘航空母舰在海上乘风破浪时,我就会想起你们的一位学长——20xx届的一名优秀毕业生,他是一名海军中尉军官,此时正在辽宁舰上服役。据说我校校友海军政委苗华上将抵舰视察时,碰巧是由他作相关介绍。我就纳闷,这孩子为什么不对上将说,我也是福州一中毕业的?或者直接说“学长”?原来在部队里,这是不允许的,是规矩!同学们,即将离开一中的你们,也请记住“规矩”这两个字!

,亚博网址,九州体育官方备用线路,88集团的游戏网站。

责编:林培喻

审核:曹琴

责编:王战方

相关推荐 换一换