m6米乐网投平台,让你的每一次使用,都成为一次愉快的探索之旅_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

2025-10-25 15:59:02
来源:

猫眼电影

作者:

孙漫

手机查看

  猫眼电影记者 赵德传 报道Q8X2R7L1T4J5M9B6W3

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

Transformer的时代,正在被改写。

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型

在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

有网友表示期待:这个架构下的Kimi K2.5何时来??

不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。

让注意力真正线性化

Transformer确实聪明,但聪明得有点太烧钱。

它的注意力机制是全连接的,每个token都要和其他所有token打交道。

计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。

这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。

模型越强,显卡越崩,钱包越痛。

所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。

但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。

现在,Kimi Linear以既要又要还要的姿态登场了。

Kimi Linear的核心创新是Kimi Delta Attention(KDA)

它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。

更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。

它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。

这也让Kimi Linear能在超长上下文中跑得稳。

整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。

团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。

结果,没有RoPE,模型反而更稳、更泛化。

在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。

核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。

此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。

在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。

这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。

实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。

长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。

不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。

One More Thing

不得不说,Transformer的地位正在被重新审视。

Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。

苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。

现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。

或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。

但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。

技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

??时事1:世界杯竞猜什么网站

??10月25日,2023年长江干流沱沱河、通天河出现有监测以来最大洪峰,  报道称,从公共部门到私营部门,中国和中东国家一直在积极促进民间交流。例如,上个月在迪拜举行的阿拉伯旅游市场贸易展上,中国参展商和旅游专业人士的数量比2019年增加了一倍。,188亚洲体育。

??10月25日,国家游泳中心推出“龙耀水立方”新春系列活动,

  来自云天宫的两个小姑娘正在跟小不点聊天,咯咯笑个不停,她们不时捏捏小不点的粉嫩小脸,觉得这个小孩子特可爱。

,laohujiwangzhan,2026世界杯买球公司,优德在线开户。

??时事2:雷竞技官方网页版

??10月25日,第27届中国(海南)国际热带农产品冬季交易会在海口开幕,

  为此,乡党委政府对今年迎省、市检查要坚决贯彻一个原则:不再听汇报,不再问原因,不再看过程,只看实际的效果,只看最终的结果,在哪个环节上出了问题,将要倒追有关责任人的责任,并一追到底,坚决实行顶格处理。工作上要问责,经济上要处罚。凡在省、市迎检中对顺利过关的样本点村,奖励该村有功人员和驻村领导驻村干部各X元,对出现失误的分别予以对等处罚X元,村计生专干绩效内计生办考核(绩效)。

,葡京体育手机版注册,世界杯彩票投注推荐,M6官方下载。

??10月25日,旅游团被强制要求消费骑马?丽江文旅局通报,

  我校上次党代会是1999年1月召开的,至今已经过去8年。期间由于管理体制转变、中国矿业大学北京校区东校园并入、校领导班子调整等原因,未能按期召开党代会。近几年来,在教育部党组、北京市委、市政府和市委教育工委的正确领导下,学校党委坚持社会主义办学方向,全面贯彻党的教育方针,不断加强党的建设,充分发挥党委的领导核心作用和全校共产的先锋模范作用。全校广大及师生员工齐心协力,开拓进取,积极推进学校的改革和发展,取得了显著成绩。20xx年学校由国家广电总局划归教育部,成为教育部直属高校;20xx年,学校成功进入“211工程”重点建设高校行列;20xx年,中国矿业大学北京校区东校园并入;20xx年,学校更名为中国传媒大学,实现了全院师生员工的夙愿;20xx年,开展保持共产党先进性教育活动,全校党的组织建设和的思想、作风建设得到进一步加强。20xx年,顺利完成了学校行政领导班子和部分学院党政领导班子的换届、机构调整和中层干部聘任工作。这一系列标志性成果,是学校近几年发展的里程碑,同时也为党代会召开奠定了坚实的基础。可以说,学校召开党代会的条件已经具备。

,万博manbetx手机登录网页,365体育外围,kok手机登录。

??时事3:永利体育下载

??10月25日,用一次通话让耳朵感受“春节的味道”,京东云带来温暖的AI技术创新,

  狈村人的铁箭射来,撞在它们的鳞甲上铿锵作响,但毕竟还幼小,它们的鳞片还没有那么坚硬,出现丝丝血迹。

,ballbet贝博app下载艾弗森,优德直播视讯,世界杯买球的网站。

??10月25日,雪景+云海+过山云!泰山迎来2024第一场雪,

  药鼎发光,更加神秘,开始熔炼这炉宝药,散发出浓郁的芬芳,霞光万道,瑞彩千条,甚是瑰丽与神秘。

,大赢家电玩城捕鱼技巧,天博博客,线上赌钱网。

??时事4:利来w66官网

??10月25日,澳门沉浸式儿童剧《捣蛋托管班》西安上演湖南湘江新区大成企业研究院揭牌 研究民企创新发展,

  20_年前,当时我们就是一群爱做梦的人,想打造自主的一个卡通品牌,凭着一股冲劲,一腔热血奋斗到今天,终于美梦成真。

,永利电子注册,大奖18dj18vip,乐鱼体育平台靠谱吗。

??10月25日,促进民营经济发展,一个县城的启示,

  4、身上着火,可就地打滚,或用厚重衣物覆盖压灭火苗。

,葡京官方注册,新2网址,AG平台刷水有用吗。

责编:黄华

审核:杨定荣

责编:张成仁

相关推荐 换一换