猫眼电影
猫眼电影记者 赵德传 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:世界杯竞猜什么网站
??10月25日,2023年长江干流沱沱河、通天河出现有监测以来最大洪峰, 报道称,从公共部门到私营部门,中国和中东国家一直在积极促进民间交流。例如,上个月在迪拜举行的阿拉伯旅游市场贸易展上,中国参展商和旅游专业人士的数量比2019年增加了一倍。,188亚洲体育。
??10月25日,国家游泳中心推出“龙耀水立方”新春系列活动,
来自云天宫的两个小姑娘正在跟小不点聊天,咯咯笑个不停,她们不时捏捏小不点的粉嫩小脸,觉得这个小孩子特可爱。
,laohujiwangzhan,2026世界杯买球公司,优德在线开户。??时事2:雷竞技官方网页版
??10月25日,第27届中国(海南)国际热带农产品冬季交易会在海口开幕,
为此,乡党委政府对今年迎省、市检查要坚决贯彻一个原则:不再听汇报,不再问原因,不再看过程,只看实际的效果,只看最终的结果,在哪个环节上出了问题,将要倒追有关责任人的责任,并一追到底,坚决实行顶格处理。工作上要问责,经济上要处罚。凡在省、市迎检中对顺利过关的样本点村,奖励该村有功人员和驻村领导驻村干部各X元,对出现失误的分别予以对等处罚X元,村计生专干绩效内计生办考核(绩效)。
,葡京体育手机版注册,世界杯彩票投注推荐,M6官方下载。??10月25日,旅游团被强制要求消费骑马?丽江文旅局通报,
我校上次党代会是1999年1月召开的,至今已经过去8年。期间由于管理体制转变、中国矿业大学北京校区东校园并入、校领导班子调整等原因,未能按期召开党代会。近几年来,在教育部党组、北京市委、市政府和市委教育工委的正确领导下,学校党委坚持社会主义办学方向,全面贯彻党的教育方针,不断加强党的建设,充分发挥党委的领导核心作用和全校共产的先锋模范作用。全校广大及师生员工齐心协力,开拓进取,积极推进学校的改革和发展,取得了显著成绩。20xx年学校由国家广电总局划归教育部,成为教育部直属高校;20xx年,学校成功进入“211工程”重点建设高校行列;20xx年,中国矿业大学北京校区东校园并入;20xx年,学校更名为中国传媒大学,实现了全院师生员工的夙愿;20xx年,开展保持共产党先进性教育活动,全校党的组织建设和的思想、作风建设得到进一步加强。20xx年,顺利完成了学校行政领导班子和部分学院党政领导班子的换届、机构调整和中层干部聘任工作。这一系列标志性成果,是学校近几年发展的里程碑,同时也为党代会召开奠定了坚实的基础。可以说,学校召开党代会的条件已经具备。
,万博manbetx手机登录网页,365体育外围,kok手机登录。??时事3:永利体育下载
??10月25日,用一次通话让耳朵感受“春节的味道”,京东云带来温暖的AI技术创新,
狈村人的铁箭射来,撞在它们的鳞甲上铿锵作响,但毕竟还幼小,它们的鳞片还没有那么坚硬,出现丝丝血迹。
,ballbet贝博app下载艾弗森,优德直播视讯,世界杯买球的网站。??10月25日,雪景+云海+过山云!泰山迎来2024第一场雪,
药鼎发光,更加神秘,开始熔炼这炉宝药,散发出浓郁的芬芳,霞光万道,瑞彩千条,甚是瑰丽与神秘。
,大赢家电玩城捕鱼技巧,天博博客,线上赌钱网。??时事4:利来w66官网
??10月25日,澳门沉浸式儿童剧《捣蛋托管班》西安上演湖南湘江新区大成企业研究院揭牌 研究民企创新发展,
20_年前,当时我们就是一群爱做梦的人,想打造自主的一个卡通品牌,凭着一股冲劲,一腔热血奋斗到今天,终于美梦成真。
,永利电子注册,大奖18dj18vip,乐鱼体育平台靠谱吗。??10月25日,促进民营经济发展,一个县城的启示,
4、身上着火,可就地打滚,或用厚重衣物覆盖压灭火苗。
,葡京官方注册,新2网址,AG平台刷水有用吗。责编:黄华
审核:杨定荣
责编:张成仁












