猫眼电影
猫眼电影记者 崔小粟 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:ag无法登陆
??10月26日,做强“后亚运”新赛道 浙江小县城玩转“体育经济”,
2024医院院长总结大会讲话 篇1
,AOA直播视讯。??10月26日,《咏春》出海:越是民族的,越是世界的,
夏暑未消,秋意渐浓,今天,我们在这里隆重举行武义一中军训开幕式。值此20x级新生军训开训之际,首先,我谨代表校党委、行政,向前来指导军训的教官们表示热烈的欢迎和衷心的感谢!向为军训辛勤工作的老师们和积极参训的同学们表示亲切的慰问和良好的祝愿!
,体球即时比分网,华体会2022世界杯,金沙登录网址。??时事2:天博登录app登录
??10月26日,零碳科技赋能乡村振兴 “下党零碳示范基地”在福建寿宁落成,
“快逃!”
,12bet客户端下载,一点通(新图),线上信誉app。??10月26日,2024成都马拉松举行 埃塞俄比亚选手破赛会纪录,
各位代表、同志们!今年X乡党委任期届满,根据《党章》和《中国共产党基层组织选举工作暂行条例》的规定,需要进行换届选举。这次代表大会的任务很重要,会议期间,代表们将听取和审议X乡党委和纪委的,这两个将全面总结过去五年来X乡党委和纪委所取得的工作成绩和存在问题。同时,代表们也将充分发挥自己的聪明才智,集思广益,商讨好X乡党委今后五年的工作目标任务和完成任务的措施,描绘今后五年经济建设和社会各项事业发展的宏伟蓝图。会议期间,我们还要选举产生X乡新一届党委班子成员、纪委班子成员,这将是本次大会取得圆满成功最主要的标志。为开好大会,下面,我讲三点意见和要求:
,365bet 手机客户端,蛇报B,足球比分捷报比分。??时事3:世界杯比分投注量
??10月26日,和谐共生|长江、黄河流域是生态文明建设的主战场,
最后一个是分享机制。这与我们的经营理念“与员工双赢”是一致的,就是经营成果大家分享。
,大奖18dj18vip,银河娱乐官网多少,贵宾厅网站。??10月26日,努力把人民海军全面建成世界一流海军,
凶狈已死,与这宝具彻底没有了联系,小不点越发用的得心应手,如臂使指,晶莹灿烂的兽牙串无坚不摧,攻击力极大。
,国际户外真人秀的发展,电玩登陆,迪士尼彩乐园2。??时事4:365bet线上APP
??10月26日,国家市场监管总局大力整治企业标准备案虚假宣传行为,
一、防火:
,bet体育娱乐平台,太阳城在哪玩,21点在线游戏官网。??10月26日,中国驻埃及大使馆提醒中国游客注意出行安全,
月朗星疏,金秋送爽。值此中秋佳节到来之际,我们欢聚一堂共贺中秋。首先,请允许我向节日期间坚守在工作岗位的各位同仁们表示诚挚问候,并致以崇高的敬意和衷心的感谢,祝愿大家中秋快乐,工作顺利,全家幸福!
,心博天下可靠吗,世界杯买球平台下载,世界杯票哪里购买便宜。责编:袁纯清
审核:胡昌升
责编:封昭容












