猫眼电影
猫眼电影记者 康诰 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:188金宝慱手机app
??10月27日,黎巴嫩称境内两地遭以军空袭 以方暂无回应,
“噗”的一声,他喷出一口血沫子,而后又吐出两颗断牙,整张脸剧痛,大声惨叫。
?第三十二章 蜕变惊人,奥门新甫京av。??10月27日,四川眉山出现奇特辐射雾“云海”景观,
“有古怪,遭遇了大劫,于毁灭中新生,仅有的一条嫩芽一定是至宝!”又有人开口。
,体育在线app,188宝金博APP安卓,新濠天地娱乐在线app。??时事2:必博手机APP
??10月27日,美英联军对也门萨达市北部发动袭击, “这是大凉山支教研学项目的一个宣传,该项目正在招暑假公益志愿者。”小武是浙江金华一所高校的学生,他告诉记者,自己是从上述机构的宣传中了解到“大凉山缺乏英语老师”这一信息的。结合照片里孩子们一双双渴求学习的眼睛,让小武对大凉山“教育落后”“缺老师”等情况深信不疑。,365bet备用下载,英亚国际下载,最新的大发平台。
??10月27日,王永庆谈歼-35A设计:细节体现了设计师的高度智慧,
加强学习,强化素质,这是党委系统办公室工作人员为经济社会发展服务的前提条件。我这里所指的学习,不仅指一般意义上的读书学习,而且有着更高的要求,具体讲,就是要做到“四个坚持”,即,坚持学习的适用性,立足于管用、能用,精心选择学习内容,对重要的知识,尤其是政治理论,党的路线方针政策,要学得深,研究得透,掌握得牢,不能满足于一知半解,蜻蜓点水;坚持学习的广泛性,尽可能多地涉猎知识,拓宽视野,不强求门门精,但必须做到样样通;坚持学习的创新性,向基层和群众学习,敢于突破一些与时代发展不相适应的工作理念和工作模式,善于用新的思路、新的途径、新的办法来解决办公室工作中遇到的新矛盾和新问题;坚持学习的经常性, “在工作中学习,在学习中工作”,通过坚持不懈地刻苦学习和实践锻炼,达到张口能讲、提笔能写、遇事能办,使自己成为党委系统办公室工作的行家里手。工作中要克服“三个误区”:一是要克服办公室工作主要就是搞文字工作的误区,养成多思考的习惯。确实,作为一名党委办公室工作人员,具有一定的文字功底十分重要,但是,办公室的文字工作决不能满足于一般要求,而应该重在为领导出思路。大家一定要养成勤于动脑、善于思考的习惯,突出“以文辅政”这一灵魂,加强政策理论学习,结合党委中心工作进行认真思考,抓住一切可利用的时间和机会,深入了解、准确把握基层情况,力争在各方面比领导知道的新万博体育:、更详细,从较高层次和更广阔的视野丰富和完善领导的思想观点,使新万博体育:的文稿进入决策,发挥作用,指导全局工作的开展。二是要克服为领导服务只能是被动服务的误区,养成善总结的习惯。在领导身边工作,并不意味着领导让干什么就干什么,大家要化被动为主动,充分利用直接为领导服务的优势,善于学习和总结领导的思维方法、领导艺术,学会站在党委的高度、领导的高度、全局的高度研究和思考问题,力求在思路上与党委工作合拍,与领导思想同步,努力培养自己统揽全局、高瞻远瞩、开拓创新的立体化思维能力。三是要克服办公室只要按部就班就不会出大问题的误区,养成重修养的习惯。大家都知道,党委办公室的每一项工作都很重要,大到办文办会,小到接个电话、收份文件、传递信息,一旦失误,往往难以弥补。可以说,“办公室工作无小事”,做好办公室工作,一样需要我们把握规律,开拓创新,坚持细致再细致,周密再周密,保证党委工作的高效有序运转。因此,希望大家加强修养,严于律己,保持头脑清醒,坚定政治立场,努力做一个品德高尚、无私奉献的人。
,万博手机版网页版登录,kok手机登录,yabo22vip快速开户。??时事3:万利国际
??10月27日,《繁花》收官不收劲 上海民众打卡“繁花”展, 张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。,pt游戏官网,巴黎人真人官网,足球世界杯 网站推荐。
??10月27日,“读懂中华民族:多元一体与共同发展”国际研讨会举行,
而后……它像是被断了一臂般,杀鸡宰鸭子似的惨叫,迅速跳回小不点的肩头,捂着一只眼睛偷看。
,澳门银银河大平台,世界杯博彩购买,九州体育下载。??时事4:澳门金沙官网网址最新
??10月27日,韩国国会弹劾监察院院长,
突然,洪水决堤般的声响传来,四块符骨出现,交织出密密麻麻的纹络,化成了一片蓝光屏障,将小不点封在当中。
,三中三,永利新网首页,盛大网络游戏。??10月27日,188元买的“100%山羊绒衫”实为“0羊绒”?二者原材料价差可达三百倍,
昨日的成功带来今日的欣喜,今日的努力昭示明日的辉煌。20年,我们将站在一个新的起点上,放大已有优势、凸显潜在优势、营造不具备的优势。让我们团结一心,加倍努力,百尺竿头,更进一步,为1111公司实现装备制造业中流砥柱的宏伟蓝图而努力奋斗!
,澳门国际娱乐网址网站,MG电子在线官网,当日特码玄机报。责编:周道祥
审核:千帆竞
责编:段钰莹












