把插进里,专为热爱品质生活的你打造,每一次点击都是新的惊喜

首页 >新闻 >社会新闻

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

2025-11-26 19:40:35

来源：

猫眼电影

作者：

桂运安

手机查看

　　猫眼电影记者艾力江报道Q8X2R7L1T4J5M9B6W3

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

香港中文大学 MMLab 和美团的研究者相信，在不久的将来统一模型的性能一定能够达到单任务的水平，但同时也引起了他们的思考，目前通过拆解架构换取性能提升的方式真的是正确的吗，它是否背离统一模型的初衷，它能够提升性能的内在原因又是什么，这种方式真的是统一模型必须的吗？

「统一模型的初衷」以及「架构解耦的缺点」

统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程，提高单任务的性能，例如让模型走迷宫时统一模型可以生成每一步对应的图像，可以在模型做数学题的时候给图像画上辅助线，或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正，这些都是 Uni-MMMU 等当前统一模型基准所关注，也是它本身被独立成一个领域的初衷。

再回到架构解耦的模型，例如 BAGEL 上，它本身如果要实现图文交错思考，需要经历隐空间解码到文字或者像素空间，然后再编码到隐空间的复杂过程，两个任务也几乎不在同一个模型空间中，具有计算开销大、信息丢失两大问题。虽然在当前情况下相比于其可观的性能，这个问题似乎并不显著，但是研究者认为随着研究的进行，这会是一个很大的问题。

AIA: 模型架构解耦不是统一模型必须的

为了探究清楚「架构解耦带来性能提升的内在原因」以及「探索不使用架构解耦的前提下提升模型性能的方式」，香港中文大学 MMLab 和美团联合推出了 AIA。

论文标题：Architecture Decoupling Is Not All You Need For Unified Multimodal Model论文链接：https://arxiv.org/abs/2511.22663代码：https://github.com/zhengdian1/AIA网页：https://github.com/zhengdian1/AIA-project

研究者首先通过研究不同架构的统一模型在每一层网络中跨模态交互的强度，他们惊讶地发现不管如何进行模型架构解耦，理解和生成任务在同一层网络中始终呈现负相关的关系，同时进一步验证了这个现象与输入的模态、长度和类别都没有关系，这说明是模型自发在学习如何合理地分配两个任务在每一层中的占比，从而「缓解冲突」，这又说明架构解耦本质上并没有解决任务之间冲突的问题。

研究者进一步在最后一列可视化了现在单任务 SOTA 的模型的多模态交互模式（HunyuanImage-3.0 虽然是统一模型，但更侧重于生成效果），结果发现随着模型解耦程度的增强，其对应的跨模态交互模式会趋向于单任务的表现，这也是能够实现性能提升的主要原因。

基于这个发现，研究者设计了Attention Interaction Alignment (AIA) 损失，通过将单任务模型的跨模态交互模式作为学习目标，在训练的过程中显式地约束统一模型的交互模式。

AIA 效果如何？

研究者在 Emu3 和 Janus-Pro 这两种完全统一架构、轻微模型解耦架构上进行了实验，如下表所示，结果表明本文的方法能够在没有任何其他 trick 的情况下提升这些模型的性能，减小了与更高解耦程度模型的差距。

同时，研究者给出了使用 AIA 损失之后 Emu3 和 Janus-Pro 跨模态交互模式曲线变化，可以发现加入了 AIA 损失之后，两个模型的交互曲线都向单任务模型的表现靠近了，既证明了 AIA 损失的有效性，同时也说明了模型架构解耦不是唯一能够提高统一模型性能的方式。

当然，研究者也承认在目前情况下完全统一的方法和高解耦程度的模型之间存在很大的差距，但正如 Emu3.5 的出现，他们认为这个差距会越来越小。因此，研究者呼吁新万博体育：的人抛开表层的框架和数据配比，深入研究统一模型的任务冲突问题，寻找更优的解法。

AIA 好训吗？

由于 Emu3 只有预训练 (PT) 阶段是统一训练的，因此研究者在其 PT 权重上进行微调，而 Janus-Pro 给的是最终 SFT 微调后的权重，研究者在此基础上进行后训练。

研究者通过调整 AIA 损失与 next-token-prediction (NTP) 损失的比重来测试其微调的敏感度，结果发现训练 Emu3 的时候由于其预训练知识比较薄弱，AIA 损失在一个很大的范围内都能达到稳定收敛的效果。而在 Janus-Pro 中，由于其本身预训练知识很强，AIA 的加入非常容易影响模型训练，但在合适的比重情况下仍然能够达到不错的效果。

AIA 有什么优势？

AIA 损失的加入可以一定程度上减少现在常见的数据配比工程问题，本文的方法在生成与理解数据配比在 1:1 的情况下能够达到更好的效果，这说明在一定程度上两个任务的训练不再是冲突的，产生了协同优化的效果。

统一模型训练的正确道路是什么？

通过结合现在所有统一模型训练的问题以及本文的实验分析，可以发现不管怎样解耦模型，其始终会在统一训练的过程中动态分配不同任务在同一层的权重来缓解冲突，那这是否实际上代表了统一模型的正确行为？

另一条统一路径是移除所有可以用来区分任务的线索（即采用统一分词器、消除任务相关特殊 token、使用交错数据数据输入），迫使模型只能从输入中学习真正的统一空间。虽然这种方法或许可以解决任务间的负相关问题，但也会显著增加训练难度。

未来展望

AIA 迈出了统一模型训练原理分析的第一步，研究者希望能够有新万博体育：志同道合的研究者加入这个领域的探索。统一模型现在的理论、架构都远远没有达到成熟，需要大家共同进行探索。同时研究者也希望大家能够更加关注统一模型真正的意义，不要一味地关注当前单任务基准上的性能。

??时事1：黄色福利偷拍

??11月26日,外交部发言人就瑙鲁政府宣布同台湾“断交”、愿同中国复交答记者问,

　　这是一个山村，民风淳朴，但是村人却也不缺乏血性，石林虎等人怒吼，道：“宁为玉碎不为瓦全，真要逼我们，那就血战到底，直到我们流尽最后一滴血！”

,黄色69视频。

??11月26日,前9月中国规上工业企业利润总额超5万亿元,

　　同学们，你们从稚嫩走来，正向成熟走去。如果明天是一座摩天大厦，今天就是奠定大厦的基石。让我们珍惜今天的一分一秒，把这大厦的基石打牢。让我们背负着父母的重托艰苦跋涉，一边告别昨天的幼稚，一边明天的理想，向着一个又一个意识、品德、情操、知识的高峰攀登。

,9·1免费极速版,超碰人人人操人人,a黃片大全。

??时事2：免费成人美女3D

??11月26日,湘台青年企业家融合发展大会在长沙举行,

　　2、课题研究顺利结题。我校“”规划市级立项课题《农村小学数学小组合作的有效性研究》于今年3月，顺利通过市教科院的结题。

,欧美操B片,美女露小奶头,拗小U女HDHDXXX。

??11月26日,法国总统马克龙接受总理巴尼耶的辞呈,

　　在朝霞中，那小小的身影十分灿烂，散发着一股恐怖的气息，如一尊幼小的天神般，屹立在瀑布上，浑身有一种难明的气韵。

?第六十一章重瞳,sss免费爆乳视频,国产精品日韩欧美制服,欧美v。

??时事3：强迫91少女吃奶视频

??11月26日,台胞在雄安：“大尾”和他的秋霞饭店,　　“积极管理你的核心业务，这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示，虽然底特律汽车制造商需要重新思考在中国的经营方式，但美国电动汽车领导者特斯拉的情况略有不同，与传统的底特律汽车制造商相比，特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势，这有助于该公司在中国市场的发展，使其有“更大的发展空间”。（汪品植）,九九黄色网址免费在线观看,乱伦一区二区,欧美播放器。

??11月26日,湖南靖州迎2024年首场降雪静美如画,

　　一个须发皆白的老人好心提醒，道：“孩子，能拎起或者举起一件武器，并不代表能很好的舞动起来，因为需要费十几倍的力气才行，你得小心点，别伤到自己。”

,玖玖色导航,中文字幕无码乱码在线视频,天天日天天插天天干天天很天天色天天射。

??时事4：小医仙的胸罩和内裤怎么用

??11月26日,雨中坚守守护三千余名旅客平安转运,

　　到了最后，金色狻猊越来越凶，撞的黑鼎轰鸣，不断抖动，可也就是这时此鼎亦发生了变化，上面的日月山河与鸟兽鱼虫等竟真实了很多，像是要复活了。

,www.欧美黄色网站.cou,国产69 高潮A片,国产伦费免费全部午夜最新。

??11月26日,当心！境外黑手正伸向未成年人,

　　20xx年中秋节即将到来，根据上级通知精神，我校中秋节放假时间为9月6日—9月8日放假，放假3天，9月8日开始上课。下面就中秋节应注意的安全问题做如下要求：

,欧美一级A片视频A片全黄视频A片视频A片,3D迷糊妈妈最后嫁给谁了,欧美精品性生活。

【不断推动民政事业高质量发展——习近平总书记重要指示为新时代新征程民政工作指明前进方向】

【农业农村部：春节期间“菜篮子”产品供给总量有保障】

责编：梅伊

审核：刘向上

责编：刘长明