猫眼电影
猫眼电影记者 苏涛 报道Q8X2R7L1T4J5M9B6W3
新智元报道
编辑:LRST
【新智元导读】LayerComposer革新了个性化图像生成,让用户像在Photoshop里一样自由操控元素位置、大小,解决传统方法交互性与多主体扩展难题,实现更自然、高效的创作,推动个性化生成迈向主动交互新阶段。
大型扩散模型(如 Stable Diffusion)让我们能够从文字生成高保真的图像。但当用户希望「生成我和我的朋友们在不同场景中的照片」时,现有的个性化生成方法(如 DreamBooth、IP-Adapter)仍面临两个根本问题:
缺乏交互性:无法自由控制人物的空间位置、大小与关系。
难以扩展到多主体:每多一个人,内存和算力就线性增长。
LayerComposer的目标,就是要打破这两大限制,让用户可以直观地控制在哪里放置什么样的元素,进行可控且高效的个性化生成。
项目地址:https://snap-research.github.io/layercomposer/
论文地址:https://arxiv.org/abs/2510.20820
「一张由雪人和三位女孩组成的合照」—— 你可以像在Photoshop里一样,放置、缩放、锁定角色,然后让模型完成剩下的工作。
LayerComposer的三大设计
分层画布(Layered Canvas)
每个人物、物体或背景都放在独立的RGBA层中(包含透明通道的图片),这样可以:
避免人物遮挡导致的信息丢失;
通过透明裁剪(Transparent Latent Pruning)显著降低计算量;
支持任意数量的主体组合。
类似于在Photoshop里,每一层就是一个独立的角色,随意移动、缩放或删除。
锁定机制(Locking Mechanism)
每一层都可以选择「锁定(Lock)」或「解锁(Unlock)」:
锁定层 → 模型必须高保真地保留该层,仅允许细微的光照调整;
解锁层 → 模型可以根据文字描述自由生成姿态、表情或交互。
你可以锁定背景,让人物随提示变化,也可以锁定一个角色姿势,生成其他人围绕他互动。
这种「可选保真度」让 LayerComposer 比以往方法更接近人类的创作流程。
模型–数据共设计(Model–Data Co-Design)
LayerComposer的锁定机制无需修改网络结构。
研究人员通过「位置嵌入」(positional embedding)与「数据采样策略」共同实现:
锁定层共享相同的空间编码;
解锁层使用独立的编码,以避免重叠混淆。
这种轻量化设计,可以在现有扩散模型(如 FLUX Kontext)上直接适配。
实验结果
多主体、高保真、强可控
四人场景(4P)
在四人同框的任务中,LayerComposer的生成质量显著优于 FLUX Kontext、Qwen-Image-Edit、Gemini 2.5 Flash Image等模型,能在存在遮挡的情况下保持人物结构完整,并忠实地还原每个人物。
双人交互(2P)
在需要两人互动的场景(如「一起吃饭」、「握手」)中,LayerComposer能生成自然的姿态与空间关系,不再出现「复制粘贴」或「少人」的问题,用户偏好达到83.3%,远超OmniGen2等最新模型。
单人个性化(1P)
即使只生成单人肖像,LayerComposer仍展示出优越的表现:
在保持身份一致的同时,能灵活生成不同表情与动作(如笑、闭眼、吃饭等),避免「贴脸」效果。
消融实验
锁定与分层的作用
锁定机制(Locking Mechanism)
为了展示锁定机制的效果,研究人员逐步对每一层输入进行锁定。
被锁定的层会保留该人物的姿态——模型只会在此基础上进行「外延绘制」(outpainting)和轻微的细节光照调整。
需要强调的是,这与「掩膜推理(masked inference)」不同:在掩膜推理中,被遮挡的区域完全不会被更新。
另外,在实验设置中,未锁定的层会根据已锁定的内容和整体场景上下文灵活调整,从而实现自然的协调与融合。
分层画布(Layered Canvas)
如果不使用分层画布,模型就只能在训练中以单张拼贴图像(collage)作为条件输入,如图中 「Inputs」 一列所示。
可以看到,在「w/o layered canvas」(无分层画布)的结果中,由于拼贴重叠造成的遮挡,会导致信息缺失。
例如,左边女子圣诞帽上的球被遮挡后在生成结果中完全消失。
相比之下,提出的分层画布能够显式地处理遮挡问题,从而避免此类伪影(artifacts)和细节丢失。
通过在Layered Cavas中调整每一个subject在各自layer的位置,LayerComposer支持直观的空间布局调控。
总结
LayerComposer让多主体个性化生成从「被动输入」迈向「主动创作」。
用户不再只是输入文本,而是真正参与到构图过程中。
从DreamBooth到LayerComposer,个性化生成,终于有了交互的灵魂。
未来展望
尽管LayerComposer带来了交互式个性化的新范式,但仍存在一些挑战。
在需要「复杂物理推理」(如「坐在输入图片椅子上」)的场景中可能失败。
未来,研究人员计划让LayerComposer支持更强的理解能力和新万博体育:模态,以促进人机协同创作:
结合大语言与视觉模型(VLMs)的理解能力,实现语义级别的自动布局与构图建议;
支持视频级别的分层个性化,让交互式创作从静态图像走向动态场景;
探索生成与编辑的统一界面,让用户在同一画布上无缝地修改、添加与再生成内容。
这种以「分层画布」为核心的交互式个性化范式,将成为下一代生成式创作工具的重要方向。
参考资料:
https://arxiv.org/abs/2510.20820
??时事1:金沙电玩城下载
??10月30日,7月份中国物流业景气指数为51% 业务需求量保持增长,
邵永灵教授给大家讲了一个真实的故事:20__年1月4日,突尼斯的一个小贩穆罕默德·布瓦吉吉,由于城管人员矫枉过正滥用职权,他用自焚结束了自己的生命,这被普遍公认为是阿拉伯之春的起点。经过社交网络及部分新闻媒体催化,他的自焚身亡激发了阿拉伯世界多国人民起义反抗独裁暴政的民主革命,最终导致了阿拉伯世界的天翻地覆式的巨变。
,世界杯买球赔率。??10月30日,江西九江八里湖新区打造特色民宿 唤醒区域旅游新业态,
乱箭如暴雨,越来越密集。小不点大喝,在途中将一块千斤巨石踢起,轰然一声腾空,砸向脸色很冷的少年狈风。
,万博手机版网页版登录,必威亚洲官网登录,手机网赌网址。??时事2:pg电子试玩平台官网
??10月30日,哈尔滨红肠如何成为一张城市名片,
市、县(市)区档案馆结合__市社会经济发展软环境建设工作,积极创造条件,加快档案服务机制创新步伐,以服务民生为重点,不断丰富档案工作服务大局的内容和手段,提高服务水平。市、县(市)区档案局馆向社会作出了服务承诺,实行档案查阅利用零收费服务,限度地满足各级领导、各部门和社会各界利用档案的需要,为领导决策、落实政策、解决土地纠份、劳动人事、工资福利、编史修志等各项工作提供了大量的档案信息资源,取得了良好的社会效益。市、县(市)区综合档案馆认真履行局馆公开服务承诺,共接待查阅利用者59864人次,调阅档案57586卷,复印档案材料12293页。市城建档案馆成立一站式服务窗口,自觉接受社会和群众的监督。认真履行档案局服务承诺,建立电话预约、网上查询档案服务,市、县(市)区综合档案局馆分别接听电话预约300余人次、网上预约20余人次,并及时进行了回复。市档案馆接待利用岗被评为全国巾帼文明岗、__市巾帼文明示范岗。市、县(市)区综合档案馆共接收不同门类档案共计47590卷,接收20__年度市级机关电子公文和档案文件级条目数据7000多条,原文数据10000多页,数字化照片档案3100多张。市、县(市)区综合档案馆分别填报了国家重点档案抢救与保护基本情况调查表,完成了重点档案抢救保护工作,其中:市档案馆完成了400卷的抢救任务。充分发挥爱国主义教育基地的作用市、县(市)区综合档案馆共接待了省、内外考察团共30余批、14000余人次,并互赠了编研成果。
,葡京投注网址,体育综合平台官方下载,真人登录国际。??10月30日,【澜湄印象】“Z世代”泰国女孩长春学中医:针灸拔罐样样精通,
“你为什么这么凶,为什么要伤害紫云它们?”小石昊生气,眼睛瞪的很圆。
,各大赌城官网app,乐竞体育平台登录,龙8国际是不是黑网。??时事3:九卅娱乐手机版app
??10月30日,从“乡村T台”走向世界时装周,
门房内,两个仆人大模大样,就那样坐着,对所谓的小主人没有一点尊重,漫不经心,说老祖宗要死了,幸灾乐祸。
,188betasia,天博官方下载链接安装,龙8国际游戏官网。??10月30日,澳门沉浸式儿童剧《捣蛋托管班》西安上演湖南湘江新区大成企业研究院揭牌 研究民企创新发展,
一声高亢的禽鸣响起,宛若闪电劈中人的灵魂,先是宏大,而后又转变为尖锐,如龙吟般,非常慑人。
,心博天下体育下载,电玩城大厅,MG电子体育外围。??时事4:银河国际客户端官网
??10月30日,“冷资源”不断释放“热活力” 冬季文旅消费热点涌现释放新潜力,
洞天境,远不止如此,于人体内或人体外开辟天地,有各种奥义,如:于洞天中温养宝器,祭养最强大的符文等。
,仙机点特(新图),1946韦德网址,火狐体育怎么买串。??10月30日,李强出席世界经济论坛午餐会,
而这时却有数百人在赏景,在射猎,无所畏惧,一个个血气滔天,强大的让人颤栗!
,幸运快3彩票,天博官方网站app,365bet体彩。责编:陈玉芹
审核:维克拉玛蒂亚
责编:黄玫












