本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:https://yxbian23.github.io/
视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜?
在现在的 AI 视频生成中,这些依赖抽象语义控制的创作,因缺乏统一的条件表征,实现起来往往异常困难。
最基础和直接的想法是针对每一种抽象语义单独训练 LoRA 或针对某一类语义条件设计专门的模型架构完成针对性的特征提取和可控生成。
然而,语义条件可能无穷无尽,一个条件训练一个模型会导致实际使用非常复杂,计算消耗非常庞大,且面对未曾训练的其他语义条件,模型没有任何泛化性能;针对某一类语义设计模型架构一定程度上在单独子集解决了这个问题(例如:相机控制,风格迁移),但面对着不同语义类别,仍需要不断切换模型,其任务专一的设计也无法完成不同语义类别的统一建模,阻碍了统一模型和模型规模化的进展。
为了解决这一痛点,香港中文大学与字节跳动团队联合提出了一种全新的语义可控的视频生成框架 Video-As-Prompt。它引入了一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为 prompt,模型就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。
该工作的训练、推理代码和目前最大的高质量多语义数据集均已开源。该工作所提出的数据集规模宏大,包含超过 100K 视频,覆盖超过 100 个不同的高质量语义条件。
论文标题:Video-As-Prompt: Unified Semantic Control for Video Generation项目主页:https://bytedance.github.io/Video-As-Prompt/论文:https://arxiv.org/pdf/2510.20888Demo:https://www.youtube.com/watch?v=S3zpLIMOU4c模型:https://huggingface.co/collections/ByteDance/video-as-prompt数据集:https://huggingface.co/datasets/BianYx/VAP-Data代码:https://github.com/bytedance/Video-As-Prompt
Video-As-Prompt 能力展示
Video-As-Prompt 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜,基于其强大的克隆能力,Video-As-Prompt 衍生出诸多应用:
用包含不同语义的不同参考视频驱动同一张图片:
用包含相同语义的不同参考视频驱动同一张图片:
用同一个参考视频驱动不同图片:
结合文本实现语义编辑:
新万博体育:的 demo 效果请参考项目主页。
Video-As-Prompt 算法解读
实现一个统一的语义可控视频生成模型的关键就在于:
如何构建统一的语义条件表征如何在语义条件表征和生成视频之间建立有效的语义信息映射如何找到可扩展的架构以实现高效训练
Video-As-Prompt 通过让具有指定语义的参考视频充当生成上下文 prompt,实现了抽象语义条件下的统一可控视频生成。
语义条件表征
提出使用参考视频作为统一的抽象语义条件表征,无需针对不同语义进行分类和设计针对编码模型,大大提升了模型架构的通用性、可拓展性,同时降低了用户使用的难度。
语义信息映射
将参考视频当作「视频 prompt」,从 in-context generation 的角度完成统一的语义映射。
可扩展的架构
直接训练视频生成基模通常会导致在数据有限的情况下发生灾难性遗忘。为了稳定训练,研究者采用 Mixture-of-Transformers(MoTs):一个冻结的视频扩散 Transformer(DiT)加上一个从主干初始化的可 trainable 并行专家 Transformer 联合建模。
具体来说,专家处理参考视频代表的语义条件 tokens,而冻结的 DiT 处理待生成的视频 tokens。每个 DiT 都保留各自的 Q、K、V 投影、前馈层和归一化层;在每一层连接两部分的 Q/K/V,并运行全注意力机制,以实现双向信息融合和上下文控制。
Video-As-Prompt 实验结果
为了支持统一的语义控制视频生成,研究者构建并发布了VAP-Data 用于促进相关研究大规模训练,和对应的 Benchmark 用于公平评测,这是目前开源用于语义可控视频生成的最大数据集,其中包含超过 100 个语义条件下的 100K 个精选配对视频样本。
研究人员主要和两类方法进行了比较:
统一的结构化控制视频生成:VACE 的三个变体(分别采取原始参考视频,参考视频的深度、光流作为控制条件)离散的语义控制视频生成:原始的视频 DiT 基座,视频 DiT 基座 + 针对每种语义单独训练 LoRA,Kling/Vidu 等商业 API
总体而言,Video-As-Prompt 的性能在整体视频质量、文本一致性、语义一致性(Gemini-2.5-Pro 判别)和人工偏好上都与闭源模型 Kling/Vidu 相当并优于其他开源基线,并且是首个针对所有语义条件统一控制且可扩展和推广的模型。
并且,通过将所有语义条件视为统一的视频提示,Video-As-Prompt 支持多种语义控制的生成任务。此外,当给定一个不属于训练数据的语义参考时,从参考视频建模范式中学习到的上下文生成能力使 Video-As-Prompt 能够执行由新语义参考引导的零样本生成,这超越了之前所有的方法,并为未来的统一可控生成提供了新的可能。
左边为训练时完全不曾见过的相关语义参考视频,右边为 zero-shot 推理结果
总结
Video-As-Prompt 是一个统一的、语义控制的视频生成框架,它提出参考视频克隆生成的生成范式,将参考视频视为 video prompt,并通过 Mixture-of-Transformers 实现即插即用的上下文控制,提供了可扩展的语义控制和零样本泛化能力。其统一的参考视频建模(「Video-As-Prompt」)框架,验证了基于参考视频的可控生成这一思路的巨大潜力。
同时,开源的大规模视频参考生成数据集也将为社区的相关研究提供强有力的数据支持,有望推动 AIGC 视频创作进入一个生成更可控、语义更丰富的新阶段。
《中文字幕在线观看2018》,《Q8X2R7L1T4J5M9B6W3》免费真人黄网站在线观看
“免费白丝内内在线看”
黄在线观看www页站
……
11月16日
“亚洲 日韩 在线 伊人第页”潘展乐的腹肌为什么不对称
↓↓↓
11月16日,2023年新疆新增新能源装机突破2000万千瓦,黄色视频在线观看不卡,一区二区黄视频网站,91自拍偷拍免费视,日本一极片
11月16日,外交部发言人就美国国务院关于中国台湾地区选举的声明发表谈话,久久青黄色视频,国内精品视频在线观看九九,媚黑网站,三几黄色视频
11月16日,原木期货、期权上市交易在即 大连商品交易所发布交易有关事项,亚洲一级性爱视频w,魅魔母亲第三季动漫播放方式,十八禁中文无码AV在线,把香蕉伸进胡桃的屁股
11月16日|贵州:“长征国家文化公园·大娄山服务区”全面开放|国产Chinese男男Gay吧|99re6这里精品视频精品|看久草黄片看久草黄片|欧美猛男军人Gay巨大杂志
11月16日|39家企业在北京亦庄结成商业航天联盟|蜜桃视频无码|河北彩花AⅤ无码破解|福瑞控网站 视频免费|黄色网站一级毛片
11月16日|我国国家公园建设取得积极成效 生物多样性稳定增加|香港理伦电影午夜三级|亚洲综合AV一区二区三区不卡|黄色网站黄色视频播放一二三区视频播放|黄色抖阴下载……
11月16日,广西一乡镇菜市场“打边炉”爆火 民众体验乡村“烟火气”,国产伦精区二区三区视频,96影院在线看片免费视频,wallpaper小樱鸣人免费观看下载,成全视频高清完整版第6季
11月16日,金价下跌 金饰跟降,欧美色频电影一区二区,成人游戏网站入口游戏,亚洲精品日本,久久99精品久久久久久国产荷花
11月16日|“二月二龙抬头” 探访河北衡水方寸壶里的“龙世界”|中文无字幕一本码专区亚洲|久久精品国内久精国品|欧美变态性爱视频一区二区|HDHDHD ╳ 20免下载
11月16日,“彝族阿妈”讲述美食故事 宜宾统一战线创新民族政策宣讲模式,日本在线色视频,操逼bbw,十大美女坐厕偷拍视频,影音先锋欧洲性爱
11月16日,(国际观察)加沙战事持续百日 中东紧张局势何解?,日韩在线的第一页,av黄色成年在现网站,亚欧美黄色网站,欧美a级免费高清视频
11月16日,王永庆谈歼-35A设计:细节体现了设计师的高度智慧,18岁在线免费观看黄色网站,国产亚洲欧洲Aⅴ综合一区,成人一区二区,乱人妻性视频中文字幕
11月16日|菲律宾一海军直升机紧急迫降致5人受伤 桑莱岬机场暂停运营|国产AAAA级毛片|一级aa免费无码视频|3068成人网战|比较有名的生物论坛官方版下载
11月16日|安徽省气象局启动重大气象灾害(高温)Ⅳ级应急响应|粗大黑硬长欧美视频在线观看|精品国产系列|黄色网站免费在线观看视频网页免费在线观看视频免费在线|麻豆国产在线观看无码
11月16日|柬埔寨各政党纷纷发声坚持一个中国原则|一级毛片小视频|真人无码孕妇作爱视频|嗯~ji8|在线资源站av
731部队再添新罪证,12345回应男孩入住酒店后确诊川崎病|【文化中国行】旧厂故宅中的家国情,传承不息的中华魂|亚洲精品5555在线|欧美日韩精品一区二区在线视频免费观看|色 爱 cao|欧美黄片一级黄片
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺