猫眼电影
猫眼电影记者 陈雨 报道Q8X2R7L1T4J5M9B6W3
在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。
近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。
论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告:https://arxiv.org/pdf/2510.12709HuggingFace:https://huggingface.co/BytedanceDouyinContent/collections
SAIL-Embedding 能力概览
突破传统局限:
全模态 + 工业级优化双管齐下
现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL-Embedding 则从根源上解决这些痛点:
全模态输入:覆盖短视频核心信息维度
不同于仅支持图文的传统模型,SAIL-Embedding 可处理任意模态组合——包括视觉模态侧的视频关键帧/封面、文本模态侧的标题/标签/OCR/ASR 文本、以及音频模态侧的背景音乐/语音,以适配抖音等短视频平台的信息结构。例如,在视频检索任务中,模型能同时利用画面内容、字幕文本与背景音效,避免单一模态信息缺失导致的语义偏差。
SAIL-Embedding 架构图
训练稳定性升级:动态难负样本 + 自适应数据平衡
为解决大规模训练中的噪声干扰与数据分布不均问题,团队提出引入两种策略:
动态难负样本挖掘:通过 F1 分数自适应确定相似度阈值,筛选「难区分」的负样本(如主题相似但内容不同的视频),让模型更聚焦细粒度语义差异,避免简单负样本导致的训练低效。
自适应多源数据平衡:基于 Sinkhorn 算法计算训练集与验证集的分布相似度,自动分配各数据源权重,减少人工调参依赖,同时兼顾数据质量与多样性,缓解工业数据与开源数据的领域鸿沟。
创新训练体系:
从内容理解到推荐适配的全链路优化
SAIL-Embedding 的训练并非单一阶段,而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系,确保模型既能理解内容语义,又能贴合真实推荐场景需求:
内容感知渐进式训练:从通用到领域的精准过渡
训练分三阶段逐步深入:
第一阶段:用超 10B 样本的大规模多模态数据(含图文音)预训练,奠定基础语义理解能力;第二阶段:聚焦与下游任务(如视频检索、标签分类)对齐的高质量数据,优化任务适配性;第三阶段:引入难负样本微调,强化模型对相似内容的判别能力。
内容感知的渐进式训练
推荐感知的增强训练:融入用户行为信号
针对推荐场景,团队将多模态表征向用户历史序列表征和线上 ID 表征两个维度进行知识蒸馏以融于用户协同行为信息:
序列到物品蒸馏:通过多维度的用户历史兴趣序列筛选机制,利用用户具有正向交互行为的历史观看序列(如最近 10 个观看视频)与目标视频的关联,让模型学习用户兴趣的时序延续性;
ID 到物品蒸馏:对齐推荐系统中的多元化 ID 表征嵌入,将用户偏好信号(如点击、关注等)融入多模态表征,使嵌入结果更贴合推荐侧应用需求。
协同感知的两阶段推荐增强训练
实测性能:
刷新多任务 SOTA,抖音业务指标显著提升
无论是标准数据集的基准测试,还是抖音真实场景的在线实验,SAIL-Embedding 均展现出卓越性能:
离线任务性能:多场景检索与分类任务综合领先
(1) Item-to-Item Retrieval (物品到物品检索)
在 21 个涵盖内容理解、搜索,以及协同感知的多任务场景下,SAIL-Embedding 显著优于 CLIP-based 模型与 VLM-based 的模型:
(2) Query-to-Item Retrieval (查询到物品检索)
在 9 个涵盖检索为导向和分类为导向的多任务场景下,模型的 AUC 与 Recall 指标均取得领先:
在线落地效果:抖音多场景推荐指标显著提升
在抖音 Feed 流、冷启动、抖音精选、消息推送等核心场景中,SAIL-Embedding 通过潜入向量与嵌入离散化的语义 ID 两种形式赋能推荐全链路,带来了一致的 LT 和 AUC 增益,体现了其显著的业务应用潜力。
SAIL-Embedding 的核心价值在于,它不仅是一款性能领先的全模态嵌入模型,更构建了一套从学术研究到工业落地的完整解决方案:通过全模态架构突破输入局限,用动态数据策略解决训练稳定性问题,以推荐增强训练填补产业鸿沟,最终在抖音真实场景中验证了技术价值,在短视频、直播等富模态推荐场景中,具备极强的推广价值。
抖音 SAIL 团队在未来将进一步探索 VLMs 与推荐系统的深度融合,例如通过生成式任务注入推荐知识,让模型不仅能「理解」内容,更能「预测」用户偏好。
??时事1:和记娱乐开户网址
??11月01日,十四届全国人大二次会议主席团举行第四次会议,
这种宝具让人心惊,杀敌于无形间,防不胜防,却又这般的玲珑剔透,初看没有一丝大杀器的样子。
,博亚app最新官方入口。??11月01日,中国新职人丨AI“数字人”炼成记:如何解决“幻觉”问题?,
“老十五,想不到你的箭法通神了,两箭就射下一头强大的鸾鸟,别人无论如何也要经历一场大战啊,如此手段绝对又要震动都城了。”一名年岁很大的老人赞叹。
,申博平台首页,金牌沙巴体育娱乐,葡京体育平台网址。??时事2:永利体育手机APP
??11月01日,10国留学生在重庆感受西部陆海新通道建设新貌,
地面颤抖,石昊脚下的两人挣扎,掌臂挥动间地面龟裂,土石崩开,宛若两头远古巨兽在发狂,想要站起,拥有吓人的神力。
,巴黎人真人官网,金沙总站4066,BB视讯。??11月01日,中国正能量|徐丹:纪录片在互联网广泛传播必须具有新媒体特性,
第二、提高执行政策、驾驭全局的能力。 农村是贯彻执行党的各项政策的重要前沿阵地,而农民的思想相对闭塞保守、文化素质较低,要深刻理解贯彻落实党和政府的各项政策,村干部就要带头做好表率。在目前,部分村干部工作简单化比较突出,个别村干部对县、乡党委的一些决策给群众讲不明白、说不清楚,不会做群众工作,实践证明,如果村干部懂政策、懂法律、守规矩,这个村就比较稳定,工作连年上台阶,班子的凝聚力、战斗力也就比较强。反之,这个村的整体面貌就比较落实,工作逐年滑坡,群众人心涣散,班子成员 “ 各吹各的号,各唱各的调 ” ,村支书说话没人听,干事没人跟,群众很有意见。究其原因,前一类的村支书头脑清醒、思路清楚,对上级的文件精神理解得透、把握得准,工作起来得心应手,胸有成竹,落实工作有的放矢。而后一类村支书,由于文化基础较差,平时不注意加强学习,对国家的法律法规知之甚少,凭老经验、老方法办事,虽然工作的热情很高,也是出于公心办事,但在开展工作中不经意地违反了政策和法律,不但在工作上造成了被动,而且引发了一些矛盾,致使个别群众上访告状,很不利于稳定和发展。要通过对党的政策和农村实用知识的学习,提高村干部执行党在农村各项方针政策的能力。在座的各位作为村党支部书记和村主任,要全面了解掌握上级精神,不折不扣地执行上级党委的决策决定,宣传、发动、引导群众鼓足信心,坚定不移地实施生态移民工程,调整农业产业结构,努力开辟增收渠道,进一步促进农民收入的稳定增长和农村经济的快速发展。
,世界杯球赛怎么投注,AG8亚洲国际游戏集团,伟德体育体育下载。??时事3:奔驰宝马电玩城游戏
??11月01日,人工智能挑战 高校如何应对,
虚神界,初始地。
,线上银河游戏,美高梅手机app下载,线上赌钱网。??11月01日,原创民族歌剧《义勇军进行曲》在沪上演 音乐叙事再现红色光影,
虽然我们对环境逐渐重视,但为了自己那一丁点儿利益而破坏环境的人仍然屡见不鲜,他们肆意砍伐树木,处处都有他们那可恶的身影。
,世界杯比分投注量,澳博体育怎么注册,皇冠beat365安卓客户端。??时事4:火狐体育出不了款
??11月01日,中国民航局:截至8月20日 民航暑运累计运输旅客1.17亿人次,
他从来没有想到会有这样一天,他是雨族直系子弟,地位不低,竟然有人敢这样对他,根本就没有将他当成一盘菜。
,188bet金宝搏网址,云顶娱乐手机版官方登录,开云网投。??11月01日,看非遗嘎木卓舞 感受传统文化魅力,
“嗖!”
,云顶快速开户,77必赢app,宝盈。责编:吴帅
审核:林履新
责编:徐福庚












