(9秒一步到位)沙巴体育和IM体育鸿蒙版v66.68.57.20.6.64.49.27-2265安卓网_新万博体育
沙巴体育和IM体育 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件EDG更换首发上单 → 沙巴体育和IM体育 v2.430.6397 安卓免費版

沙巴体育和IM体育

沙巴体育和IM体育

  • 电脑版下载
猜你喜欢
标签: 沙巴体育和IM体育 火狐注册彩金
详情
介绍
猜你喜欢
相关版本

内容详情

沙巴体育和IM体育

金磊 发自 凹非寺量子位 | 公众号 QbitAI

啪!~~~

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。

毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了。

但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战。

而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索新万博体育:可能的路径。

像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:

视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

整体来看InfinityStar的亮点,我们可以总结为如下三点:

首个在VBench上超越扩散模型的离散自回归视频生成器;视频生成不用再“慢慢熬”:从百步去噪到自回归,告别延迟任务通吃:文生图、文生视频、图生视频、交互式长视频生成等。

值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~

实测给DiT上了一课的AI视频生成

首先我们来简单了解一下InfinityStar的体验方法。

它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转。http://opensource.bytedance.com/discord/invite

在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:

接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法

首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:

A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……

挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:

The cat opened its mouth and made a sound, then licked its nose with its tongue.

视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

通过类似的方法,你也可以快速生成各种风格、影视级的镜头:

视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

包括各种运动场景中,人物的复杂动作也是能hold住:

视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成

视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:

为什么能比DiT快这么多?

InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。

整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分。

1、首帧(外观信息):

视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):

首帧之后的视频内容被切分为若干个连续的视频片段(Clips)。这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模。

最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。

除了整体框架之外,InfinityStar还有两个关键技术。

首先是高效的视觉分词器

为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:

知识继承 (Knowledge Inheritance)

训练一个离散的视觉分词器(Tokenizer)通常非常耗时。研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。

2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中,信息分布存在严重的“不均衡”问题:大部分细节信息集中在最后几个精细尺度上,导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习,使其过度依赖后续尺度,而忽略了决定全局语义的早期尺度。

为此,InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时,随机丢弃(Discard)后面精细尺度的Token,迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡,显著提升了模型的学习效率和最终的生成质量。

其次是优化的时空自回归Transformer

为了应对视频生成带来的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer本身也进行了三项关键改进:

语义尺度重复 (Semantic Scale Repetition)研究人员观察到,金字塔中靠前的几个尺度(语义尺度)控制着视频的全局信息,如整体布局和运动趋势。为了强化这一点,InfinityStar在预测时将这些语义尺度重复预测N次,允许模型对视频的全局语义信息进行“反复修正”。这一简单而有效的技巧,极大地增强了生成视频在结构上的一致性和运动的流畅性。时空稀疏注意力 (Spacetime Sparse Attention)视频生成,特别是长视频,意味着极长的Token序列,这对注意力机制的计算和显存是巨大的考验。InfinityStar设计了一种高效的时空稀疏注意力,它只关注必要的上下文信息(如前一片段的最后一个尺度),从而在保持时间一致性的同时,大大降低了注意力的计算复杂度,使得高质量、长上下文的视频生成成为可能。时空RoPE位置编码 (Spacetime RoPE)为了让模型精确感知Token在复杂时空金字塔中的位置,InfinityStar引入了增强版的RoPE位置编码,它同时编码尺度、时间、高度和宽度信息,为Transformer提供了精确的时空坐标感。

总结来看,InfinityStar之所以能做到比DiT快上一个数量级,关键在于DiT需要20–100步去噪迭代,而InfinityStar是纯自回归“一条过”生成;并且离散token+粗到精预测机制,大幅减少inference step数。

在如此方法之下,实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG两项基准上取得了优异的表现,尤其在位置、物体关系上展现出了明显的优势。

在文生视频(T2V)任务上,InfinityStar在VBench基准上表现优秀,不仅显著超越了先前所有的自回归模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。

在和HunyuanVideo的人类偏好评估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展现出了显著的优势。

在视频生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成一个5s 720p的视频仅需不到1分钟

总而言之,字节的这篇论文证明了离散自回归模型不仅能快,还能做到好,更是打破了只有扩散才能高清的迷思。

论文链接:https://arxiv.org/pdf/2511.04675

代码链接:https://github.com/FoundationVision/InfinityStar

申请体验:http://opensource.bytedance.com/discord/invite

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    金沙电子游戏网址是多少 米乐手机网页登录 威尼斯人手机app下载 188bet登录 888真人国际娱乐赌场 德扑小游戏 权威资料 新mg官方游戏网址 ayx爱游戏app下载ios 2026年世界杯下注 银河游戏网址 永利体育平台首页 威尼斯人手机登录平台 尊龙注册送18 m6旧版app m6米乐网官网主页 世界杯在哪里买球输赢 永利实力信誉综合最好 M6注册彩金 爱博开户 世界杯下注赔率 凯时官方客户端下载 澳门万利注册 二十一点官方平台 飞五棋牌游戏中心 ag登路 云顶平台 365体育投注英超欧冠 ag捕鱼正规网址 365bet线上平台 云顶娱乐手机 pokertime官方网站入口 威尼斯人游戏网址 世界杯投注时间限制 利澳登录注册 九州论坛最新网址 金沙线路检测 火狐手机版注册 必赢亚洲登录网页版 大发奔驰宝马游戏 杏彩登录官方网站 ag俱乐部官方网站 OPE体育官方网站 优发国际注册平台 9q体育官网 哪里可以买外围足球 ag娱乐登录 乐发彩票官方网 新濠天地最新地址 亚博国际体育 免费下载银河app AG九游会官方网站 188体育在线充值 滚球怎么买 亚洲顶级线上娱乐场 银河国际手机app下载 AG体育平台 比利时世界杯投注站 世界杯比分投注技巧 金沙注册App 新2官网 全民捕鱼红包版 博体即时比分 世界杯官方网上投注 亚美体育登录入口 世界杯比赛如何投注 世界杯投票网站 pg电子模拟器下载安装 四人打麻将 亚新体育开户网址 鱼丸电玩城游戏大厅 抢庄牛牛注册 优德体育w88中文 捕鱼传奇怎么赚钱 永乐国际app官方平台 闲和庄娱乐 韦德体育注册送18 银河总站网址平台 365速发app下载 w88网站 百家乐快速注册 ag8游戏登陆 怎么下不了365体育 万博手机客户端 凯时ag网址 一二博官方网站 AG亚洲游戏集团官网网址 男篮世界杯买球app 可以线上买球的app 利记平台 云顶娱乐手机网页版网址 RORapp最新版 英皇体育网址 亚博外围官网 万博官网手机版首页 荆楚信息玄机B 凯时网上国际平台 金沙官网登录 开云综合体育 开博体育网页版登录 现金mgapp 升博好玩吗? 和记AG 银河游戏平台官方微信 bet8游戏 乐鱼在线登陆 环球在线买球 ayx入口 亚盈体育平台APP下载 万豪斗地主现金版 AG平台用的射频电子扑克 和记娱乐手机版登陆 48个国际音标真人发音视频 世界杯球彩哪里买 bet365网投平台 银河国际城app 体育反水 千亿最新版APP 捕鱼上下分的平台 必博在线试玩
    热门网络工具