日韩免费无码视频一区二区三区,让你的每一次使用,都成为一次愉快的探索之旅

首页 >新闻 >社会新闻

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

2025-11-14 15:01:36

来源：

猫眼电影

作者：

田乃伟

手机查看

　　猫眼电影记者曾志伟报道Q8X2R7L1T4J5M9B6W3

金磊发自凹非寺量子位 | 公众号 QbitAI

啪！~~~

一篇入围顶会NeurIPS’25 Oral的论文，狠狠反击了一把DiT（Diffusion Transformer）。

毕竟自打DiT问世以来，视频生成这块，算是被它给稳稳拿捏住了。

但站稳了脚跟，并不意味着没有问题，因为它的计算复杂度高，在资源消耗和速度上有着诸多挑战。

而这篇来自字节跳动商业化技术团队的论文，则是提出了一个名叫InfinityStar的方法，一举兼得了视频生成的质量和效率，为视频生成方法探索新万博体育：可能的路径。

像下面这些有趣的动画片片段，便是由InfinityStar亲手打造：

视频地址：https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

整体来看InfinityStar的亮点，我们可以总结为如下三点：

首个在VBench上超越扩散模型的离散自回归视频生成器；视频生成不用再“慢慢熬”：从百步去噪到自回归，告别延迟任务通吃：文生图、文生视频、图生视频、交互式长视频生成等。

值得一提的是，InfinityStar目前的论文、代码、体验地址均已经发布（链接见文末），接下来我们就进一步实测一波~

实测给DiT上了一课的AI视频生成

首先我们来简单了解一下InfinityStar的体验方法。

它的入口就在Discord社区里面，大家登录账号之后，点击下面这个链接即可跳转。http://opensource.bytedance.com/discord/invite

在左侧导航栏的下方面，便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频，便是在“i2v-generate-horizontal-1”中实现：

接下来，我们来一个InfinityStar的文生图和图生视频的联动玩法

首先来到“infinity-8b-generate”，输入下图中的提示词来生成几张图片：

A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……

挑选一张比较满意的图像之后，我们再把图片“喂”到“i2v-generate-horizontal-1”中，配上下面的提示词来生成一段视频：

The cat opened its mouth and made a sound, then licked its nose with its tongue.

视频地址：https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

通过类似的方法，你也可以快速生成各种风格、影视级的镜头：

视频地址：https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

包括各种运动场景中，人物的复杂动作也是能hold住：

视频地址：https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

另外，正如我们刚才提到的，作为原生自回归模型，InfinityStar还支持交互式长视频生成

视频地址：https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

我们只需要先给一段5s的视频，然后InfinityStar能够接受新的提示词，根据参考视频和新的提示词继续往下生成：

为什么能比DiT快这么多？

InfinityStar的核心架构，是一个名叫时空金字塔建模的方法，这正是它能把图像、视频任务统一起来，并且比主流扩散模型快一个数量级的关键所在。

整体来看，InfinityStar借鉴了其前作（如VAR和Infinity）在空间维度上的下一尺度预测思想，并将其巧妙地扩展到时空维度；如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分。

1、首帧（外观信息）：

视频的第一帧被视为一个独立的图像，采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息，如场景、物体和风格。

2、后续片段（动态信息）：

首帧之后的视频内容被切分为若干个连续的视频片段（Clips）。这些片段金字塔在空间维度之外，额外引入了时间维度，专门负责捕捉视频的动态变化，如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”的分解策略，InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部（尺度之间）和金字塔之间（片段之间）的依赖关系，都由一个强大的时空自回归Transformer进行建模。

最终，无论是生成图像、生成视频还是图生视频，所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题，实现了架构的高度统一。

除了整体框架之外，InfinityStar还有两个关键技术。

首先是高效的视觉分词器

为了让Transformer能够处理视觉信息，首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器，并提出了两项关键技术来克服训练难题：

知识继承 (Knowledge Inheritance)

训练一个离散的视觉分词器（Tokenizer）通常非常耗时。研究人员发现，相比于从零开始训练，继承一个已预训练的连续视觉分词器（如Video VAE）的结构和权重，能显著加快离散分词器的收敛速度，使其更快达到高保真度的重建水平。

2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中，信息分布存在严重的“不均衡”问题：大部分细节信息集中在最后几个精细尺度上，导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习，使其过度依赖后续尺度，而忽略了决定全局语义的早期尺度。

为此，InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时，随机丢弃（Discard）后面精细尺度的Token，迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡，显著提升了模型的学习效率和最终的生成质量。

其次是优化的时空自回归Transformer

为了应对视频生成带来的新挑战（如长上下文、时空依赖），InfinityStar对自回归Transformer本身也进行了三项关键改进：

语义尺度重复 (Semantic Scale Repetition)研究人员观察到，金字塔中靠前的几个尺度（语义尺度）控制着视频的全局信息，如整体布局和运动趋势。为了强化这一点，InfinityStar在预测时将这些语义尺度重复预测N次，允许模型对视频的全局语义信息进行“反复修正”。这一简单而有效的技巧，极大地增强了生成视频在结构上的一致性和运动的流畅性。时空稀疏注意力 (Spacetime Sparse Attention)视频生成，特别是长视频，意味着极长的Token序列，这对注意力机制的计算和显存是巨大的考验。InfinityStar设计了一种高效的时空稀疏注意力，它只关注必要的上下文信息（如前一片段的最后一个尺度），从而在保持时间一致性的同时，大大降低了注意力的计算复杂度，使得高质量、长上下文的视频生成成为可能。时空RoPE位置编码 (Spacetime RoPE)为了让模型精确感知Token在复杂时空金字塔中的位置，InfinityStar引入了增强版的RoPE位置编码，它同时编码尺度、时间、高度和宽度信息，为Transformer提供了精确的时空坐标感。

总结来看，InfinityStar之所以能做到比DiT快上一个数量级，关键在于DiT需要20–100步去噪迭代，而InfinityStar是纯自回归“一条过”生成；并且离散token+粗到精预测机制，大幅减少inference step数。

在如此方法之下，实验结果显示，在文生图（T2I）任务上，InfinityStar在GenEval和DPG两项基准上取得了优异的表现，尤其在位置、物体关系上展现出了明显的优势。

在文生视频（T2V）任务上，InfinityStar在VBench基准上表现优秀，不仅显著超越了先前所有的自回归模型，甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。

在和HunyuanVideo的人类偏好评估中，InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果，尤其是在指令遵循方面展现出了显著的优势。

在视频生成的效率方面，InfinityStar的生成速度比同尺寸的基于DiT的方法（如HunyuanVideo、Wan-Video）快一个数量级，在单张GPU上生成一个5s 720p的视频仅需不到1分钟

总而言之，字节的这篇论文证明了离散自回归模型不仅能快，还能做到好，更是打破了只有扩散才能高清的迷思。

论文链接：https://arxiv.org/pdf/2511.04675

代码链接：https://github.com/FoundationVision/InfinityStar

申请体验：http://opensource.bytedance.com/discord/invite

??时事1：瓜老师笔记视频合集

??11月14日,《好东西》的轻盈感来自哪里 ,

　　“二猛哥先等一等。”小石昊开口，抓起一块不小的石头，用力掷出，石块嗖的一声飞上石崖，落在梧巢近前，发出一声大响。

,在线观看国产黄。

??11月14日,外交部：中方就美国更新半导体出口管制规则提出严正交涉,

　　定期召开九年级教师会议，及时向教师通报工作和措施，及时了解教师思想动态。统一思想，提高认识。

,男人天堂男人天堂网,黄色视频在线免费看劲爆,在线看黄视频网站。

??时事2：丁香五月婷婷六月

??11月14日,北京医药健康产业规模达9761亿元吸引外企在京投资,

　　轰隆隆！

,狼友视频入,好爽好硬好黄视频,啪啪啪试看乱码。

??11月14日,澳门上半年本地生产总值增长15.7%,

　　五、携手并进，合作共赢。我给大家分析一个数据，也就是今天大家比较关心的每年的配送额，我可以准确保守的告诉大家，每年超市、酒店的商品配送额达5亿人民币。并且今后还会有新的连锁超市开业。要想把国内的商品输送至非洲，必须有一个快捷便利的物流渠道。莫桑比克贝拉港口，南临南非，可以辐射整个南部非洲，在这个地方我们有自己的自贸区域。占地240公顷。相当于300个足球场那么大，并且有自己的运输公司。利用贝拉自贸区得天独厚的地利优势，和便利海陆联运，实现商品的统一管理、统一配送。打开非洲市场，实现创收。芜湖是一个港口城市，临近长江。他也有自己独到的地利位置。从芜湖港口到贝拉港口运输周期为35天。时间很短。可以说万事具备，只欠东风。这是我们国外超市每类商品的比率额，例如日用用品所占比例为10%，大家心中都能算的出来，5个亿乘以10%5000万，也就是我们日化和纸品的采购额5000万，食品占5%，也就是食品采购额2500万。通过这统计表你们心中每一个有一个本账，应该有一个数据。在国内要做多少超市酒店的生意才能实现这个目标。第二张图主要是我们酒店商品比率额，每年酒店配送额近3000万，酒店配送主要是易耗品，这个前厅，客房，厨房这些易耗品。同样有一个表格，大家可以对照表格看一下。集团公司在非洲开超市，从99年至今。20xx年的时间。可以说我们非洲超市现在所包含的品种，包罗万象。为了让大家更深刻的理解，我在这里把我们超市所经营的品种详细列出来。例了一个详细清单，清单里面所列出来的，都是相对畅销的产品。由于地域的差别，风俗习惯不同，宗教信仰不同，有些产品市场需求量很大。但是我们还没有在这个市场做开。例如，服装，衣帽，装饰品，宗教用品。布匹。渔网渔具等。这些在非洲在是个非常大的市场，希望此次当做新品引进到我们的超市里去。还有一些如水果，蔬菜，鸡蛋等对保鲜要求比较高的商品，可以在我们芜湖的亿万多超市进行销售。

,国产成本人h动漫无码亚洲3D,欧洲视频无区无码免费,人人人人插人人操。

??时事3：扒开腿做到高潮的视频

??11月14日,河北青龙：“莓”好时节采收忙,