本站提供知识,欢迎转载和分享。

人工智能生成视频,边生成边实时播放,不用再等了!

2026-01-04 18:25:25 来源:物归原主网 浏览量:2577}

人工智能生成视频,人工边生成边实时播放,智能再不用再等了!生成视频实

Adobe和MIT联合推出自回归实时视频生成技术——CausVid。边生播放不用

思路就像从下载整部电影到直接观看流媒体一样,成边模型生成第一帧后,人工视频可以立即播放,智能再后续内容可以动态生成,生成视频实无缝连接。边生播放不用

如果你使用过视频生成模型,成边你必须对漫长的人工等待时间有深刻的记忆。生成一个10秒的智能再视频通常需要几分钟才能开始观看。

研究小组表示,生成视频实这种延迟的边生播放不用根本原因是:双向注意力机制广泛应用于传统视频生成模型,每帧都需要参考前后帧的成边信息。

这就像在写故事之前,你必须构思整个情节的所有细节。在完整的视频生成之前,你看不到任何图片。

为此,他们通过全新的解决方案提出了一个新的解决方案蒸馏预训练的双向扩散模型(DiT)构建自回归生成模型

在实验中,基于自回归生成的特点,Causvid可以在没有额外训练的情况下支持多种应用,生成速度和质量明显超过现有方法。

研究小组还表示,基于开源模型的实现代码将很快开源。

双向教师监督单向自回归学生模型

如前所述,研究小组通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

为了进一步加快实时视频的生成,作者通过蒸馏分布匹配(DMD)将生成步骤从50步减少到仅4步。

DMD是一种将多步扩散模型转换为快速单步生成器的扩散模型蒸馏技术。DMD此前在图像生成方面取得了成功,Adobe 基于此技术,Firefly文生图的快速模式。

研究团队创新地将其应用于视频扩散模型,实现了显著的加速。

然而,自回归模型有一个核心问题——误差累积

每一帧视频都是基于之前的帧生成的,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。

为了解决这个问题,团队提出了不对称蒸馏策略。具体来说:

引入具有未来信息的双向教师模型,在蒸馏培训阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具有更强的精度。

单向学生模型采用双向教师模型产生的噪声-数据配对进行预训练,提高后续蒸馏训练过程的稳定性。

在训练过程中,对不同时间点的视频帧施加不同强度的噪声,使模型能够在测试过程中基于干净的生成帧去除当前帧的噪声。

CausVid通过这种创新的非对称蒸馏方法,显著减少了自回归模型的误差积累,生成了更高质量的视频内容。

在这种不对称蒸馏形式中,学生模型和教师模型采用不同的结构,只能在DMD风格的蒸馏中使用。其他方法,如渐进蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),学生模型和教师模型都需要使用相同的架构。

以下是自回归扩散视频模型误差累积示例(左图)以及CausVid结果(右图)对比:

实验效果如何?

CausVid在实验中表现惊人:

第一帧生成延迟从3.5分钟减少到1.3秒,加速170倍

生成速度从0.6帧/秒提高到9.4帧/秒,提高16倍

VBench和用户调查验证生成质量优于MetaMovieGen、智谱CogvideoX等主流模型

由于单向注意机制,Causvid完全支持广泛应用于大语言模型中KV缓存推理从而显著提高了生成效率。结合滑动窗口机制,Causvid突破了传统模型的长度限制。

尽管CausVid在训练阶段只接触了10秒的视频,但CausVid仍然可以生成30秒甚至更长的视频,其生成速度和质量明显超过了现有的方法。

Causvid基于自回归生成的特点,可以支持多种应用程序,无需额外的训练:

图片动画化:将静态图片自然转化为流畅的视频,赋予图片活力。

实时视频风格转换:如果将Minecraft游戏图片立即转换为真实场景。该技术为游戏渲染带来了新的想法:在未来,人工智能可能只需要渲染基本的3D几何信息来实时补充纹理和光影

生成交互式情节:通过调整提示词,用户可以实时引导视频情节的发展,带来全新的创作体验。

【本文网址:http://cppnxefk.rbhpvv.cn/html/228a7899693.html 欢迎转载】

热点推荐

Copyright@2003-2019 168.com All rights reserved. 物归原主网 版权所有

网站地图