EasyCache:了解不训练的视频传播模型 - 简约和出
时间:2025-07-16 10:18 作者:bet356体育官方网站

论文概论 - 集体组:周期是第一个设置本文的周,Liang Dingkang都将研究惠宗科学技术大学的医生,其主管是Bai Xiang教授。合作包括Chen Kaijin,Feng Tianrui和Huazhong科学技术大学的Lin Hongkai,Chen Xiwu,Ding Yikang,Megvii Technology的Tan Feiya和Zhao Hengshuang Zhao Hengshuang的助理教授。在Hunyuanvideo中,EasyCache在复杂的情况下保留了原始视频的原始外观,同时显着加速了1。近年来研究和动机的背景,通过广泛的扩散模型(扩散模型)和变形金刚传播(DIT)的广泛应用在视频中的质量和视频质量,该视频的质量和连接在视频中,质量是质量,该视频的质量,质量是质量,该视频质量,该视频质量,质量是质量的。 Malalmy模型,例如Openai Sora,Hunyuanvideo,Wan2。1制作了长期的视频内容,具有清晰的结构,丰富的细节和高度连贯的内容,为数字内容,虚拟世界和多媒体娱乐的创建带来了重大变化。但是与此同时,缓慢的推理和计算强度消耗的问题变得越来越突出。以Hunyuanvideo为例,它将产生5秒钟的720p视频分辨率,并且单个概念在单个H20中需要2个小时。这种高成本极大地限制了与实时,移动终端和大规模劳动力相关的视频生成技术爆炸的应用。造成这种瓶颈的主要原因是,在生成过程过程中需要几次扩散模型,并且每个步骤都需要一个完整的神经网络向前推理,从而导致大量冗余计算。如何在不影响视频质量的情况下大大提高理解效率已成为差异需要紧急损害的邪教点。 Paper Title: Lower is sufficient: Training-Free Video Explosion by Runtime-Adaptive Caching Paper Address: https://arxiv.org/abs/2507.02860 Code Address (Open Source): https://github.com/h-embodvis/EasyCache Project HomePage: https://h-mpodvis.github.io/easoche/2.变更方法:EasyCache的设计和原理。本文提出的EasyCache是一个新的框架,用于加速推理,而无需培训,模型结构和离线统计数据。它的主要思想非常直接:在撒谎的过程中,看到模型输出的“稳定时间”是动态的,并重复使用历史计算结果以减少冗余步骤以理解。 2.1扩散过程的“速率变化”可以将常规扩散模型的产生理解为“逐渐泄漏”:每个步骤都从当前变量开始,预测噪声和母亲 - 实现状态,并逐渐恢复清晰的视频内容。全部在一个步骤锁中DIT B被视为功能。您可以考虑一个步骤的“方向衍生物”的一阶近似:为了促进评估,它简化了变换率的数量(变换率,变压器,变压器评估,评估,发现模型的早期变化,迫切需要进行全球结构范围,但要促进模型的范围;线性,细节主要是固定的。输出输入。我们很惊讶地看到,即使在时间步骤级别的整个模型的输入和输出也发生了巨大变化,并显示出不同的差异模式 - 不同的是,KT在后期的后期都可以保持相对稳定。 (2)将组合阈值误差设置为自适应标准和多路复用缓存,并动态积累每个步骤的输出变更率(误差索引ET)。具体而言,认为KT是局部平行的,可以通过更改下一步的输入来协调输出变化率(本地判断稳定性)来确定输出变化率(稳定性的本地酌处),并且估计的输出变化率可以作为累积误差的估计来积累。只要ET低于τ,直接使用向量的最后一个完整理解的转换,否则缓存将被揭示和刷新。第一步r是加热,所有完整的宗教都确保了初步的结构文化信息不会丢失。 (3)不需要培训或模型更改。 EasyCache在理解的阶段非常有效,不一定是对模型进行建模,并且不需要更改原始网络结构。您可以实现“插头”。 3。视觉审查的实验结果和论文对许多主要视频世代(例如OpenSora,WAN2.1和Hunyuanvideo)进行了系统的实验,并评估了一代的理解速度和发电质量之间的平衡。 3.1体积实验的结果EasyCache的结果达到了2.2倍加速的Hunyuanvideo,占PSNR的36%,SSIM增加了14%,LPIPS显着下降,视频质量几乎没有损失。在WAN2.1中,它还达到了超过2倍的粉红比。在图像生成的活动(例如Flux.1-DEV)中,它也可以带来4.6次加速和改善FID和其他指标。分散的注意技术CH作为EasyCache和SVG可以叠加,平均加速度为3.3次,一般理解时间从2小时减少到33分钟。 3.2视觉比较显示了通过不同方法生成的视频帧的比较: EasyCache生成的视频几乎与原始模型一致,并保留了很棒的细节,并且没有明显的模糊或结构性疾病。有关更多可视化,请参见:https:// h- embodvis.github.io/easycache/在wan2.1-14b中,EasyCache成功地维护了文本。 EasyCache可能会根据SVG增加3次高度的加速度。 4。摘要和未来的前景。 EasyCache为加速视频扩散模型提供了简单,高效且独立的新范式。通过深入挖掘扩散过程的内部法律,它实现了很大的加速度,几乎没有质量的视频产生,提供了ST在实际应用中实施扩散模型的能力基础。将来,随着模型和相关的加速技术的不断提高,我们希望实现“实时视频生成”的目标。