需要训练,插头和繁殖,需要2倍GPU,结束 - 末端
- 编辑:admin -需要训练,插头和繁殖,需要2倍GPU,结束 - 末端
本文的第一作者是美国东北大学的博士生仙大学。它的研究地址是有效的人工智能,它旨在在各种硬件平台(例如GPU,移动终端,FPGA和ASIC)中实现大型模型的有效实施和加速。第二作者是香港中国大学的汉朝,其研究地址侧重于计算机架构和AI系统的有效设计。传播模型正成为高质量视频生成任务的主要电流。但是,随着视频的长度和分辨率的增加,扩散变压器模型(DIT)中注意机制的计算复杂性显着增加,这使其成为最大的推理效率瓶颈。这是因为在视频的产生中,DIT通常将3D全球关注用于模型时空的一致性。这结果非常好,但是随着令牌数量的数量,计算的数量完全增加,这增加了计算机负载。诸如Hunyuanvideo之类的视频生成模型代表了护理模块计算时间的80%以上,并且它的720p视频仅为8秒。因此,迫切需要提高视频生成模型的速度。现有视频的现有视频,例如分散选择(https://arxiv.org/abs/2502.01776)和ADASPA(https://arxiv.org/abs/2502.21079),主要是辅助辅助护理机制,以实现最终加速器的GPU中最终加速级别的程度。但是,由于稀缺性和分散图案设计的刚度不足,这些方法的加速效应仍然不合适。此外,他们通常信任固定的分散操作员,而无需动态适应入口内容,这使得很难实现精心认可的法规。这因此,在没有动态调整的情况下设计稀缺的护理机制,无需培训即可友好,对于提高视频扩散模型的效率和实用性非常重要。最近,东北大学研究小组,香港大学的中国大学,Adobe研究和其他机构一直在致力于动态稀缺,护理草案。文档标题:注意草案:低分辨率护理guidenceArxiv地址:https://arxiv.org/abs/2505.14708github主页:https://github.com/shawnawnricacake/gnaft注意视频生成任务,护理机械师的主要模型是当前模型模型。如图(图1)所示,在Hunyuanvideo模型中,当视频的生成时间从8秒增加到32秒时,注意力计算率(FLOP)迅速增加,最多达90%或更高,超过了其他模块。这种趋势对于高分子尤其重要诸如720p或更高的视频。此问题的基本原因是,视频生成模型通常使用空间和时间上的全球护理机制,其计算的复杂性随代币数量正确而增加。令牌本身的数量与视频和空间分辨率中的图片数量成正比。因此,周期或清晰度的增加导致几何范围的钙量增加,从而大大降低了推理速度,这使得很难满足实际的实施需求。因此,引入减少计算超负荷的稀缺护理机制是加速视频的有效途径。但是,现有的稀缺护理方法通常基于固定的分散模式或操作员,并且没有能力适应输入内容或分散过程的动态变化。这种“稀缺”策略不允许弹性在不同的文本指示,多元化视频或扩散的语义上,根据中间状态调整了注意力的分布,最终导致高低板岩视频产生的质量显着下降。因此,使用“ Dynami tuneabilityca”设计稀缺的护理机制,该机制允许根据输入语义和传播步行的长度进行自适应调整护理结构,这是保持视频质量的关键。模型生成模型问题的建模,VAE 3D(变异自动编码器)以压缩潜在空间中的视频和传播过程大大显着减少了过程中处理的令牌数量。隐藏的空间以三维方式。低评论家的代币省略了注意力计算,减少关键视频特征,从而实现有效的加速并保持世代质量。摘要of为此目的,本文档提出了一种稀缺的护理机制,该机制在无需培训的动态可调硬件中柔软:草案代码。它的核心思想是通过“低分辨率图”有效估计令牌的重要性,并基于此得出高分辨率注意计算中稀缺模式的选择。特定过程如下:1。草图结构:首先,隐藏隐藏空间的特征图被空间显示给样品,以生成咨询和键的低分辨率的版本(例如,平均分组816)。 2。素描注释的计算:计算基于草图的CO说明和密钥的地图,以识别护理图上最有用的区域。 3。稀缺模式指南:选择草稿笔记的最佳标点区域,并生成结构化的分散面具以获得高分辨率服务计算。 4。代币搬迁到硬件适应:连续分发作者分散了空间并满足GPU的内存设计需求,提出令牌搬迁策略可显着提高分散计算执行的效率。 5。不需要培训,插头和繁殖:可以将此机制直接插入现有的视频扩展模型(例如Hunyuanvideo或WAN2.1)中,而无需进行任何其他培训或良好的调整。这种设计不仅降低了计算机图级别的注意力冗余,而且还提高了从水平的系统执行和视频中分散的操作员的硬件效率,这对于生产和质量都是有利的情况。值得一提的是,攻击草案不是经验驱动的启发式方法,而是它们具有扎实的理论基础。我们从两个角度执行了理论分析及其有效性的证明。 1。可控制的近似错误:使用平均组构建的橡皮擦笔记之间的差异ING和原始高分辨率注意事项地图在Frobenius标准的方向上获得了限制,并且此误差随代币的空间连续性而降低。 2。分散蒙版引入的错误附在限制上。此外,在用于稀缺护理加速度计算后可控范围内,可以严格定义从护理图草图中提取的稀缺护理模式。这两个理论上的结果表明,尽管它们提供了高质量分散的指南,但草图的注意力并没有显着破坏护理机制的原始结构表示能力,这为真正的加速度效应和草稿产生的质量提供了理论保证。实验结果我们在包括Hunyuanvideo和WAN2.1在内的多种模型中评估了橡皮擦的性能。实验主要从两个维度评估:生产质量A推理的加速度。对于相同的计算,我们将其与典型的稀缺警告方法(分散视频原(SVG))进行比较。草稿效果很好,可以通过多个评级指标进行。 PSNR(较高):在高分辨率下它可以提高+2至+3点。 SSIM(较高):更强的一致性,视频结构更稳定。 LPIPS(较低,更好):相似性改善的感知,视觉效果更接近地面的真相。多个VBENCH指标(图像质量,主题一致性,背景连续性等)比SVG更好。尤其是使用较高的板岩配置(例如75%-90%),草稿攻击可以更好地维持空间和时间的一致性以及视频的关键结构,但是诸如SVG之类的静态方法经常会经历质量降级,例如弥漫性腐败和帧。同时,我们尝试了H100和A100 GPU的加速效应。使用GPU NVIDIAH100和A100,草案攻击可以高达1。75。已经达到了终止的加速度。随着视频的长度,分辨率和稀缺性的长度,加速效应同时增加,表明可伸缩性出色。多亏了代币搬迁策略,生成过程中的稀缺关注具有更大的硬件亲和力,并显着提高了执行效率。此外,我们将直接比较视频产生的以下结果:注意:泰晤士河库是因为相机从低至高移动到高。深色壁画的胜利性强度的草稿:在绿草中,朝着比萨的白色墙壁上的塔很高。在拍摄过程中,相机从顶部到底移动。密集的gogndraftateention推广的稀缺视频:一件长长的蓝色连衣裙从阳台上的衣服架上掉下来,掉进了地板上的水中。密集的视频范围:现实和高质量。那个女人正在喝咖啡里喝咖啡。一般描述ImagenedRaftention和Outlook Praftatent收入的离子提供了简洁有效的解决方案。不仅通过低分辨率草图指南,散射面具的基因产生和友好令牌的重新定位用于硬件,不仅可以显着提高视频传播模型的推理效率,而且还保持了较高的速度。出色的发电质量。 “没有培训,插头和复制,动态调整,对常规和硬件模型的适应性”的特性提供了出色的工程实施和扩展的研究。将来,作者计划将更多的技术(例如量化和蒸馏)结合起来,以继续优化长期视频生成过程中的效率瓶颈,促进高质量视频的生成模型,并朝着移动和更多点等资源方案前进。