近期基于stable diffusion的实时性改进有了两个新成果。
第一个成果是LCM,即潜在一致性模型,能够极大降低扩散模型所需的采样步数,从20步以上减少到了甚至只需要几步即可生成,从而大大提升了生成速度。LCM的后续成果LCM-lora可以与已经训练完成的stable diffusion模型一同使用,而无需重新训练。
第二个成果是stable diffusion XL turbo,即XL的蒸馏模型,只需要一步采样步数就能达到很好的效果。
虽然生成速度还不能达到视频般的帧率,也只能达到0.5秒以下生成一张图,但继续发展下去,实时将视频重绘将会很快出现。
图1为LCM-lora + revAnimated_v122模型的出图效果,并同样使用LCM-lora + revAnimated_v122进行高清修复。
图2为stable diffusion XL turbo的直接生成(生成这么不好看,不知道是不是我的使用方法不对)。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=d2e89ad1d72397ddd679980c6983b216/5370191d8701a18b3006b179d82f07082938feba.jpg?tbpicau=2025-02-20-05_3824d39d6aff9c6d4d319490a10fa2b8)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=40e88936af24b899de3c79305e071d59/20787b01baa1cd111a5bd116ff12c8fcc2ce2db9.jpg?tbpicau=2025-02-20-05_9452359a88cb8e349b90a03899cb720c)
第一个成果是LCM,即潜在一致性模型,能够极大降低扩散模型所需的采样步数,从20步以上减少到了甚至只需要几步即可生成,从而大大提升了生成速度。LCM的后续成果LCM-lora可以与已经训练完成的stable diffusion模型一同使用,而无需重新训练。
第二个成果是stable diffusion XL turbo,即XL的蒸馏模型,只需要一步采样步数就能达到很好的效果。
虽然生成速度还不能达到视频般的帧率,也只能达到0.5秒以下生成一张图,但继续发展下去,实时将视频重绘将会很快出现。
图1为LCM-lora + revAnimated_v122模型的出图效果,并同样使用LCM-lora + revAnimated_v122进行高清修复。
图2为stable diffusion XL turbo的直接生成(生成这么不好看,不知道是不是我的使用方法不对)。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=d2e89ad1d72397ddd679980c6983b216/5370191d8701a18b3006b179d82f07082938feba.jpg?tbpicau=2025-02-20-05_3824d39d6aff9c6d4d319490a10fa2b8)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=40e88936af24b899de3c79305e071d59/20787b01baa1cd111a5bd116ff12c8fcc2ce2db9.jpg?tbpicau=2025-02-20-05_9452359a88cb8e349b90a03899cb720c)