【图片】AI绘画模型DeepFloyd IF开放训练【多模态吧】

多模态吧关注：81贴子：270

2回复贴，共1页

AI绘画模型DeepFloyd IF开放训练

DeepFloyd IF开放dreambooth和lora的训练了，现在可以自己本地尝试训练模型或lora了。
DeepFloyd IF是一个开源的AI绘画模型，与大名鼎鼎的绘画模型Stable Diffusion（简称SD）是同一家公司开源的，但DeepFloyd IF与其他绘画模型有着非常大的区别，DeepFloyd IF在像素空间工作。与潜空间扩散模型（如Stable Diffusion）不同，扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片，而DeepFloyd IF是先生成一张64*64的小图片，再像素扩散生成一张256*256的中等图片（与普通的图片放大算法不同），再图片放大到1024*1024。
但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题：正确生成文字，正确理解空间关系，这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器，而抛弃CLIP作为文本编码器。（想让SD正确在图像上生成一段文字简直不可能，连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文，中文还不支持）