DeepFloyd IF开放dreambooth和lora的训练了,现在可以自己本地尝试训练模型或lora了。
DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中等图片(与普通的图片放大算法不同),再图片放大到1024*1024。
但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题:正确生成文字,正确理解空间关系,这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器,而抛弃CLIP作为文本编码器。(想让SD正确在图像上生成一段文字简直不可能,连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文,中文还不支持)




DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中等图片(与普通的图片放大算法不同),再图片放大到1024*1024。
但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题:正确生成文字,正确理解空间关系,这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器,而抛弃CLIP作为文本编码器。(想让SD正确在图像上生成一段文字简直不可能,连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文,中文还不支持)



