多模态吧 关注:81贴子:270
  • 2回复贴,共1

AI绘画模型DeepFloyd IF开放训练

只看楼主收藏回复

DeepFloyd IF开放dreambooth和lora的训练了,现在可以自己本地尝试训练模型或lora了。
DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中等图片(与普通的图片放大算法不同),再图片放大到1024*1024。
但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题:正确生成文字,正确理解空间关系,这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器,而抛弃CLIP作为文本编码器。(想让SD正确在图像上生成一段文字简直不可能,连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文,中文还不支持)





IP属地:广西来自Android客户端1楼2023-06-10 16:51回复
    github项目:网页链接
    huggingface试玩:网页链接
    lora和dreambooth训练文档:网页链接


    IP属地:广西来自Android客户端2楼2023-06-10 16:52
    回复
      广告
      立即查看
      其实DeepFloyd IF开源已经有月余了,但是我一直没发,因为我自己尝试的时候,包括在huggingface试玩上用、colab上跑、租显卡自己做镜像跑,当时只有官方提供的模型,生成包括国人在内的亚洲人时,出的图实在太丑了,没眼看,我就不放出来污染大家眼睛了。
      我就等着什么时候能放出模型训练代码了,有炼丹师炼一些好看的模型再用。现在训练代码开放了,发一波,说不定有感兴趣的能训练一下新模型。


      IP属地:广西来自Android客户端3楼2023-06-10 17:01
      回复