GeForce RTX 40系GPU UL Procyon AI图像生成基准测试
看完了NVIDIA展示的内容我们也想知道当前各款RTX 40系显卡在Stable Diffusion里的性能表现,回来后就跑了RTX 40系的UL Procyon AI图像生成基准测试,它使用Stable Diffusion 1.5和Stable Diffusion XL,使用一致和准确的工作负载来考验每张显卡在使用Stable Diffusion制图时的性能。
软件支持NVIDIA TensorRT、Intel OpenVINO和ONNX(含DirectML)这三个AI推理引擎,当中NVIDIA显卡可支持TensorRT和ONNX,AMD显卡支持ONNX,Intel显卡只支持OpenVINO。

该测试对显卡的显存是有需求的,Stable Diffusion 1.5测试需要独显至少要有8GB显存,而核显系统则需要32GB内存,Stable Diffusion XL测试使用TensorRT至少需要10GB显存,使用OpenVINO和ONNX则至少要16GB显存。

AI图像生成测试会批量生成16张100迭代步数的图片,当中Stable Diffusion 1.5测试生成的图片是512*512的,批量大小是4,而Stable Diffusion XL测试测试生成的图片则是1024*1024,批量大小是1,测完成后你可以看到这16张生成的图片,还可以点击放大。
接下来我们就用全系列NVIDIA RTX 40 GPU来跑这个AI图像生成测试,测试完成后是会给出得分、总体消耗时间以及图片的平均生成速度,根据我们观察得分和总体消耗时间是呈反比的。


先来看Stable Diffusion 1.5测试的测试结果,使用的推理引擎自然是TensorRT,得分最高的自然是性能最强的RTX 4090,为4693,而RTX 4090 D比它低5%左右,下面的卡性能落差还蛮大的,最低的RTX 4060只有1130分。
如果对得分没概念的话请看图片生成时间,RTX 4090生成一张图片只需要1.331秒,而RTX 4090/4080系列GPU生成图片时间都在2秒内,整个RTX 4070系列GPU的单张图片生成时间在2.1~3.1秒之间,到了RTX 4060 Ti生成一张图片就要4.3秒以上了,而RTX 4060更是需要5.5秒,用时是RTX 4090的四倍多。


接下来是Stable Diffusion XL的测试,这测试至少得有10GB以上的显存,所以只能从RTX 4060 Ti 16GB开始跑,得分和1.5的相比大部分都要低一些,我们直接看图片生成时间好了,图片分辨率上去后对显卡的压力大了许多,生成时间也长了许多,RTX 4090的图片生成速度是7.987秒,到了RTX 4080 SUPER就已经突破10秒一张了,RTX 4070单张耗时超过20秒,用时最长的RTX 4060 Ti达到了27.972秒。
为了让大家更好的了解这些测试结果,我们还加入了AMD RX 7900 XTX的成绩,由于它只能使用ONNX推理引擎,所以性能表现比RTX 4070还要低一点,可见两边的性能有巨大的差距。在生成式AI这方面,NVIDIA GeForce RTX 40系GPU在TensorRT的加速下性能优势还是很大的,是目前生成式AI最佳的选择,再加上NVIDIA在AI软硬件生态有相当完善的布局,所以现在数字艺术家和行业用户会选择RTX AI PC,毕竟谁不喜欢开箱即用的强劲算力呢?