粗略阅读了一下老黄伴随ADA架构发布的Optical Flow SDK4.0,有一些感想。
这个4.0版本的SDK相较伴随Amper发布的3.0,特别强化了帧率X2这个特定场景下的图像质量和响应速度。FRUC库内部的正反流矢量检测技术现阶段也被锁死在X2场景,其他场景下和3.0区别不大。
也就是说,这个4.0版SDK目前就是完全为早期DLSS3.0服务的,尚不能广泛应用到类似SVP这样的复合倍率插帧软件,这也引发了一些思考。
众所周知,目前的dlss3.0在GPU受限场景下是在CUDA算力受到一定折损后帧数翻倍。大部分情况下是原生50变35-38,然后插成70-76,那么dlss3.0的后续升级不外乎两种方向。
一种是开启后原生帧率的下降幅度得以缓和,甚至可以无限接近未开启状态。4.0版本SDK里面也专门强调了完全使用光流加速器而非CUDA+OFA进行光流场融合的企图,但我个人觉得在不升级硬件的情况下难以实现。
另一种是在本代显卡上有概率看到的,那就是将帧数提升倍率从2X升级为4X甚至更高。目前让英伟达放弃4X倍率的核心因素应该还是CUDA开销的等比例上涨,毕竟40帧翻倍还能玩,25帧就算翻四倍也会卡飞,但这个问题倒不是完全没有解决办法。
根据SVP在插帧幅度远超系统上限时的优化经验,如果系统级算力已经完全无法满足硬性计算需求,那么从视觉无损的角度去进一步利用尚未满载的专用单元也是可行的。
比如从一开始就不奢望从35帧直接翻四倍,而是用DLSS3.0的逐像素Vector管线完整实现一次2X之后,再用传统的非修正式光流算法对已经完成插帧的图像再次进行补帧。同时,就40系FP8的算力而言,这个过程中甚至可以再插入一次类似DLSS1.9的AI图形修正以消除多次处理带来的鬼影问题。
如果40系真的能实现以上技术的话,30系用类似的技巧实现dlss3.0两倍模式也是可行的,到时候dlss3.0应该也会推出质量/平衡/性能之类的模式。
如果50系上的下一代OFA加速器能真正实现独立光流场整合,那么性能无中生有的好时代真的要来了。
这个4.0版本的SDK相较伴随Amper发布的3.0,特别强化了帧率X2这个特定场景下的图像质量和响应速度。FRUC库内部的正反流矢量检测技术现阶段也被锁死在X2场景,其他场景下和3.0区别不大。
也就是说,这个4.0版SDK目前就是完全为早期DLSS3.0服务的,尚不能广泛应用到类似SVP这样的复合倍率插帧软件,这也引发了一些思考。
众所周知,目前的dlss3.0在GPU受限场景下是在CUDA算力受到一定折损后帧数翻倍。大部分情况下是原生50变35-38,然后插成70-76,那么dlss3.0的后续升级不外乎两种方向。
一种是开启后原生帧率的下降幅度得以缓和,甚至可以无限接近未开启状态。4.0版本SDK里面也专门强调了完全使用光流加速器而非CUDA+OFA进行光流场融合的企图,但我个人觉得在不升级硬件的情况下难以实现。
另一种是在本代显卡上有概率看到的,那就是将帧数提升倍率从2X升级为4X甚至更高。目前让英伟达放弃4X倍率的核心因素应该还是CUDA开销的等比例上涨,毕竟40帧翻倍还能玩,25帧就算翻四倍也会卡飞,但这个问题倒不是完全没有解决办法。
根据SVP在插帧幅度远超系统上限时的优化经验,如果系统级算力已经完全无法满足硬性计算需求,那么从视觉无损的角度去进一步利用尚未满载的专用单元也是可行的。
比如从一开始就不奢望从35帧直接翻四倍,而是用DLSS3.0的逐像素Vector管线完整实现一次2X之后,再用传统的非修正式光流算法对已经完成插帧的图像再次进行补帧。同时,就40系FP8的算力而言,这个过程中甚至可以再插入一次类似DLSS1.9的AI图形修正以消除多次处理带来的鬼影问题。
如果40系真的能实现以上技术的话,30系用类似的技巧实现dlss3.0两倍模式也是可行的,到时候dlss3.0应该也会推出质量/平衡/性能之类的模式。
如果50系上的下一代OFA加速器能真正实现独立光流场整合,那么性能无中生有的好时代真的要来了。