一、时域超采样的意义
dlss2/fsr2/xess/taa/tsr,都是时域超采样,对过去帧(含运动矢量信息)进行采样应用到当前帧中,用于增加当前帧的像素信息,达到提升分辨率、抗锯齿的目的。
由于这些信息本身就存在于渲染过程中(不用白不用),利用好这些信息会显著提升画质/性能损耗比值,表现在:相同帧数下提升画质,或者相同画质下提升帧数。
二、时域超采样的难题
过去帧由于遮挡或者缺乏运动矢量信息等原因会出现部分采样失效的情况(强行使用会导致鬼影),所有时域超采样都必须处理这个棘手的问题:如何辨别过去帧的采样信息是否可用?
三、传统方法
tsr/taa/fsr2使用手工设定的筛选器,常用的是neighborhood clamping,对比过去帧和当前帧样本,差异超过设定的阈值就判定过去帧该处的样本不可用进行clamp(纠正)处理。本质上这是一种暴力滤波,把过去帧的样本强制限定在一个设计者认为“好用”的范围内。
fsr2、部分taa(不同游戏taa差异很大)、tsr会同时使用多个人工筛选器来应对不同场景下的采样,效果会好一些,代价就是更多的性能开销。
四、传统方法的技术局限性
游戏图像中有大量高频信息,例如着色纹理/树叶植被/网格栏栅/细小物件等等,它们在过去帧与当前帧的采样中就是有很大差异的,这种差异往往会被人工筛选器判定为不可用导致样本被clamp,即使这些样本实际是可用的,这种暴力clamp就导致了此处模糊和不稳定。
然而人工筛选器无论怎么设置都存在问题:设置的严格了会clamp掉大量本该使用的样本(导致模糊和不稳定),设置的宽松了又会使用大量本该纠正的样本(导致鬼影)。
当然,也可以先做辨别,针对不同场景,使用不同的、设计好更适配的人工筛选器,但是这些人工设定的辨别方式,都摆脱不了只能粗暴划分场景的技术局限性。
辨别设计的越复杂,损耗的性能就越多,时域超采样的目的是提升画质/性能损耗比值,使用复杂的辨别/筛选器导致性能损耗过大无异于原地tp。所以,fsr2/taa/tsr设计的辨别场景技术方法,都只能点到为止,效果也就非常有限。
五、时域超采样中的ai
传统方法的难点在于辨别/筛选,这恰恰是ai的强项,nv的dlss2的突破点就在这,使用ai替代传统的人工辨别/筛选器,训练ai识别图像特征,ai来辨别场景、判断是否要clamp样本,显然ai会比人工设置的固定阈值、暴力辨别筛选更准确有效。
dlss2的ai使用独立的硬件单元(tensor core)计算,性能开销小、效率高。ai并不做信息预测(不脑补),而是“聪明”的辨别/筛选器,随着ai训练量的提升、训练方式的改善,dlss2一直在进步(从2.0进化到3.5.10),后续仍然有提升空间。
xess实现原理类似dlss,也使用ai辨别筛选,但是有两种情况,在intel自家显卡上使用xmx硬件单元执行ai辨别筛选,在其他显卡上使用gpu通用单元执行dp4a指令实现简化版的ai辨别筛选。很显然xmx相比dp4a会有更好的画质和性能表现(通用单元计算ai效率低),xmx版的xess在画质以及性能上都非常接近dlss(都超越fsr),dp4a版的xess在帧数上弱于fsr而在画质上好于fsr。
六、总结对比
taa以及tsr就不说了。
dlss2执着于用硬件ai单元实现最好的重建质量以及最好的性能,也确实做到了,dlss的应用覆盖也是最多的,缺点就是需要tensor硬件单元。
xmx版xess的画质/性能表现,可以认为就是dlss2,但其支持度太低(无论是硬件覆盖还是软件覆盖);而dp4a版的xess,硬件兼容性较强,但效率低且ai也是简化版的,虽然画质对比fsr有所提升,但画质/性能损耗比其实和fsr差不多,缺点还是软件覆盖率低。
fsr2仍然在捣鼓传统方案使用人工辨别筛选器导致其重建质量最差,但拥有居中的性能表现以及最广泛的硬件兼容性。从长远来看其发展前景堪忧,fsr2想要突破技术局限性,迟早也会使用ai替代传统的人工辨别/筛选器。
dlss2/fsr2/xess/taa/tsr,都是时域超采样,对过去帧(含运动矢量信息)进行采样应用到当前帧中,用于增加当前帧的像素信息,达到提升分辨率、抗锯齿的目的。
由于这些信息本身就存在于渲染过程中(不用白不用),利用好这些信息会显著提升画质/性能损耗比值,表现在:相同帧数下提升画质,或者相同画质下提升帧数。
二、时域超采样的难题
过去帧由于遮挡或者缺乏运动矢量信息等原因会出现部分采样失效的情况(强行使用会导致鬼影),所有时域超采样都必须处理这个棘手的问题:如何辨别过去帧的采样信息是否可用?
三、传统方法
tsr/taa/fsr2使用手工设定的筛选器,常用的是neighborhood clamping,对比过去帧和当前帧样本,差异超过设定的阈值就判定过去帧该处的样本不可用进行clamp(纠正)处理。本质上这是一种暴力滤波,把过去帧的样本强制限定在一个设计者认为“好用”的范围内。
fsr2、部分taa(不同游戏taa差异很大)、tsr会同时使用多个人工筛选器来应对不同场景下的采样,效果会好一些,代价就是更多的性能开销。
四、传统方法的技术局限性
游戏图像中有大量高频信息,例如着色纹理/树叶植被/网格栏栅/细小物件等等,它们在过去帧与当前帧的采样中就是有很大差异的,这种差异往往会被人工筛选器判定为不可用导致样本被clamp,即使这些样本实际是可用的,这种暴力clamp就导致了此处模糊和不稳定。
然而人工筛选器无论怎么设置都存在问题:设置的严格了会clamp掉大量本该使用的样本(导致模糊和不稳定),设置的宽松了又会使用大量本该纠正的样本(导致鬼影)。
当然,也可以先做辨别,针对不同场景,使用不同的、设计好更适配的人工筛选器,但是这些人工设定的辨别方式,都摆脱不了只能粗暴划分场景的技术局限性。
辨别设计的越复杂,损耗的性能就越多,时域超采样的目的是提升画质/性能损耗比值,使用复杂的辨别/筛选器导致性能损耗过大无异于原地tp。所以,fsr2/taa/tsr设计的辨别场景技术方法,都只能点到为止,效果也就非常有限。
五、时域超采样中的ai
传统方法的难点在于辨别/筛选,这恰恰是ai的强项,nv的dlss2的突破点就在这,使用ai替代传统的人工辨别/筛选器,训练ai识别图像特征,ai来辨别场景、判断是否要clamp样本,显然ai会比人工设置的固定阈值、暴力辨别筛选更准确有效。
dlss2的ai使用独立的硬件单元(tensor core)计算,性能开销小、效率高。ai并不做信息预测(不脑补),而是“聪明”的辨别/筛选器,随着ai训练量的提升、训练方式的改善,dlss2一直在进步(从2.0进化到3.5.10),后续仍然有提升空间。
xess实现原理类似dlss,也使用ai辨别筛选,但是有两种情况,在intel自家显卡上使用xmx硬件单元执行ai辨别筛选,在其他显卡上使用gpu通用单元执行dp4a指令实现简化版的ai辨别筛选。很显然xmx相比dp4a会有更好的画质和性能表现(通用单元计算ai效率低),xmx版的xess在画质以及性能上都非常接近dlss(都超越fsr),dp4a版的xess在帧数上弱于fsr而在画质上好于fsr。
六、总结对比
taa以及tsr就不说了。
dlss2执着于用硬件ai单元实现最好的重建质量以及最好的性能,也确实做到了,dlss的应用覆盖也是最多的,缺点就是需要tensor硬件单元。
xmx版xess的画质/性能表现,可以认为就是dlss2,但其支持度太低(无论是硬件覆盖还是软件覆盖);而dp4a版的xess,硬件兼容性较强,但效率低且ai也是简化版的,虽然画质对比fsr有所提升,但画质/性能损耗比其实和fsr差不多,缺点还是软件覆盖率低。
fsr2仍然在捣鼓传统方案使用人工辨别筛选器导致其重建质量最差,但拥有居中的性能表现以及最广泛的硬件兼容性。从长远来看其发展前景堪忧,fsr2想要突破技术局限性,迟早也会使用ai替代传统的人工辨别/筛选器。