在AI棋力超过人类之后,怎样划分AI的棋力成为一个问题。之前可以使用人类的水平来标识AI的棋力,例如业1、业3、职业入门、职业顶尖等等,现在则多数是用的是elo等级分。
问题在于elo等级分不是一个合格的计量体系。如果在棋手群A(人orAI)中建立一套等级分体系,棋手群B中建立同样的等级分体系,那么是没有办法衡量他们之间的棋力高低的。
首先,等级分的绝对数值是没有意义的。没有任何规定说等级分0对应于什么水平,alphagozero初始等级分取的就和leelazero不同,两者同样的5000分棋力截然不同。
如果仅仅如此,那也就罢了。比如摄氏温标和凯尔文温标,绝对数值不同,但是两者的相对数值(例如提升1度)意义是一致的,进行比较时,只要重新标度一下坐标零点,两个体系就可以取得一致。问题在于,等级分系统的相对数值也不具备普适意义。
elo等级分相对数值表征的是胜率。比如人类A对战人类B胜率80%,leelazeroA对战leelazeroB的胜率也是80%,那么他们之间的等级分差是相同的。但是,胜率差能表征棋力差吗?假如B和leelazeroB水平相等,那么能够推出A和leelazeroA水平也相等吗?
显然不。用一个简单的模型,棋手的棋力用数值A表示,即时棋力在A的基础上有一个波动A+a,当A+a>B+b时棋手A战胜棋手B。
假设人类棋手的波动是30,leelazero的波动是3。那么人类A(棋力110)对战B(棋力100)胜率不过略大于50%,而leelazeroA(棋力110)对战leelazeroB(棋力100)胜率已经接近100%。
定量的算一下就知道,胜率表征的不是棋力差,而是棋力差/波动。
原来只有人类棋手时,都是人类大脑,其波动是差不多的(也有波动小的叫试金石,波动大的叫六脉神剑)。但是AI就完全不同了,程序的水平波动要比人类小很多,导致反映出来的等级分差也要大很多。这也是为什么人类让2子的水平差距,到了AI那儿奔着让9子去了。
所以正确的说法,AI的等级分提高1000分,说的是棋力提高了1000个AI标准波动。人类棋手等级分提高1000分,说的是棋力提高了1000个人类标准波动。之间的换算,1个人类标准波动或许等于10个AI标准波动,谁知道呢?
就算AI之间,如果算法不同,其波动也很难说就一定大。
所以,指望建立一套elo等级分来统一衡量人类和AI的棋力,是不可能的。
那么,有没有其他标准可以来衡量AI棋力的绝对高低呢?我觉得,可以试试先后手的胜率差异。比如某AI先后手胜率差异最小的是贴7.5,那么此时胜率差异偏离50%越大,那么说明AI的水平越高。这或许可以成为一个普适标准。
问题在于elo等级分不是一个合格的计量体系。如果在棋手群A(人orAI)中建立一套等级分体系,棋手群B中建立同样的等级分体系,那么是没有办法衡量他们之间的棋力高低的。
首先,等级分的绝对数值是没有意义的。没有任何规定说等级分0对应于什么水平,alphagozero初始等级分取的就和leelazero不同,两者同样的5000分棋力截然不同。
如果仅仅如此,那也就罢了。比如摄氏温标和凯尔文温标,绝对数值不同,但是两者的相对数值(例如提升1度)意义是一致的,进行比较时,只要重新标度一下坐标零点,两个体系就可以取得一致。问题在于,等级分系统的相对数值也不具备普适意义。
elo等级分相对数值表征的是胜率。比如人类A对战人类B胜率80%,leelazeroA对战leelazeroB的胜率也是80%,那么他们之间的等级分差是相同的。但是,胜率差能表征棋力差吗?假如B和leelazeroB水平相等,那么能够推出A和leelazeroA水平也相等吗?
显然不。用一个简单的模型,棋手的棋力用数值A表示,即时棋力在A的基础上有一个波动A+a,当A+a>B+b时棋手A战胜棋手B。
假设人类棋手的波动是30,leelazero的波动是3。那么人类A(棋力110)对战B(棋力100)胜率不过略大于50%,而leelazeroA(棋力110)对战leelazeroB(棋力100)胜率已经接近100%。
定量的算一下就知道,胜率表征的不是棋力差,而是棋力差/波动。
原来只有人类棋手时,都是人类大脑,其波动是差不多的(也有波动小的叫试金石,波动大的叫六脉神剑)。但是AI就完全不同了,程序的水平波动要比人类小很多,导致反映出来的等级分差也要大很多。这也是为什么人类让2子的水平差距,到了AI那儿奔着让9子去了。
所以正确的说法,AI的等级分提高1000分,说的是棋力提高了1000个AI标准波动。人类棋手等级分提高1000分,说的是棋力提高了1000个人类标准波动。之间的换算,1个人类标准波动或许等于10个AI标准波动,谁知道呢?
就算AI之间,如果算法不同,其波动也很难说就一定大。
所以,指望建立一套elo等级分来统一衡量人类和AI的棋力,是不可能的。
那么,有没有其他标准可以来衡量AI棋力的绝对高低呢?我觉得,可以试试先后手的胜率差异。比如某AI先后手胜率差异最小的是贴7.5,那么此时胜率差异偏离50%越大,那么说明AI的水平越高。这或许可以成为一个普适标准。