象棋吧 关注:278,011贴子:6,090,797
  • 6回复贴,共1

象棋引擎慢棋等级分测试报告

只看楼主收藏回复

先说一下为什么我要做这个测试。
现在网上比较容易看到的象棋引擎排名天梯,采用规则是非平衡开局(等于一方开局故意亏)+超快棋规则,与正常对局环境相差甚远。
而且采用的是ordo计分方式,与传统体育(如国际象棋、围棋、象棋)采用的公式是完全不同的。
所以网上有些人说人类等级分2700、2800,然后这个软件3600那个软件3700,其实是不对的。
所以我就好奇如果采用更接近人类实战的环境,各象棋引擎的真实表现如何,等级分是否仍然像网上那样?
测试软件采用鲨鱼象棋的象棋联赛功能,禁开局库,用时采用的是3分钟+5秒。
以下引擎除皮卡鱼外,其余均来自某象棋软件群。所有引擎分先对战25轮共50场。

经测试,名手326仅支持6线程,南澳仅支持2线程,其余引擎支持12线程,名手其实还好,但南澳在这方面确实吃亏,但这也是引擎优化的一部分。
还有就是网上常以名手326(2850分)为基准,但我感觉旋风6.2的棋力讨论更广泛,可能更适合作为基准引擎。
至于旋风6.2是否有2600,欢迎讨论。
本次测试结果与主流象棋引擎天梯图对比后,可以发现:
1、代际优势明显体现:
即使是最早期的皮卡鱼220713版本,也领先传统引擎400分以上
南澳引擎虽然仅支持2线程,但仍领先12线程的旋风6.2近200分。
2、象棋引擎发展接近极限:
在慢棋环境下,引擎进步空间已明显缩小。
本身我参考象棋引擎天梯图,特意选取了4个预估测试分差会接近的皮卡鱼版本,结果前三个版本确实保持约100分的差距,但到了皮卡鱼250110对221226已经无法保持100分的领先优势。
最新版皮卡鱼250110对221226仅取得1胜49平的成绩,但他们在虐菜上是有明显差别的,59分的分差主要依靠对其他软件的表现。
我对整体测试结果还是满意的,最大遗憾是没有一个顶级的传统引擎软件(20年的旋风或者小虫)可以进行测试。


IP属地:广东1楼2025-03-28 13:55回复
    党晓阳最强不接受反驳


    IP属地:福建来自iPhone客户端2楼2025-03-28 18:42
    收起回复
      均势局是明显的边际效应,相同配置相同设置下,随着引擎发展,均势局自对弈和棋率越来越高相同的高优局elo提升,放在均势局提升幅度越来越小


      IP属地:意大利来自Android客户端3楼2025-03-28 20:21
      收起回复