悦智网报道:特洛伊的海伦的美貌足以发动一场千艘战舰参加的战争,但即使最优秀的脸部识别算法可能也很难在100万个陌生人中找到她。首次基于100万张面孔的公开基准测试表明,谷歌及全世界其他研究团体的脸部识别算法还远远达不到完美。
之前的脸部识别算法以1.3万张面孔为基础进行了基准测试,准确率在95%以上,但在新一届MegaFace挑战赛上,这些算法的准确率却大幅下降。表现最佳的谷歌FaceNet算法从五位数面孔测试时近乎完美的准确率降到了百万面孔测试时的75%。其他顶级算法也从90%以上的准确率掉到了60%以下。某些算法的识别准确率甚至跌到了35%。
艾拉•卡美哈美哈-施利泽尔曼(Ira Kemelmacher-Shlizerman)是华盛顿大学(位于西雅图)的计算机科学助理教授,同时也是MegaFace挑战赛的项目负责人,他表示:“MegaFace想传达的主要观点是,应该在大范围内对算法进行评估。我们得出了大量只有在大范围评估时才能得到的发现。”
对100万张脸进行扫描时,准确率大幅下降,这件事很重要,因为在现实世界中,脸部识别算法不可避免地会遇到这样的挑战。人们越来越相信这些算法会在安全验证时准确地识别他们,执法机构也可能依靠脸部识别从监控录像拍摄到的数十万张脸孔中找到嫌疑人。
到目前为止最流行的基准测试是“人面数据库”(Labeled Faces in the Wild, LFW)于2007年进行的测试。LFW仅存储了5000个人的1.3万张图像。许多脸部识别算法都经过了精心调试,对LFW图像进行脸部识别时准确率几乎可以达到百分之百。大部分研究人员都表示,新的基准挑战早就该出现了。
“最大的不利条件是(这个领域)已经饱和了——也就是说,LFW上有许多许多算法的准确率都在95%以上。” 卡美哈美哈-施利泽尔曼说,“这就造成一种假象——脸部识别问题已得到解决,而且很完美。”
考虑到这一点,华盛顿大学的研究人员决定提高门槛,利用在“知识共享”(Creative Commons)许可下可公开获得的69万张独特脸孔的100万张Flickr图像,举办了MegaFace挑战赛。
MegaFace挑战赛要求脸部识别算法进行两项单独却相互关联的任务——验证(verification)与识别(identification)。验证指的是正确判断呈现给脸部识别算法的两张脸孔是否属于同一个人。识别指在100万张“干扰”面孔中找到同一个人的匹配照片。6月30日,IEEE计算机视觉与模式识别大会上展示了谷歌和另外4个研究团队开发的算法得出的初步结果。(MegaFace挑战赛的一名开发人员也在谷歌西雅图办公室带领了一个计算机视觉团队。)
展现的结果既有趣又令人期待。算法的性能表现随着干扰面孔数量的增加而降低,对这一点,任何人都不感到吃惊。而且算法在识别不同年龄阶段的同一个人方面还有难度,这也是一个已知问题。不过,此次结果也表明,在相对较小的数据集里训练过的算法竟然可以与经过大型数据集训练的算法相媲美,如谷歌的FaceNet,它曾经经过了来自1000万人5亿多张照片的训练。
例如,俄罗斯N-TechLab实验室的FaceN算法,虽然只经过了来自20万人1800万张照片的训练,但在某些任务上的表现可与FaceNet相匹敌。在中国科学院深圳先进技术研究院乔宇教授带领下创建的中科院深圳先进技术研究院多媒体集成技术研究中心(SIAT MMLab)的算法也在某些任务上表现出色。
但是,到目前为止FaceNet的综合表现最佳,在所有测试上的表现最为稳定。
伦敦帝国理工学院的计算机视觉专家斯特凡诺•泽菲里奥(Stefanos Zafeiriou)表示,看到谷歌算法如何超过其竞争对手的算法,可能是这项挑战赛最有价值的结果了。他和其他未参加MegaFace挑战赛的研究人员都对FaceNet的稳定表现印象深刻。另一方面,它75%的准确率表明,即便是最好的脸部识别算法,面对“世界级规模”的数百万张甚至数十亿张干扰脸孔,在脸部识别方面也可能出现问题。
除此之外,MegaFace还为未来研究提供了一个重点方向。美国国家标准与技术研究院(位于华盛顿特区)的工程师乔纳森•菲利普斯(Jonathon Phillips)表示,到目前为止,大多数学术研究团队的焦点放在了利用更大的训练数据集来改进他们的算法上,而不是用更大的基准数据集来进行挑战。
华盛顿大学的研究人员计划基于MegaFace照片发布一个训练数据集,供所有研究人员使用。哪怕是最小的学术团队也能从中获得帮助,使用一些硅谷巨头们早已获得的资源。
“以更接近人们手机中存储的图片的照片作为大型数据集来测试这些算法的表现,越多越好。”科罗拉多州立大学(位于柯林斯堡)计算机科学家罗斯•贝弗里奇(Ross Beveridge)如是说。
作者:Jeremy Hsu