基础知识:http://www.csdn.net/article/2015-07-19/2825248
AlphaGo的核心是两种深度神经网络——“策略网络”(policy network)和 “值网络”(value network)
只要可以fooling 这2种网络,就可以打败alphago
对抗样本是通过稍微修改实际样本而构造出的合成样本,以便于一个分类器以高置信度认为它们属于错误的分类。
比如一个明显黑优势的棋局,如何加少量的噪音干扰,就让alphago的value network误判为白优势
通过误差反传生成大量的对抗性样本,给李世石看这些对抗性样本,李世石就可以知道alphago的弱点了
生成对抗性样本也不一定要alphago的神经元网络,百度训练一个类似的网络也可以。
AlphaGo的核心是两种深度神经网络——“策略网络”(policy network)和 “值网络”(value network)
只要可以fooling 这2种网络,就可以打败alphago
对抗样本是通过稍微修改实际样本而构造出的合成样本,以便于一个分类器以高置信度认为它们属于错误的分类。
比如一个明显黑优势的棋局,如何加少量的噪音干扰,就让alphago的value network误判为白优势
通过误差反传生成大量的对抗性样本,给李世石看这些对抗性样本,李世石就可以知道alphago的弱点了
生成对抗性样本也不一定要alphago的神经元网络,百度训练一个类似的网络也可以。