如果是光谈迁移学习里头求取 disentangled representation 的这一点的话,我的直觉是基于一般的 discriminative CNN 做所谓的有性生殖(网络的高层表征替换或组合)并没有什么指望,而 generative 一类的方法要合适得多。 例如 GAN (generative adversarial networks) 可以看成是在执行一种微观的进化,其中依赖GAN 里头的discriminator 做筛选的工作。那里并没有交配的主意在里头,不过整体而言大致等于是一种演化 loss function 的过程。
迁移学习的一大目标是要找到一个disentangled representation。举例来说,一个系统如果能够以无监督学习从人脸图片导出可分别操纵的各种高级元素,如脸的朝向,阴影,脸的宽度,等等(见下图),我们就可以说这系统学到了一个不错的 disentangled representation. 而这样的一个 representation 已经不似一般CNN导出来的各层表征,而是一种高层次级别在观念上类似坐标轴的东西了。这里有意思的一点是新一代的GAN如 InfoGAN 可以导出这样的 disentangled representation.
