最近的一篇Ueda的PR Research给出了深度神经网络模型中的零、一、二级相变,且这些相变是深度神经网络中特有的。作者的思路是将损失函数类比为朗道自由能,将其全局最小化得到的东西则为自由能。假如这个最小化过程是对于某个参数b进行的,则该参数被定义为序参量。
该文章对于一类普适的线性深度网络,给出了一系列相变是否发生、相变点条件的数学定理。比如某一超参数等于输入数据向量和标签数据向量的乘积的期望值的模长的时候,发生二级相变。
暂且不清楚该工作有什么应用,看上去是发现了深度网络中的一类特殊物理行为。
该文章对于一类普适的线性深度网络,给出了一系列相变是否发生、相变点条件的数学定理。比如某一超参数等于输入数据向量和标签数据向量的乘积的期望值的模长的时候,发生二级相变。
暂且不清楚该工作有什么应用,看上去是发现了深度网络中的一类特殊物理行为。