MLE是最大似然参数估计,KL散度是相对熵。 公式最后三行,去掉arg max θ,分别是:相对熵离散版、相对熵通用版、相对熵连续版的公式。 约等于的意思是:当样本数据无限多时,离散版(求和)约等于连续版(积分),这是微积分的基本思想。 相对熵的概念可详细看相关教程。 arg max θ 的意思是:使公式(函数)达到最大的拟合度(相似度)时,参数θ的值,求arg max θ即自动调参。 也就是说,如果求出了参数θ的值,那么公式求出的数值将最大程度的接近测量的样本值,即理论数据将最大程度接近现实数据,这是最大似然的基本思想,或者说是“拟合”的基本思想。最大似然时,误差最小。 相对熵是从信息论角度描述拟合的,虽然角度不同,但实质和最大似然是等价的。熵代表不确定性或混乱程度,熵越大不确定性就越大,熵越小(相对熵是KL散度小)代表确定性高,确定性高则似然度高、拟合准确。