ideadata大数据视界吧 关注:17贴子:334
  • 1回复贴,共1

熵、信息熵、决策树

只看楼主收藏回复



19世纪,工程师在关注蒸汽机效率这个问题的时候,水要达到多热,要加入什么样的沸腾的物质才能让蒸汽机效率更高等等,为解答这些问题,热力学诞生了,并引入了热量、温度、能量等概念。并出现了热力学定律,这个时候的热力学定律是为了解释热量是如何流动。随着科学家了解深入,以及为了更好的理解宇宙进化及时间流逝,热力学第二定律出现了熵这个概念,熵的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个系统可以达到的状态数的一个度量,能达到的状态数越多熵越大。


1楼2017-12-05 10:47回复
    信息熵
    信息熵也基本是很类似的,是香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念,并且以后信息论也被作为一门单独的学科。
    信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,那么他出现的各种情况也就越多,也就是包含的内容多,我们要描述他就需要付出更多的表达才可以,也就是需要更多的信息才能确定这个变量。在吴军的那篇《汉语信息熵和语言模型的复杂度》文章里说,只考虑字频的话英文是4.46比特/字符的信息熵,汉字是9.6比特/字符,直观上很容易理解,英文字母只有26个,所以描述一个字母所需要的信息表示不多,而中文字却很多,就需要更多的信息量才能表示。用点通俗的来讲,信息熵衡量了一个系统的复杂度,比如当我们想要比较两门课哪个更复杂的时候,信息熵就可以为我们作定量的比较,信息熵大的就说明那门课的信息量大,更加复杂。


    2楼2017-12-05 10:47
    回复