[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念

上傳人:小** 文檔編號(hào):101433845 上傳時(shí)間:2022-06-05 格式:DOC 頁(yè)數(shù):3 大?。?9KB
收藏 版權(quán)申訴 舉報(bào) 下載
[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念_第1頁(yè)
第1頁(yè) / 共3頁(yè)
[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念_第2頁(yè)
第2頁(yè) / 共3頁(yè)
[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念_第3頁(yè)
第3頁(yè) / 共3頁(yè)

最后一頁(yè)預(yù)覽完了!喜歡就下載吧,查找使用更方便

15 積分

下載資源

資源描述:

《[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念》由會(huì)員分享,可在線閱讀,更多相關(guān)《[機(jī)器學(xué)習(xí)]信息熵、信息增益的概念(3頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、機(jī)器學(xué)習(xí)信息熵、信息增益的概念信息熵信息熵表示隨機(jī)變量的不確定性。不確定性越大(即所謂的信息量越大),信息熵越大。信息可不可以量化?首先從直覺(jué)上來(lái)講,是可以的。不然我們?cè)趺从X(jué)得有的人廢話特別多,卻沒(méi)什么信息量;而有的人一語(yǔ)中的,一句話就傳達(dá)了很大的信息量。為什么有的信息大,有的信息???有些事情本來(lái)不是很確定:例如明天股票是漲是跌;1)“明天NBA決賽開(kāi)始了“,和“股票跌漲“沒(méi)關(guān)系,所以“明天NBA決賽開(kāi)始了“對(duì)“股票跌漲“帶來(lái)的信息量很小。2)但是“明天NBA決賽開(kāi)始了“,“大家都不關(guān)注股票了,沒(méi)人坐莊有99%的股都會(huì)下跌“,這句話對(duì)“對(duì)票跌漲“帶來(lái)的信息量很大。因?yàn)樗贡緛?lái)不確定的事情變得十

2、分確定而有些事情本來(lái)就很確定:例如每天太陽(yáng)從東方升起;你再告訴我一百遍,這句話還是沒(méi)有信息量的。因?yàn)檫@件事情不能更確定了所以說(shuō)信息量的大小跟事情的不確定性有關(guān)。那么,不確定性的變化跟什么有關(guān)呢?1. 跟事情的可能結(jié)果的數(shù)量有關(guān)例如我們討論太陽(yáng)從哪升起。本來(lái)就只有一個(gè)結(jié)果,我們?cè)缇椭溃敲礋o(wú)論誰(shuí)傳遞任何信息都是沒(méi)有信息量的。當(dāng)可能結(jié)果數(shù)量比較大時(shí),我們得到的新信息才有潛力擁有大信息量。2. 跟概率有關(guān)。單看可能結(jié)果數(shù)量不夠,還要看初始的概率分布。例如一開(kāi)始我就知道小明在電影院的有15*15個(gè)座位的A廳看電影。小明可以坐的位置有225個(gè),可能結(jié)果數(shù)量算多了。可是假如我們一開(kāi)始就知道小明坐在第一排

3、的最左邊的可能是99%,坐其它位置的可能性微乎其微,那么在大多數(shù)情況下,你再告訴我小明的什么信息也沒(méi)有多大用,因?yàn)槲覀儙缀醮_定小明坐第一排的最左邊了。那么,怎么衡量不確定性的變化的大小呢?怎么定義呢?這個(gè)問(wèn)題不好回答,但是假設(shè)我們已經(jīng)知道這個(gè)量已經(jīng)存在了,不妨就叫做信息量那么你覺(jué)得信息量起碼該滿(mǎn)足些什么特點(diǎn)呢?一,起碼不是個(gè)負(fù)數(shù)吧不然說(shuō)句話還偷走信息呢二,起碼0信息量口和0信息量口之間可以口相加叩巴!假如你告訴我的第一句話的信息量是3,在第一句話的基礎(chǔ)上又告訴我一句話,額外信息量是4,那么兩句話信息量加起來(lái)應(yīng)該等于7吧!難道還能是5是9?三,信息量是連續(xù)依賴(lài)于概率剛剛已經(jīng)提過(guò),信息量跟概率有關(guān)

4、系,但我們應(yīng)該會(huì)覺(jué)得,信息量是連續(xù)依賴(lài)于概率的吧!就是說(shuō),某一個(gè)概率變化了0.0000001,那么這個(gè)信息量不應(yīng)該變化很大。四,新信息有更大的潛力具有更大的信息量剛剛也提過(guò),信息量大小跟可能結(jié)果數(shù)量有關(guān)。假如每一個(gè)可能的結(jié)果出現(xiàn)的概率一樣,那么對(duì)于可能結(jié)果數(shù)量多的那個(gè)事件,新信息有更大的潛力具有更大的信息量,因?yàn)槌跏紶顟B(tài)下不確定性更大。那有什么函數(shù)能滿(mǎn)足上面四個(gè)條件呢?負(fù)的對(duì)數(shù)函數(shù),也就是-log(x)!底數(shù)取大于1的數(shù)保證這個(gè)函數(shù)是非負(fù)的就行。前面再隨便乘個(gè)正常數(shù)也行。a. 為什么不是正的?因?yàn)榧偃缡钦?,由于x是小于等于1的數(shù),log(x)就小于等于0了。第一個(gè)特點(diǎn)滿(mǎn)足。b. 咱們?cè)賮?lái)驗(yàn)證

5、一下其他特點(diǎn)。三是最容易的。假如x是一個(gè)概率,那么log(x)是連續(xù)依賴(lài)于x的donec。四呢?假如有n個(gè)可能結(jié)果,那么出現(xiàn)任意一個(gè)的概率是1/n,而-log(1/n)是n的增函數(shù),沒(méi)問(wèn)題。d。最后驗(yàn)證二。由于-log(xy)=-log(x)-log(y),所以也是對(duì)的。學(xué)數(shù)學(xué)的同學(xué)注意,這里的y可以是給定x的條件概率,當(dāng)然也可以獨(dú)立于X。Bytheway,這個(gè)函數(shù)是唯一的(除了還可以多乘上任意一個(gè)常數(shù)),有時(shí)間可以自己證明一下,或者查書(shū)。ok,所以我們知道一個(gè)事件的信息量就是這個(gè)事件發(fā)生的概率的負(fù)對(duì)數(shù)。最后終于能回到信息熵。信息熵是跟所有可能性有關(guān)系的。每個(gè)可能事件的發(fā)生都有個(gè)概率。信息熵就

6、是平均而言發(fā)生一個(gè)事件我們得到的信息量大小。所以數(shù)學(xué)上,信息熵其實(shí)是信息量的期望。(表達(dá)式參考其它答案或者看下面)至于為什么用“熵”這個(gè)怪字?大概是當(dāng)時(shí)翻譯的人覺(jué)得這個(gè)量跟熱力學(xué)的熵有關(guān)系,所以就用了這個(gè)字,君不見(jiàn)字里頭的火字旁?而熱力學(xué)為什么用這個(gè)字?這個(gè)真心不知道。信息增益熵:表示隨機(jī)變量的不確定性。條件熵:在一個(gè)條件下,隨機(jī)變量的不確定性。信息增益:熵-條件熵在一個(gè)條件下,信息不確定性減少的程度!通俗地講,X(明天下雨)是一個(gè)隨機(jī)變量,X的熵可以算出來(lái),Y(明天陰天)也是隨機(jī)變量,在陰天情況下下雨的信息熵我們?nèi)绻仓赖脑?此處需要知道其聯(lián)合概率分布或是通過(guò)數(shù)據(jù)估計(jì))即是條件熵。兩者相減就是信息增益!原來(lái)明天下雨例如信息熵是2,條件熵是0.01(因?yàn)槿绻顷幪炀拖掠甑母怕屎艽?信息就少了),這樣相減后為1.99,在獲得陰天這個(gè)信息后,下雨信息不確定性減少了1.99!是很多的!所以信息增益大!也就是說(shuō),陰天這個(gè)信息對(duì)下雨來(lái)說(shuō)是很重要的!所以在特征選擇的時(shí)候常常用信息增益,如果IG(信息增益大)的話那么這個(gè)特征對(duì)于分類(lèi)來(lái)說(shuō)很關(guān)鍵決策樹(shù)就是這樣來(lái)找特征的!參考感謝知乎的朋友滴水、KayZhou

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶(hù)上傳的文檔直接被用戶(hù)下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!