《一元線性回歸原理【教育類別】》由會(huì)員分享,可在線閱讀,更多相關(guān)《一元線性回歸原理【教育類別】(22頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、統(tǒng)計(jì)思維回歸的直觀理解與原理:一元線性回歸1培訓(xùn)類(一)問題的提出(一)問題的提出例例1 1 假定需要研究化肥施用量與糧食產(chǎn)量的關(guān)系,以便準(zhǔn)確地定出化肥施用量的單位變化如何影響糧食產(chǎn)量的平均單位變化,進(jìn)而確定合理的化肥施用量。表表1 化肥施用量與糧食產(chǎn)量化肥施用量與糧食產(chǎn)量化肥施用量x(萬噸)4541.054541.053637.872287.493056.894883.73779.34021.09糧食產(chǎn)量y(萬噸)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(萬噸)2989.062989.0630
2、21.93953.973212.133804.761598.281998.56糧食產(chǎn)量y(萬噸)42947.4442947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(萬噸)3710.563710.563269.031017.121864.232797.241034.09糧食產(chǎn)量y(萬噸)46598.0446598.0444020.9234866.9137184.1441864.7733717.782培訓(xùn)類圖圖1 化肥施用量與糧食產(chǎn)量的散點(diǎn)圖化肥施用量與糧食產(chǎn)量的散點(diǎn)圖3培訓(xùn)類上述變量間關(guān)系的特點(diǎn):1.變量間關(guān)系不能用函數(shù)關(guān)
3、系精確表達(dá)2.一個(gè)變量的取值不能由另一個(gè)變量唯一確定3.當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值可能有幾個(gè)4.各觀測點(diǎn)分布在直線周圍 4培訓(xùn)類問題問題兩個(gè)變量之間有著密切的關(guān)系,但它們之間密切的程度并不能由一個(gè)變量唯一確定另一個(gè)變量,即它們間的關(guān)系是一種非確定性的關(guān)系。它們之間到底有什么樣的關(guān)系呢?u例1中由20組數(shù)據(jù),糧食產(chǎn)量與化肥施用量的關(guān)系式 是如何得到的?30208.9134.217yx5培訓(xùn)類解決方案運(yùn)用模型來擬合這些數(shù)據(jù)點(diǎn)。觀測值分解成兩部分:y=b b0 0 b b1 1 x e el一元線性回歸模型觀測項(xiàng)觀測項(xiàng) =+結(jié)構(gòu)項(xiàng)結(jié)構(gòu)項(xiàng)隨機(jī)項(xiàng)隨機(jī)項(xiàng) =+6培訓(xùn)類(二)一元線性回歸模型1
4、.描述因變量描述因變量 y 如何依賴于自變量如何依賴于自變量 x 和誤差項(xiàng)和誤差項(xiàng)e e 的的方程稱為方程稱為回歸模型回歸模型2.一元線性回歸模型可表示為一元線性回歸模型可表示為 y=b b0 0 b b1 1 x e ey 是是 x 的線性函數(shù)的線性函數(shù)(部分部分)加上誤差項(xiàng)加上誤差項(xiàng)線性部分反映了由于線性部分反映了由于 x 的變化而引起的的變化而引起的 y 的變化的變化誤差項(xiàng)誤差項(xiàng) e e 是隨機(jī)變量是隨機(jī)變量反映了除反映了除 x 和和 y 之間的線性關(guān)系之外的隨機(jī)因素對(duì)之間的線性關(guān)系之外的隨機(jī)因素對(duì) y 的影響的影響是不能由是不能由 x 和和 y 之間之間的線性關(guān)系所解釋的變異性的線性關(guān)
5、系所解釋的變異性b b0 和和 b b1 稱為模型的稱為模型的參數(shù)參數(shù)7培訓(xùn)類一元線性回歸模型 (基本假定)1.因變量因變量x與自變量與自變量y之間具有線性關(guān)系之間具有線性關(guān)系2.在重復(fù)抽樣中,自變量在重復(fù)抽樣中,自變量x的取值是固定的,即假定的取值是固定的,即假定x是是非隨機(jī)的非隨機(jī)的3.誤差項(xiàng)誤差項(xiàng)是一個(gè)期望值為是一個(gè)期望值為0的隨機(jī)變量,即的隨機(jī)變量,即E()=0。對(duì)。對(duì)于于一個(gè)一個(gè)給定的給定的 x 值,值,y 的期望值為的期望值為E(y)=b b 0+b b 1 x4.對(duì)于所有的對(duì)于所有的 x 值,值,的方差的方差2 都相同都相同5.誤差項(xiàng)誤差項(xiàng)是一個(gè)服從正態(tài)分布的隨機(jī)變量,且是一個(gè)服
6、從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立相互獨(dú)立。即即N(0,2)獨(dú)立性意味著對(duì)于一個(gè)特定的獨(dú)立性意味著對(duì)于一個(gè)特定的 x 值,它所對(duì)應(yīng)的值,它所對(duì)應(yīng)的與其他與其他 x 值所對(duì)應(yīng)的值所對(duì)應(yīng)的不相關(guān)不相關(guān)對(duì)于一個(gè)特定的對(duì)于一個(gè)特定的 x 值,它所對(duì)應(yīng)的值,它所對(duì)應(yīng)的 y 值與其他值與其他 x 所對(duì)應(yīng)的所對(duì)應(yīng)的 y 值也不相關(guān)值也不相關(guān)8培訓(xùn)類回歸方程(regression equation)1.描述描述 y 的平均值或期望值如何依賴于的平均值或期望值如何依賴于 x 的方的方程稱為程稱為回歸方程回歸方程2.一元線性回歸方程的形式如下一元線性回歸方程的形式如下 E(y)=b b0+b b1 x方程的圖示是一
7、條直線,也稱為方程的圖示是一條直線,也稱為直線回歸方程直線回歸方程b b0 0是回歸直線在是回歸直線在 y 軸上的截距,軸上的截距,是當(dāng)是當(dāng) x=0 時(shí)時(shí) y 的期望值的期望值b b1是直線的斜率,稱為回歸系數(shù),是直線的斜率,稱為回歸系數(shù),表示當(dāng)表示當(dāng) x 每變動(dòng)一個(gè)單位時(shí),每變動(dòng)一個(gè)單位時(shí),y 的平均變動(dòng)值的平均變動(dòng)值9培訓(xùn)類xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)問題:回歸直線如何確定?01 yxbb10培訓(xùn)類Karl Gauss的最小化圖目標(biāo):找一條直線盡可能的擬合這目標(biāo):找一條直線盡可能的擬合這n個(gè)樣本點(diǎn)。個(gè)樣本點(diǎn)。11培訓(xùn)類(三)最小二乘估計(jì)(least-squa
8、res estimation)1.德國科學(xué)家德國科學(xué)家Karl Gauss(17771855)提出用提出用最小化圖中垂直方向的誤差平方和最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù)來估計(jì)參數(shù) 2.使因變量的觀察值與估計(jì)值之間的誤差平方和使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來求得達(dá)到最小來求得 和和 的方法。即的方法。即3.用最小二乘法擬合的直線來代表用最小二乘法擬合的直線來代表x與與y之間之間的的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小0b1b12培訓(xùn)類問題如何估計(jì) 使得 最小0122010101,11(,)()min()nniiiiiiQyxyxb
9、bbbbbbb01bb、220111()()nniiiiiiyyyxbb13培訓(xùn)類解決方法根據(jù)微積分法求極值的原理,通過求偏導(dǎo)數(shù)并命其為0而得到:這組方程稱為正規(guī)方程組經(jīng)過整理,可得?0100100111112()02()0niiiniiiiQyxQyx xbbbbbbbbbb 14培訓(xùn)類其中,u記u可以簡寫為011121()()()niiiniiyxxxyyxxbbb11niixxn,11niiyyn經(jīng)過整理,可得22211()()nnxxiiiiLxxxn x,11()()nnxyiiiiiiLxxyyx ynx y011/xyxxyxLLbbb15培訓(xùn)類例例1 1 假定需要研究化肥施用量
10、與糧食產(chǎn)量的關(guān)系,以便準(zhǔn)確地定出化肥施用量的單位變化如何影響糧食產(chǎn)量的平均單位變化,進(jìn)而確定合理的化肥施用量。表表1糧食產(chǎn)量與化肥施用量糧食產(chǎn)量與化肥施用量化肥施用量x(萬噸)4541.054541.053637.872287.493056.894883.73779.34021.09糧食產(chǎn)量y(萬噸)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(萬噸)2989.062989.063021.93953.973212.133804.761598.281998.56糧食產(chǎn)量y(萬噸)42947.44429
11、47.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(萬噸)3710.563710.563269.031017.121864.232797.241034.09糧食產(chǎn)量y(萬噸)46598.0446598.0444020.9234866.9137184.1441864.7733717.78最小二乘法求解回歸方程實(shí)例最小二乘法求解回歸方程實(shí)例16培訓(xùn)類解:60478.32859213.653023.916,42960.68252020 xy2212()20563676920(3023.916)22755409.55nxxiiLxn
12、x1 269414883220 3023.916 42960.682595958928.85nxyiiiLx ynx y 011/xyxxyxLLbbb01142960.68254.217 3023.91630208.913/95958928.85/227554094.217xyxxyxLLbbb17培訓(xùn)類回歸方程為:30208.9134.217yx01142960.68254.217 3023.91630208.913/95958928.85/227554094.217xyxxyxLLbbb18培訓(xùn)類 直觀來看,回歸直線與20個(gè)樣本數(shù)據(jù)點(diǎn)都很接近,說明回歸直線對(duì)數(shù)據(jù)的擬合效果是好的。圖圖1
13、化肥施用量與糧食產(chǎn)量的散點(diǎn)圖化肥施用量與糧食產(chǎn)量的散點(diǎn)圖19培訓(xùn)類最小二乘估計(jì)的軟件實(shí)現(xiàn)、輸出結(jié)果最小二乘估計(jì)的軟件實(shí)現(xiàn)、輸出結(jié)果30208.9134.217yx回歸方程為:20培訓(xùn)類小結(jié):估計(jì)的回歸方程小結(jié):估計(jì)的回歸方程3.一元線性回歸中估計(jì)的回歸方程為一元線性回歸中估計(jì)的回歸方程為2.用用樣本統(tǒng)計(jì)量樣本統(tǒng)計(jì)量 和和 代替回歸方程中的未知參代替回歸方程中的未知參數(shù)數(shù) 和和 ,就得到了,就得到了估計(jì)的回歸方程估計(jì)的回歸方程1.總體總體回歸參數(shù)回歸參數(shù) 和和 是未知的,必須利用樣本數(shù)是未知的,必須利用樣本數(shù)據(jù)去估計(jì)據(jù)去估計(jì)其中:其中:是估計(jì)的回歸直線在是估計(jì)的回歸直線在 y 軸上的截距,軸上的
14、截距,是直線的斜率,是直線的斜率,它表示對(duì)于一個(gè)給定的它表示對(duì)于一個(gè)給定的 x 的值,的值,是是 y 的估計(jì)值,也表示的估計(jì)值,也表示 x 每變每變動(dòng)一個(gè)單位時(shí),動(dòng)一個(gè)單位時(shí),y 的平均變動(dòng)值的平均變動(dòng)值.21培訓(xùn)類“回歸”名稱的由來十九世紀(jì),英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓研究父母身高與其子女身高的遺傳問題時(shí),觀察了1078對(duì)夫婦,以每對(duì)夫婦的平均身高作為x(單位:英寸,1英寸=2.54厘米),取他們的一個(gè)成年兒子的身高作為y,繪制散點(diǎn)圖發(fā)現(xiàn)趨勢近乎一條直線,計(jì)算出的直線方程為:這種趨勢表明子代的身高向中心回歸向中心回歸,才使得人類的身高在一定時(shí)間內(nèi)相對(duì)穩(wěn)定,沒有出現(xiàn)兩極分化現(xiàn)象。其后研究變量x和變量y的統(tǒng)計(jì)關(guān)系時(shí)借用這個(gè)名詞。33.730.516yx22培訓(xùn)類