《《logistic回歸分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《logistic回歸分析》PPT課件.ppt(81頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、1,logistic回歸分析王淑康,2,Logistic回歸(Logistic Regression)是研究因變量為二分類或多分類觀察結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。 Logistic回歸的分類: (1)二分類資料Logistic回歸: 因變量為兩分類變量的資料,可用非條件Logistic回歸和條件Logistic回歸進行分析。非條件Logistic回歸多用于非配比病例-對照研究或隊列研究資料,條件Logistic回歸多用于配對或配比資料。 (2)多分類資料Logistic回歸: 因變量為多項分類的資料,可用多項分類Logistic回歸模型或有序分類L
2、ogistic回歸模型進行分析。,3,非條件Logistic回歸分析 條件Logistic回歸分析 無序分類反應(yīng)變量Logistic回歸分析 有序多分類反應(yīng)變量Logistic回歸分析 Logistic回歸分析應(yīng)用及注意事項,4,第一節(jié) 非條件logistic回歸,5,6,7,8,9,二、 logistic回歸模型的參數(shù)估計,logistic回歸模型的參數(shù)估計常采用最大似然估計。其基本思想是先建立似然函數(shù)與對數(shù)似然函數(shù),求使對數(shù)似然函數(shù)最大時的參數(shù)值,其估計值即為最大似然估計值。,10,,,,,,11,,12,13,14,例、口服避孕藥(OC)與心肌梗死(MI)關(guān)系的病例對照研究結(jié)果,,參數(shù)估
3、計為:,15,例、口服避孕藥(OC)與心肌梗死(MI)關(guān)系的病例對照研究結(jié)果,,16,17,觀察例數(shù),18,19,20,三、logistic回歸模型的假設(shè)檢驗,21,22,對所擬合模型的假設(shè)檢驗:,23,四、變量篩選,24,例 某工作者在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例。試用logistic回歸分析篩選出與癌細(xì)胞轉(zhuǎn)移有關(guān)的危險因素(變量選入和剔除水平均為0.10)。,25,用逐步回歸法擬合模型,變量選入和剔除水平均為0.10,指定選項“des”是為了按照y=1(有轉(zhuǎn)移)的概率擬合模型。如果不加此選擇項,則軟件會按照y=0(
4、無轉(zhuǎn)移)的概率擬合模型,此時,應(yīng)變量的排序水平發(fā)生顛倒,且所有參數(shù)估計的符號相反,OR值為原來的倒數(shù)。,26,27,logistic逐步回歸分析篩選出兩個有統(tǒng)計學(xué)意義的變量為x2和x4,回歸系數(shù)分別為2.4134和2.0963,比數(shù)比分別為11.172和8.136。結(jié)果中還給出了標(biāo)準(zhǔn)化偏回歸系數(shù),腎癌細(xì)胞核組織學(xué)分級(x4)在引起癌細(xì)胞轉(zhuǎn)移中的危險性大于腎細(xì)胞癌血管內(nèi)皮生長因子(x2)。,28,第二節(jié) 條件logistic回歸,,29,30,31,32,33,34,例 研究肥胖(x1,肥胖為1,不肥胖為0)、口服避孕藥雌激素(x2,用藥為1,不用藥為0)與子宮內(nèi)膜癌(y,病例為0,對照為1)的
5、關(guān)系,采用1:2配對做病例-對照研究,共調(diào)查20個配比組。試分析肥胖、口服避孕藥雌激素與子宮內(nèi)膜癌的關(guān)系。,35,36,37,第三節(jié) 無序反應(yīng)變量Logistic回歸,y=1表示A類,y=2表示B類,y=0表示C類。 設(shè)C類為參照組。,如果反應(yīng)變量的水平數(shù)大于2個,且水平間不存在等級關(guān)系,該反應(yīng)變量稱為多分類無序反應(yīng)變量,此時需擬合廣義logistic模型(general logistic model),38,39,例:欲研究不同社區(qū)、性別對成人獲取健康知識途徑的差別,見表3.1,40,data aa; do community=1 to 3; do sex=0 to 1; do method
6、=1 to 3; input x; output; end;end;end; cards; 20 35 26 10 27 57 42 17 26 16 12 26 15 15 16 11 12 20 ; proc logistic; freq x; class community sex; model method (ref=3)=community sex/link=glogit aggregate scale=none; run;/*link=glogit擬合無序分類logistic回歸模型,ref指明參照的類別*/,,41,LOGISTIC過程語句,可用于model語句的常用選項有:,過
7、度離散和擬合優(yōu)度選項 AGGREGATE|AGGREGATE=(variable-list)規(guī)定計算Pearson卡方檢驗統(tǒng)計量和似然比卡方檢驗統(tǒng)計量的子總體,會輸出Pearson擬合優(yōu)度統(tǒng)計量。 SCALE=scale提供離散參數(shù)的值,或規(guī)定估計離散參數(shù)的方法。并同時顯示“偏差和Pearson擬合優(yōu)度統(tǒng)計量”表。scale有效值為: D|DEVIANCE:離散參數(shù)的估計為偏差除以自由度; P|PEARSON:離散參數(shù)估計為Pearson卡方統(tǒng)計量除以自由度; N|NONE:對離散參數(shù)不予修正; WILLIAMS:Williams方法用于過離散模型 LACKFIT對于兩分類反應(yīng)變量模型執(zhí)行Ho
8、smer和Lemeshow擬合優(yōu)度檢驗。 RSQUARE擬合模型的廣義決定系數(shù)。,42,43,44,45,以educate為參照結(jié)果,,,所對應(yīng)的logistic模型為:,46,以educate為參照結(jié)果,社區(qū)為1時,community1=1,community2=0; 社區(qū)為2時,community1=0,community2=1; 社區(qū)為3時,community1=-1,community2=-1;,47,以educate為參照結(jié)果,社區(qū)為1時,community1=1,community2=0; 社區(qū)為2時,community1=0,community2=1; 社區(qū)為3時,communi
9、ty1=-1,community2=-1;,說明性別相同的社區(qū)1的居民與社區(qū)3的居民相比,通過media獲取知識的可能性是educate的0.518倍,即更多是從educate獲取相關(guān)知識。,,48,以educate為參照結(jié)果,社區(qū)為1時,community1=1,community2=0; 社區(qū)為2時,community1=0,community2=1; 社區(qū)為3時,community1=-1,community2=-1;,49,以educate為參照結(jié)果,社區(qū)為1時,community1=1,community2=0; 社區(qū)為2時,community1=0,community2=1; 社區(qū)
10、為3時,community1=-1,community2=-1;,說明性別相同的社區(qū)1的居民與社區(qū)3的居民相比,通過network獲取知識的可能性是通過educate獲取知識的1.020倍,兩種途徑相差不大。,,50,以educate為參照結(jié)果,男性時,數(shù)據(jù)集定義為0,結(jié)果中為sex=1; 女性時,數(shù)據(jù)集定義為1,結(jié)果中為sex=-1;,說明相同社區(qū)的居民中,男性與女性相比通過media獲取知識的可能性是通過educate獲取知識的2.887倍;同理通過network的可能性是educate的2.055倍,即男性與女性相比更喜歡通過大眾傳媒和網(wǎng)絡(luò)獲取知識。,,51,52,53,無序多分類反應(yīng)變
11、量logistic回歸SAS的輸出概率:,54,第四節(jié) 有序反應(yīng)變量Logistic回歸,假設(shè)反應(yīng)變量 y為k個等級的有序變量,k個等級分別用1,2,,k表示。 累積概率(cumulative probability),,j,55,,,反應(yīng)變量 y 取某一分類的概率為:,有序反應(yīng)變量Logistic回歸分析要求每一個模型中相對應(yīng)的自變量的偏回歸系數(shù)都相同,因此對數(shù)據(jù)要進行平行性檢驗。,56,data aa; do sex=0 to 1; do treat=0 to 1; do effect=1 to 3; input count; output; end; end; end; cards; 1
12、 0 10 5 2 7 6 7 19 16 5 6 ; proc logistic; freq count; model effect=sex treat/scale=none aggregate; run;,57,58,59,,,女性顯效的可能性是男性的3.739倍;也表示女性至少有效的可能性是男性的3.739倍。 新藥顯效的可能性是傳統(tǒng)藥的6.033倍;新藥至少有效的可能性是傳統(tǒng)藥的6.033倍。,60,data bb; do IQ=1 to 4; do education=0 to 3; input count; output; end; end; cards; 22 57 11 1
13、81 236 112 4 30 135 105 10 3 26 17 7 ; proc logistic des; freq count; model IQ=education / aggregate; run;,只是例題!,61,,,62,,,,,,63,有序多分類反應(yīng)變量SAS輸出的預(yù)測概率:,64,第六節(jié) Logistic模型回歸診斷,Logistic回歸數(shù)據(jù)結(jié)構(gòu)問題有過離散、空單元、完全分離、多元共線性、特異值及強影響點等等。,65,Logistic模型回歸診斷,66,Logistic模型回歸診斷,5、特異值和強影響值:SAS中對特異值和強影響值的診斷指標(biāo)有:,67,Logisti
14、c模型回歸診斷,5、特異值和強影響值:SAS中對特異值和強影響值的診斷指標(biāo)有:,68,6、非線性和非加性:,69,第七節(jié) logistic回歸的應(yīng)用及其注意事項,70,71,如果藥物或毒物不止一種,也可以用logistic模型分析其聯(lián)合作用。,72,4預(yù)測與判別 logistic回歸模型是一個概率型模型,對非條件Logistic回歸,在給定的條件下可通過logistic回歸模型計算某事件發(fā)生的概率。因此可以利用它預(yù)測某事件發(fā)生的概率。在臨床上也可以根據(jù)疾病與臨床檢查指標(biāo)資料,建立logistic回歸模型,對新的對象可根據(jù)其臨床檢查指標(biāo),計算其患某種疾病的概率的大小,進行判別分析。,73,二、l
15、ogistic回歸分析應(yīng)用的注意事項,74,75,設(shè)y=1表示患冠心病,y=0表示未患冠心病??床煌淖兞抠x值的結(jié)果。,76,Logistic方程:lnp/(1-p)=-1.3863+2.0794black+1.6094others,黑人與白人的OR值為:OR=exp(2.0794)=8.000 其他人與白人的OR值為:OR=exp(1.6094)=5.000,第一種賦值方法結(jié)果:,77,Logistic方程為:lnp/(1-p)=0.6931black-1.3863white+0.2231others,黑人和白人的OR值為:OR=2.000/0.250=8.000 或者:lnOR=lnp1/(1-p1)/ p2/(1-p2)=0.6931-(-1.3863..)=2.0794; OR=exp(2.0794)=8.000,第二種賦值方法結(jié)果:,78,79,設(shè)立啞變量方法,80,81,