現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與Stata應(yīng)用(第一版)

上傳人：工***

文檔編號：9270908

上傳時間：2020-04-04

格式：PDF

頁數(shù)：108

大?。?85.64KB

《現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與Stata應(yīng)用(第一版)》由會員分享，可在線閱讀，更多相關(guān)《現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與Stata應(yīng)用(第一版)（108頁珍藏版）》請在裝配圖網(wǎng)上搜索。

現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 1 第一章 Stata 概貌 1 1 Stata 的功能特點和背景 Stata是一個用于分析和管理數(shù)據(jù)的功能強大又小巧玲瓏的實用統(tǒng)計分析軟件由美國計算機資源中心 Computer Resource Center 研制從 1985至 1998的十四年時間里已連續(xù)推出 1 1 1 2 1 3 1 4 1 5 及 2 0 2 1 3 0 3 1 4 0 5 0 6 0等多個版本通過不斷更新和擴充內(nèi)容日趨完善它同時具有數(shù)據(jù)管理軟件統(tǒng)計分析軟件繪圖軟件矩陣計算軟件和程序語言的特點又在許多方面別具一格 Stata融匯了上述程序的優(yōu)點克服了各自的缺點使其功能更加強大操作更加靈活簡單易學(xué)易用越來越受到人們的重視和歡迎 Stata的突出特點是只占用很少的磁盤空間輸出結(jié)果簡潔所選方法先進內(nèi)容較齊全制作的圖形十分精美可直接被圖形處理軟件或字處理軟件如 WORD等直接調(diào)用一 Stata 的數(shù)據(jù)管理能力 Stata的數(shù)據(jù)管理空間受計算機的操作系統(tǒng)和計算機擴展內(nèi)存的影響對 640k內(nèi)存的微機 3 1版本的 Stata可以管理 2400個記錄 99個變量并隨計算機擴展內(nèi)存的增加而增加對 4 0的 WINDOWS版本 Stata可以管理 4800個記錄 99個變量對 WINDOWS 95下的 5 0版本可根據(jù)計算機的配置情況設(shè)置變量數(shù)和記錄數(shù) 如 32M擴展內(nèi)存的計算機可處理 2千萬個數(shù)據(jù) 變量數(shù)和記錄數(shù)可以互相交易 trade 即減少記錄數(shù)可以增加變量數(shù) 減少變量數(shù)可以增加記錄數(shù) 可以將分組變量轉(zhuǎn)換成指示變量啞變量將字符串變量映射成數(shù)字代碼可以對數(shù)據(jù)文件進行橫向和縱向鏈接可以將行數(shù)據(jù)轉(zhuǎn)為列數(shù)據(jù) 或反之可以恢復(fù) 修改執(zhí)行過的命令可以利用數(shù)值函數(shù)或字符串函數(shù)產(chǎn)生新變量可以從鍵盤或磁盤讀入數(shù)據(jù) 二 Stata 的統(tǒng)計功能 Stata的統(tǒng)計功能很強除了傳統(tǒng)的統(tǒng)計分析方法外還收集了近 20年發(fā)展起來的新方法如 Cox比例風(fēng)險回歸指數(shù)與 Weibull回歸多類結(jié)果與有序結(jié)果的 logistic回歸 Poisson回歸負二項回歸及廣義負二項回歸隨機效應(yīng)模型等具體說 Stata具有如下統(tǒng)計分析能力數(shù)值變量資料的一般分析參數(shù)估計檢驗單因素和多因素的方差分析協(xié)方差分析交互效應(yīng)模型平衡和非平衡設(shè)計嵌套設(shè)計隨機效應(yīng) 多個均數(shù)的兩兩比較缺項數(shù)據(jù)的處理方差齊性檢驗正態(tài)性檢驗變量變換等分類資料的一般分析參數(shù)估計列聯(lián)表分析 2檢驗列聯(lián)系數(shù) 確切概率流行 10 第二章 Stata 的函數(shù)和變量第二章 Stata 的函數(shù)和變量 2 1 Stata 的函數(shù) Stata具有豐富的函數(shù)功能它不僅提供了一般計算機語言和統(tǒng)計軟件包所具有的數(shù)學(xué)函數(shù)和字符串函數(shù) 而且還提供了很多有用的統(tǒng)計函數(shù) 特殊函數(shù) 以及許多獨具特色的系統(tǒng)變量借助于這些函數(shù)和系統(tǒng)變量用戶可以得心應(yīng)手地使用 Stata 充分發(fā)揮自己的聰明才智提高工作效率為講述方便先引入指令 display display使我們的計算機行使簡單的計算功能例如要計算 3 22 dislplay 3 2 2 7 結(jié)果是 7 有了這個命令后下面的講述和練習(xí)就容易了一數(shù)學(xué)函數(shù) 1 abs x 絕對值函數(shù) 2 exp x 指教函數(shù) 3 log x 自然對數(shù) 4 log10 x 常用對數(shù) 5 sqrt x 平方根函數(shù) 6 sin x 正弦函數(shù) 7 cos x 余弦函數(shù) 8 atan x 反正切函數(shù) 9 lngamma x 整數(shù) x的函數(shù)之對數(shù) ln x 1 10 mod x y 模數(shù)函數(shù)獲得 x除以 y的余數(shù) 如 display mod 25 3 結(jié)果將是 1 二統(tǒng)計函數(shù) 1 normprob df x 正態(tài)分布的下側(cè)概率函數(shù) 2 invnorm p 正態(tài)分布的分位數(shù) 3 Binomial n k p 二項分布函數(shù) 表示 n 次試驗中成功次數(shù) k 的概率 p 為成功概率 4 invbinomial n k p 二項分布的逆函數(shù) p 示 n 次試驗中成功次數(shù) k 的概率本函數(shù)給出的是每次成功的概率當 p0 5 時概率 p 滿足 Pr x k 1 p 5 tprob df t 自由度為 df 的 t 分布雙側(cè)累積概率 Pr t t 6 invt df P 自由度為 df 的 t 分位數(shù) invt df 1 tprob df t t 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 11 7 fprob df1 df2 f 自由度為 df1 df2 的 F 分布的上側(cè)累積概率 8 invfprob df1 df2 p F 分布的分位數(shù) 如果 fprob df1 df2 F p 則 invfprob df1 df2 p F 9 chiprob df x 自由度為 df 的 2 分布的上側(cè)累積概率 10 nchi df L x 非中心 2 分布的上側(cè)概率 1 df 200 0 L0時取 1 x 0時取 1 x 0時取 0 2 取整函數(shù) int x 去掉 x的小數(shù)部分得到整數(shù) int x 0 5 是對 x四舍五入取整 int x sign x 2 產(chǎn)生與 x最近的一個整數(shù) 3 求和函數(shù) sum x 很常用獲得包括當前記錄及以前的所有記錄的 x的和缺失值 missing value 當 0處理 4 最大值函數(shù) max x1 x2 Xn 忽略缺失值 12 第二章 Stata 的函數(shù)和變量 5 最小值函數(shù) min x1 x2 Xn 忽略缺失值 6 分組函數(shù) group x 將數(shù)據(jù)分成大小近似相等的 x個子樣本分別給予組編號 1 2 x 7 浮點轉(zhuǎn)換函數(shù) float x 將 x轉(zhuǎn)換成浮點表示法 Stata是用浮點形式存儲數(shù)據(jù)的因此在將變量與具體數(shù)值進行比較時最好先將具體數(shù)值轉(zhuǎn)換成浮點形式例如當 x為 1 1時表達式 x 1 1的結(jié)果可能不真因為表達式左邊的 x是浮點形式右邊的 1 1是雙精度形式二者相差 0 00000002384 而改寫為 x float 1 1 后結(jié)果就正確了當某個數(shù)值沒有有限的二進制表達時常常會出現(xiàn)這種情況 8 條件函數(shù) cond x a b x可以是一個條件 x非 0 條件成立時取 a x為 0 條件不成立時取 b 9 歸組函數(shù) recode x x1 x2 xn 其結(jié)果可表達如下 x1 如果 x x1 x2 如果 x1 x x2 x3 如果 x2 x x3 recode x x1 x2 xn xn 1 如果 xn 2 xxn 1 缺失值如果 x為缺失值 10 自動歸組函數(shù) autocode x ng xmin xmax 自動將區(qū)間 xmin xmax 分成 ng個等長的小區(qū)間其結(jié)果是包含 x值那個小區(qū)間的上界值其作用與歸組函數(shù)相同 2 2 Stata 的格式文件變量和系統(tǒng)變量一文件名和文件類型 Stata的格式文件命名規(guī)則與 Dos中文件的命名規(guī)則相同文件名以字母開頭不超過 8個字符不能用標點符號及 Dos中的通配符 Stata共有六種格式文件其默認的后綴文件擴展名見表 2 1 表 2 1 Stata 的文件類型文件擴展名文件特性 dct ASC 數(shù)據(jù) 字典文件 raw ASC 數(shù)據(jù)文件 do 命令文件 dta Stata數(shù)據(jù)文件 log Stata結(jié)果文件 gph Stata圖形文件 xp Stata的 xp 數(shù)據(jù)文件二變量名和變量類型與文件名一樣 Stata的變量名可以是英文字母 A Z和 a z 數(shù)字 0 9 下劃線可現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 13 區(qū)分的有效長度大于大于等于小于例 6 1 0 3 2 2 析因設(shè)計就表 6 6 資料分析三種基礎(chǔ)液 a 中的鉤端螺旋體計數(shù) conut 有無差別兔血清與胎盤血清 b 的計數(shù)有無差別兩種濃度 c 間的計數(shù)有無差別各因素間有無交互作 anova count a b c a b a c c b a b c Number of obs 48 R square 0 5656 Root MSE 400 421 Adj R square 0 4328 Source Partial SS df MS F Prob F Model 7514726 92 11 683156 992 4 26 0 0005 72 第六章數(shù)值變量資料的統(tǒng)計分析 a 107712 792 2 53856 3958 0 34 0 7169 b 6588972 00 1 6588972 00 41 09 0 0000 c 573781 333 1 573781 333 3 58 0 0666 a b 95267 375 2 47633 6875 0 30 0 7448 a c 47553 2917 2 23776 6458 0 15 0 8627 c b 10502 0833 1 10502 0833 0 07 0 7995 a b c 90938 0417 2 45469 0208 0 28 0 7547 Residual 5772 117 00 36 160336 583 Total 13286843 9 47 282698 807 表 6 6 鉤端螺旋體計數(shù) 血清種類 b 兔血清 b 1 胎盤血清 b 2 血清濃度 c 血清濃度 c 加入維生素的基礎(chǔ)液 a 5 c 1 8 c 2 5 c 1 8 c 2 1426 1260 604 1 108 1183 1599 1081 886 2000 1410 487 831 緩沖液 a 1 1612 2416 624 1159 684 875 867 1115 1430 2250 771 698 1165 1871 403 791 蒸餾水 a 2 2022 1962 370 559 1182 1220 1243 1283 1512 1095 1115 1142 1450 1700 416 677 自來水 a 3 1385 2372 533 534 本例分析了三種因素及其所有交互作用不同水平間的差別結(jié)果表明兔血清與胎盤血清 b 因素的鉤端螺旋體計數(shù)有差別而三種基礎(chǔ)液 a 因素間兩種濃度 c 因素間的計數(shù)無差別各因素間亦無交互作用 6 6 協(xié)方差分析協(xié)方差分析是在扣除協(xié)變量的影響后再對修正后的主效應(yīng)進行方差分析是把直線回歸或多元線性回歸與方差分析結(jié)合起來的一種方法協(xié)變量一般是連續(xù)性變量并假設(shè)協(xié)變量與響應(yīng)變量間存在線性關(guān)系且在各處理組這種線性關(guān)系一致用于協(xié)方差分析的命令是在 anova 命令后再加選擇項 continuous 協(xié)變量名或 category 分組變量名 anova y a b c a b b c a b c x 1 x 2 continuous x1 x2 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 73 其中 y 為響應(yīng)變量 a b 為分組變量 x1 x2 為協(xié)變量加選擇項 continuous x1 x2 的意思是指明 x1 x2 為連續(xù)性變量協(xié)變量從而 Stata 自動以 x1 x2 為協(xié)變量進行協(xié)方差分析在不指定連續(xù)性變量時 Stata 視所有變量為分組變量響應(yīng)變量除外亦可指定分組變量則其余變量將視為是連續(xù)的相應(yīng)的選擇項應(yīng)改為 categroy 如 anova y a b c a b b c a b c x 1 x 2 categroy a b c 與上述命令是等價的當有一個協(xié)變量時稱為一元協(xié)方差分析當有兩個或多個協(xié)變量時稱為多元協(xié)方差分析例 6 1 1 配伍組的協(xié)方差分析以下資料是三組小白鼠的進食量 x 與所增體重 y 由于體重增加受進食量的影響故在分析體重的增加時必須扣除進食量的影響即以進食量為協(xié) 變量對三組的增加體重進行分析這里協(xié)變量為一個 use ex6 11 list x y a b 1 256 9 27 1 1 2 271 6 41 7 1 2 3 210 2 25 1 3 4 300 1 52 1 4 5 262 2 14 5 1 5 6 304 4 48 8 1 6 7 272 4 48 1 7 8 248 2 9 5 1 8 9 242 8 37 1 9 10 342 9 56 5 1 10 11 356 9 76 1 11 12 198 2 9 2 1 12 13 260 3 32 2 1 14 271 1 47 1 2 2 15 214 7 36 7 2 3 16 300 1 65 2 4 17 269 7 39 2 5 18 307 5 37 9 2 6 19 278 9 51 5 2 7 20 256 2 26 7 2 8 21 240 8 41 2 9 22 340 7 61 3 2 10 23 356 3 102 1 2 11 24 199 2 8 1 2 12 25 544 7 160 3 3 1 26 481 2 96 1 3 2 27 418 9 114 6 3 3 28 556 6 134 8 3 4 29 394 5 76 3 3 5 30 426 6 72 8 3 6 31 416 1 99 4 3 7 32 549 9 133 7 3 8 74 第六章數(shù)值變量資料的統(tǒng)計分析 33 580 5 147 3 9 34 608 3 165 8 3 10 35 559 6 169 8 3 11 36 371 9 54 3 3 12 這里 a 1 2 3 表示相應(yīng)的三個處理組 b 1 12 表示配伍組 x 為協(xié)變量 anova y a b x cont x Number of obs 36 R square 0 9706 Root MSE 10 2942 Adj R square 0 9511 Source Partial SS df MS F Prob F Model 73560 9936 14 5254 35669 49 58 0 0000 a 463 94765 2 231 973825 2 19 0 1369 b 3765 32692 11 342 302448 3 23 0 0101 x 6174 24838 1 6174 24838 58 26 0 0000 Residual 2225 36425 21 105 969726 Total 75786 3579 35 2165 32451 在控制了進食量 x 的影響后三組小白鼠所增體重?zé)o差別方差分析中進食量 x 的 P 0 0000 說明控制進食量 x 的影響是必要的也可用下列命令結(jié)果是等價的 anova y a b x categroy a b 例 6 1 2 2 3 析因試驗的協(xié)方差分析分別以不同來源和成分的蛋白質(zhì)喂養(yǎng)六組小白鼠每組 10 只資料見表 6 7 表 6 7 六組公鼠的食物消耗量 x 10cal 及所增體重 y g 高蛋白 a 1 低蛋白 a 2 牛肉谷類豬肉牛肉谷類豬肉 b 1 B 2 b 3 b 1 b 2 b 3 x y x y x y x y x y x y 108 73 99 98 194 94 165 90 124 107 140 49 136 102 117 74 198 79 164 76 95 95 177 82 138 118 90 56 196 96 161 90 116 97 189 73 159 104 141 111 198 98 159 64 112 80 142 86 146 81 106 95 210 102 175 86 123 98 216 81 141 107 112 88 196 102 135 51 110 74 200 97 175 100 110 82 230 108 1 32 72 137 74 255 106 149 87 117 77 222 91 190 90 105 67 173 70 174 117 111 86 220 120 145 95 135 89 153 61 176 111 122 92 228 105 142 78 126 58 160 82 use ex 6 12 list x y a b 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 75 1 108 73 1 1 2 136 102 1 1 60 160 82 2 3 anova y a b a b x cont x Number of obs 60 R s quare 0 4694 Root MSE 12 7349 Adj R square 0 4093 Source Partial SS df MS F Prob F Model 7603 55945 6 1267 25991 7 81 0 0000 a 2343 46252 1 2343 46252 14 45 0 0004 b 1673 30508 2 836 652542 5 16 0 0090 a b 933 8117 2 466 90585 2 88 0 0650 x 2990 62611 1 2990 62611 18 44 0 0001 Residual 8595 37389 53 162 176866 Total 16198 9333 59 274 558192 結(jié)果表明在控制了食物消耗量 x 的影響后用高蛋白與用低蛋白 a 因素喂養(yǎng)小白鼠所增體重不同用高蛋白喂養(yǎng)比用低蛋白喂養(yǎng)體重增加多用牛肉谷類豬肉 b 因素喂養(yǎng)小白鼠所增體重亦不同但尚不能認為有交互作用如不考慮協(xié)變量的影響結(jié)論就不同了請讀者自行驗算也可用下列命令結(jié)果是等價的 anova y a b x categroy a b 例 6 1 3 多元協(xié)方差分析某地測得 30 名初生至 3 周歲兒童的身高體重及體表面積如表 6 8 欲比較男女體表面積是否相同此時身高體重為協(xié)變量為二元協(xié)方差分析 input y x1 x2 sex sort sex by sex summ y x1 x2 sex 1 Variable Obs Mean Std Dev Min Max y 15 4099 327 1592 838 1928 4 6410 6 x1 15 75 2 18 30671 50 5 99 x2 15 8 583333 4 804821 2 25 16 sex 2 Varia ble Obs Mean Std Dev Min Max y 15 3790 76 1543 524 1632 5 6074 9 76 第六章數(shù)值變量資料的統(tǒng)計分析 x1 15 73 16667 16 93229 51 94 x2 15 8 116667 4 408663 2 25 15 表 6 8 30 名兒童的身高 x1 cm 體重 x2 kg 及體表面積 y cm2 男 sex 1 女 sex 2 x1 x2 y x1 x2 y 54 0 3 00 2446 2 54 0 3 00 2117 3 50 5 2 25 1928 4 53 0 2 25 2200 2 51 0 2 50 2094 5 51 5 2 50 1 906 2 56 5 3 50 2506 7 51 0 3 00 1850 3 52 0 3 00 2121 0 51 0 3 00 1632 5 76 0 9 50 3845 9 77 0 7 50 3934 0 80 0 9 00 4380 8 77 0 10 00 4180 4 74 0 9 50 4314 2 77 0 9 50 4246 1 80 0 9 00 4078 4 74 0 9 00 3358 8 76 0 8 00 4134 5 73 0 7 50 3809 7 96 0 13 50 5830 2 91 0 12 00 5358 4 97 0 14 00 6013 6 91 0 13 00 5601 7 99 0 16 00 6410 6 94 0 15 00 6074 9 92 0 11 00 5283 3 92 0 12 00 5299 4 94 0 15 00 6101 6 91 0 12 50 5291 5 計算男嬰組女嬰組及合并的體表面積與體重身高的相關(guān)系數(shù) by sex corr y x1 x2 sex 1 obs 15 y x1 x2 y 1 0000 x1 0 9895 1 0000 x2 0 9902 0 9809 1 0000 sex 2 obs 15 y x1 x2 y 1 0000 x1 0 9901 1 0000 x2 0 9806 0 9827 1 000 corr y x1 x2 obs 30 y x1 x2 y 1 0000 x1 0 9887 1 0000 x2 0 9842 0 9817 1 0000 由此可見無論是男嬰組還是女嬰組體表面積都與身高體重高度相關(guān) 故應(yīng)扣除兩者的影響再比較性別間體表面積有無差別用協(xié)方差分析 anova y sex x1 x2 cont x1 x2 Number of obs 30 R square 0 9847 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 77 Root MSE 202 428 Adj R square 0 9829 Source Partial SS df MS F Prob F Model 68523073 3 3 22841024 4 557 41 0 0000 sex 139769 36 1 139769 36 3 41 0 0762 x1 938153 264 1 938153 264 22 89 0 0001 x2 368955 082 1 368955 082 9 00 0 0059 Residual 1 065399 93 26 40976 9205 Total 69588473 2 29 2399602 52 方差分析的結(jié)果表明根據(jù)現(xiàn)有資料在扣除了身高體重的影響后男嬰女嬰的體表面積之差別無顯著性 P 0 0762 該命令與下面的命令是等價的 anova y sex x1 x 2 categroy sex 結(jié)果略 6 7 正態(tài)性檢驗與變量變換正態(tài)性是很多傳統(tǒng)統(tǒng)計方法的應(yīng)用條件之一如 t 檢驗方差分析等均要求資料服從正態(tài) 分布如資料不服從正態(tài)分布則需作適當?shù)淖兞孔儞Q 以使資料達到或接近正態(tài) 本節(jié)介紹幾種正態(tài)性檢驗方法和幾種常見的正態(tài)化和對稱化變換一正態(tài)性檢驗用于正態(tài)性檢驗的命令為 sktest 變量該命令要求資料的樣本含量至少為 8 先看一個實例例 6 1 4 某市 200 名正常成人的血鉛含量 g 100g 如下試對其進行正態(tài)性檢驗 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 18 18 18 18 18 19 19 19 19 19 19 20 20 20 20 20 20 20 20 21 21 21 21 21 22 22 22 22 22 22 23 23 23 24 24 24 24 24 24 25 25 26 26 26 26 26 27 27 28 28 29 29 30 30 31 31 31 31 32 32 32 32 32 32 33 33 36 38 38 39 40 41 41 43 47 50 53 60 首先用 summ 命令計算偏度系數(shù)和峰度系數(shù) summ x d x Percentiles Smallest 1 4 3 78 第六章數(shù)值變量資料的統(tǒng)計分析 5 5 4 10 6 4 Obs 200 25 9 4 Sum of Wgt 200 50 15 Mean 17 085 Largest Std Dev 10 33984 75 22 47 90 31 5 50 Variance 106 9123 95 38 53 Skewness 1 215245 99 51 5 60 Kurtosis 4 734997 對 x 的偏度系數(shù)和峰度系數(shù)進行假設(shè)檢驗 sktest x Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq x 0 000 0 001 34 93 0 0000 結(jié)果中給出了偏度系數(shù)檢驗的 P 值 Pr Skewness 峰度系數(shù)檢驗的 P 值 Pr Kur tosis 以及偏度系數(shù)和峰度系數(shù)聯(lián)合檢驗的校正 2 adj chi sq 2 及檢驗概率 Pr chi sq 結(jié)果表明該資料不服從正態(tài)分布這從資料的分布亦可判斷 set tex 150 gra x bin 13 xlab 0 5 10 15 20 25 30 35 40 45 50 55 60 65 ylab 0 1 15 2 25 gap 3 圖 6 1 例 6 14 資料的頻數(shù)分布圖現(xiàn)對 x 作對數(shù)變換計算其對數(shù)值的偏度系數(shù)和峰度系數(shù) 并對其進行假設(shè)檢驗 gen lnx ln x summ lnx d lnx 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 79 Percentiles S mallest 1 1 386294 1 098612 5 1 609438 1 386294 10 1 791759 1 386294 Obs 200 25 2 197225 1 386 294 Sum of Wgt 200 50 2 70805 Mean 2 658423 Largest Std Dev 6167802 75 3 091043 3 850147 90 3 449862 3 912023 Variance 3804178 95 3 637586 3 970292 Skewness 1735798 99 3 941157 4 094345 Kurtosis 2 418212 sktest lnx Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 結(jié)果中給出了對數(shù)值 lnx 的偏度系數(shù)檢驗的 P 值峰度系數(shù)檢驗的 P 值以及偏度系數(shù)和峰度系數(shù) 聯(lián)合檢驗的校正 2 及檢驗概率結(jié)果表明該資料經(jīng)對數(shù)變換后該資料已基本對稱但其峰度比正態(tài)峰扁平按 0 10 水準對數(shù)變換后的資料仍不服從正態(tài)分布圖 6 2 例 6 14 資料對數(shù)值的頻數(shù)分布圖二 Box Cox 正態(tài)性變換所謂 Box Cox 變換是指對變量 x 作變換 80 第六章數(shù)值變量資料的統(tǒng)計分析 0 ln 0 1 l lll x x y Box Cox 正態(tài)性變換就是尋找參數(shù) 使變換后的資料最接近正態(tài)分布用于尋找 Box Cox 正態(tài)性變換的命令為 b oxcox 原變量 generat 新變量例 6 1 5 對例 6 14 資料作 Box Cox 正態(tài)性變換 boxcox x g y note iterations performed using zero 001 Iteration Lambda Zero Variance LL 0 1 0000 73 90087 107 166828 467 43868 1 0 0491 5 98333 76 7498368 434 0551 3 2 0 1180 0 00210 76 6147889 433 87901 3 0 1180 0 00000 76 6147808 433 87900 Transform x L 1 L L 95 Conf Interval Log Likelihood 0 1180 not calculated 433 879 Test L 1 chi2 1 106 69 Pr chi2 0 0000 L 0 chi2 1 1 31 Pr chi2 0 2521 L 1 chi2 1 65 64 Pr chi2 0 0000 參數(shù) 是用迭代的方法求出的 Stata 給出了迭代的中間步驟結(jié)果 0 1180 結(jié)果中還給出了分別與 1 0 及 1 不作變換時的 2 檢驗表明 0 1180 的變換與 0 對數(shù)變換無顯著性而比原資料有較大的改進 gen lnx log x sktest lnx y Skewness Kurtosis tests for Normal ity joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 y 0 898 0 028 4 89 0 0869 可見作 0 1180 的 Box Cox 變換后的偏度系數(shù) 較作對數(shù)變換 0 有所改善而對資料的峰度系數(shù)則兩種變換相差不大 Stata 還提供了其它檢驗正態(tài)分布的檢驗方法 Shapiro Wilk 法和 Shapiro Francia 法命令為 swilk 和 sfrancia 三對稱性變換現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 81 所謂對稱性變換即尋找變換使資料接近對稱或偏度系數(shù)接近 0 Stata 提供了兩種對稱性變換其一是 Box Cox 對稱性變換即尋找 Box Cox 中的使變換后資料的偏度系數(shù)接近 0 其二是對數(shù)對稱性變換即尋找一 k 值作變換 kxy ln 使變換后資料 y 的偏度系數(shù)接近 0 相應(yīng)的兩個命令為 lnskew0 新變量原變量 bcskew0 新變量原變量 x 前面的正負號將根據(jù)其具體取值由用戶自己定義例 6 1 6 對例 6 14 資料作對稱性變換 lnskew0 ltx x Transform k 95 Conf Interval Skewness ln x k 2 09 0607 not calculated 0006012 結(jié)果 k 2 09 此時的偏度系數(shù)為 0 0006012 在執(zhí)行完命令后 Stata 產(chǎn)生了一個新變量 ltx 其取值為 ln x 2 090607 bcskew0 bcx x lev 95 Transform L 95 Conf Interval Skewness x L 1 L 1349801 1275427 38839 0005503 結(jié)果 0 135 此時的偏度系數(shù)為 0 0005503 在執(zhí)行完命令后 Stata 產(chǎn)生了一個新變量 bcx 其取值為 x0 1349801 1 0 1349801 82 第七章分類資料的統(tǒng)計分析第七章分類資料的統(tǒng)計分析分類資料又稱定性資料或計數(shù)資料其取值是定性的表現(xiàn)為互不相容的類別或?qū)傩?按類別間的關(guān)系又分為有序分類和無序分類有序分類資料又稱等級資料等級資料的統(tǒng)計分析將在第八章介紹本章介紹無序分類資料的統(tǒng)計分析 7 1 率構(gòu)成比的比較率與構(gòu)成比的資料形式一般都是行列表形式 Stata 用于處理分類資料的命令是雙向二維 tabulate 命令參見第四章 tabulate var1 var2 fw 頻數(shù)變量選擇項其中 var1 var2 分別表示行變量和列變量 fw 頻數(shù)變量只在變量以頻數(shù)形式存放時選用選擇項有 chi2 Pearson 2 檢驗 lrchi2 似然比 2 檢驗 gamma Goodman Kruskal 的系數(shù) taub Kendall 的相關(guān)系數(shù) b V Cramer 的列聯(lián)系數(shù) V all 同時給出以上五種結(jié)果 exact Fisher 的確切概率 cell 打印每個格子的頻數(shù)占總頻數(shù)的百分比 column 打印每個格子的頻數(shù)占相應(yīng)列合計的百分比 row 打印每個格子的頻數(shù)占相應(yīng)行合計的百分比 nofreq 不打印頻數(shù) 以上命令可同時選用分類資料的一個特點是重復(fù)數(shù)較多在報告結(jié)論時一般都將數(shù)據(jù)整理成頻數(shù)表但收集資料時都是未整理的原始形式 Stata 對這兩種形式的資料都可以進行分析所得結(jié)果相同只是命令稍有區(qū)別下面以兩種數(shù)據(jù)形式三種命令格式對四格表資料進行分析以說明 tabulate 命令的應(yīng)用例 7 1 兩個率的比較四格表試比較甲乙兩種療法對某病的治療效果表 7 1 甲乙兩種療法對某病的治療效果無效有效合計有效率甲法 6 4 10 p1 40 0 乙法 11 33 44 p2 75 0 合計 17 37 54 pC 68 5 1 頻數(shù)形式記 a 0 表甲法 a 1 表乙法 b 0 表無效 b 1 表有效 freq 表相應(yīng) 的頻數(shù) 數(shù)據(jù)結(jié)構(gòu)如下 use d mydata ex 7 1 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 83 list a b freq 1 0 0 6 2 0 1 4 3 1 0 11 4 1 1 33 數(shù)據(jù)是以頻數(shù)的形式存放的頻數(shù)變量為 freq 相應(yīng)的命令格式為 tab a b fw freq row all exact effect mathod 0 1 Total 0 6 4 10 60 00 40 00 100 00 1 11 33 44 25 00 75 00 100 00 Total 17 37 54 31 48 68 52 100 00 Pearson chi2 1 4 6273 Pr 0 031 likelihood ratio chi2 1 4 3274 Pr 0 038 Cramer s V 0 2927 gamma 0 6364 ASE 0 218 Kendall s tau b 0 2927 ASE 0 14 3 Fisher s exact 0 056 1 sided Fisher s exact 0 041 由于選用了 all 和 exact 項結(jié)果中給出了包括 Fisher 確切概率在內(nèi)的全部六種統(tǒng)計量注意 all 選擇中不包括 Fisher 的確切概率各統(tǒng)計量的計算見后結(jié)論本例樣本含量較小且有理論頻數(shù)小于應(yīng)以 Fisher 的確切概率下結(jié)論按 0 05 水準尚不能認為兩種療效有差別 2 原始資料形式分類資料在收集資料時都是未整理的原始形式 Stata 對這種資料可直接以進行分析所得結(jié)果相同如例 7 1 資料用原始資料形式存放即為 drop all use d mydatat ex7 1 1 list a b 1 0 0 2 0 0 6 6 0 0 7 0 1 84 第七章分類資料的統(tǒng)計分析 4 10 0 1 11 1 0 11 21 1 0 22 1 1 33 54 1 1 此時相應(yīng)的命令為 tab a b all exact row 命令中沒有 fw freq 選擇項但所得結(jié)果相同 3 直接輸入頻數(shù) 對頻數(shù)表資料還可用 tabi 命令直接輸入頻數(shù) 按行輸入各行數(shù)據(jù)間用分開因該法較之上兩法更為簡單故推薦使用命令格式如下 tabi 6 4 11 33 row all exact 結(jié)果相同略注設(shè)有下列 R C 表表 1 2 3 j C 1 n11 n12 n13 n1j n1C n1 2 N21 n22 n23 n2j n2C n2 i ni1 ni2 ni3 nij nIC ni R nR1 nR2 nR3 nRj nRC nR n 1 n 2 n 3 n j n C n 記 nnnm jiij Q ijijjiijijji ik jl kl ik jl klij ik jl kl ik jl klij DnAnP nnD nnA 則 1 Pearson 2 ijijijjip mmnQ 現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 85 2 似然比 2 ln ijijijji mnnG 3 Cramer 列聯(lián)系數(shù) n11n22 n12n21 n1 n2 n 1n 2 1 2 對 2 2 表 V QP n min R 1 C 1 1 2 其他 4 Goodman Kruskal 的 gamma P Q P Q 5 Kendall 的列聯(lián)系數(shù) b P Q wRwC 1 2 wr n2 in i 2 wc n2 j n j 2 例 7 2 多個率的比較用免疫法觀察鼻咽癌患者 a 1 頭頸部其他惡性腫瘤患者 a 2 及正常成人組 a 3 的血清 EB病毒殼抗原的免疫球蛋白 A VCA IgA 抗體的反應(yīng)情況資料如下三組陽性率有無差別表 7 2 三組人群中 EB 病毒 VCA IgA 抗體陽性率分組陽性例數(shù) 陰性例數(shù) 合計陽性率 a 1 188 16 204 92 3 a 2 10 23 33 30 3 a 3 49 333 382 12 8 合計 247 372 619 39 9 按頻數(shù)形式輸入原始數(shù)據(jù) list a b pop 1 1 1 188 2 2 1 10 3 3 1 49 4 1 0 16 5 2 0 23 6 3 0 333 tab a b fw pop row chi2 lrchi2 exact b a 0 1 Total 1 1 88 16 204 92 16 7 84 100 00 2 10 23 33 30 30 69 70 100 00 86 第七章分類資料的統(tǒng)計分析 3 49 333 382 12 83 87 17 100 00 Total 247 372 619 39 90 60 10 100 00 Pearson chi2 2 350 3259 Pr 0 000 likeli hood ratio chi2 2 387 3664 Pr 0 000 Fisher s exact 0 000 也可直接用以下命令 tabi 188 16 10 23 49 333 row chi2 lrchi2 exact 所得結(jié)果同上結(jié)論無論是卡方檢驗還是似然比檢驗按 0 05 水準可認為三組陽性率不同鼻咽癌患者的反應(yīng)陽性率最高正常成人組的反應(yīng)陽性率最小如在 DOS 版本上使用當總例數(shù)大于 170 時即使命令中選用 exact 也不能給出 Fisher 的確切概率 3 0 以上的版本無此限制例 7 3 多組構(gòu)成比的比較就下表資料分析三個民族的血型分布構(gòu)成比是否相同表 7 3 傣族佤族土家族居民的 ABO 血型分布 A B O AB 合計 xx 1 xx 2 xx 3 xx 4 傣族 mz 1 112 150 205 40 507 佤族 mz 2 200 112 135 73 520 土家族 mz 3 362 219 310 69 960 合計 674 481 650 182 1987 tabi 112 150 205 40 200 112 135 73 362 219 310 69 nofreq row chi2 lrchi2 xx mz 1 2 3 4 Total 1 22 09 29 59 40 43 7 89 100 00 2 38 46 21 54 25 96 14 04 100 00 3 37 71 22 81 32 29 7 19 100 00 33 92 24 21 32 71 9 16 100 00 Pearson chi2 6 71 5186 Pr 0 000 likelihood ratio chi2 6 72 2521 Pr 0 000 按命令要求結(jié)果中給出了 Pearson 的 2 檢驗和似然比 2 檢驗結(jié)論卡方檢驗與似然比檢驗的值均較小可認為三個民族的血型分布不同其中傣族以型為主而佤族與土家族均以型為多例 7 4 計數(shù)相關(guān) 就下列資料分析人群中 ABO 血型與 MN 血型有無相關(guān)關(guān)系表 7 4 6094 人 MN 血型與 ABO 血型的分布 ABO 血型 MN 血型現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 87 M N MN 合計 A 431 490 902 1823 B 388 410 800 1598 O 495 587 950 2032 AB 137 179 325 641 合計 1451 1666 2977 6094 以 a 表 ABO 血型 b 表 MN 血型 c 為相應(yīng)的頻數(shù) tabi 431 490 902 388 410 800 495 587 950 137 179 325 nofreq all Pearson chi2 6 8 5952 Pr 0 198 likelihood ratio chi2 6 8 6689 Pr 0 193 Cramer s V 0 0266 gamma 0 0078 A SE 0 017 Kendall s tau b 0 0053 ASE 0 011 結(jié)論從列聯(lián)系數(shù)來看 Cramer 的 V Goodman Kruskal 的 gamma 以及 Kendall 的 tb 均較小從 P 值來看無論是卡方檢驗還是似然比檢驗 P 值均較大尚不能認為兩種血型間有相關(guān)關(guān)系 7 2 流行病學(xué)表格分析在流行病學(xué)資料分析中經(jīng)常要計算某事件的發(fā)生率如發(fā)病率死亡率等率差相對危險度 RR 比數(shù)比 OR 及它們的可信區(qū)間等用該軟件可以非常方便地解決此類問題 Stata 用于處理流行病簡單表格資料的命令有 ir cs cc mcc 等他們分別適用于定群研究病例對照研究和配比病例對照研究詳細說明請查閱幫助 help epitab 一定群研究資料定群研究又稱隊列研究前瞻性研究隨訪研究或縱向研究在定群研究時根據(jù)以往有無暴露經(jīng)歷研究者將研究人群分為暴露和非暴露在一定時間內(nèi) 隨訪觀察和比較兩組人群的發(fā)病率或死亡率對定群研究的資料 Stata 提供了 ir 和 cs 命令 ir 病例變量暴露變量時間變量選擇項 cs 病例變量暴露變量選擇項這里選擇項有 level 指定可信區(qū)間的可信度 tb 以檢驗方法為基礎(chǔ) 作可信區(qū)間的估計 by varname 指定分層變量 fast 不計算層內(nèi) OR 或可信區(qū)間 estandard 指定用外在權(quán)數(shù)計算標準化估計與 by 一起用 istandard 指定用內(nèi)在權(quán)數(shù)計算標準化估計與 by 一起用 standard varname 指定按變量為權(quán)數(shù)計算標準化估計與 by 一起用 ird 指定計算標準化率之差用于 estandard istandard 或 standard 選擇項后 88 第七章分類資料的統(tǒng)計分析 nocrude 不計算合并資料的指標用于 by 選擇項后 pool 直接加權(quán)估計與 by 一起用 nohet 不做層間的齊性檢驗 ir 命令適用于發(fā)病率發(fā)病密度或人時資料主要用于估計發(fā)病密度比和差而 cs 適用于隨訪時間相同隨訪資料的分母是觀察對象數(shù)而不是人時數(shù)的資料這兩種類型的頻數(shù)資料都能直接用快速命令 iri 或 csi 格式如下 iri a b N1 N2 level tb csi a b c d level exact or tb woolf 例 7 5 就表 7 5 資料進行流行病學(xué)分析表 7 5 暴露和不暴露 X 線患結(jié)核病婦女乳腺癌病例發(fā)生數(shù)和觀察人年數(shù) 暴露不暴露合計病例數(shù) 41 a 15 b 56 M 人年數(shù) 28 010 N1 19 017 N2 47 027 T 凡此種含有時間變量的資料應(yīng)采用 iri 或 ir 命令分析之 iri 41 15 28010 19017 Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 6111 92 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 解釋 RD 率差 0 000675 6 75 萬 95 CI 0 749 萬 12 751 萬 RR 相對危險度 1 855759 95 CI 1 005815 3 611192 ARP 歸因危險度百分比 0 4611368 95 CI 0 0057813 0 7230831 PARP 人群歸因危險度百分比 0 337618 P 0 0177 單側(cè) 根據(jù) Stata 輸出的結(jié)果暴露 X 線患結(jié)核病婦女發(fā)生乳腺癌的危險性為非暴露者的 1 86 倍暴露者中有 46 的乳腺癌是由暴露 X 線所致人群中乳腺癌的 33 8 是由接觸 X 線所致注意該命令中數(shù)據(jù)的輸入順序必須正確依次為暴露組病例數(shù) 非暴露組病例數(shù) 暴露現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與 Stata 應(yīng)用 89 組觀察人時數(shù) 非暴露組觀察人時數(shù) 一旦數(shù)據(jù)輸入順序有誤則結(jié)果將大相徑庭請讀者自己驗證也可用 ir 命令首先輸入數(shù)據(jù) input case exposed time case exposed time 1 41 1 28010 2 15 0 19017 3 end ir case exposed time Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 611192 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 結(jié)果與前完全相同例 7 6 就表 7 6 資料計算婦女乳腺癌 RR 及 90 可信區(qū)間表 7 6 母親乳汁中 IgG 抗體滴度高低與 6 個月以上嬰兒患呼吸道疾病的關(guān)系高滴度低滴度發(fā)病 5 a 16 b 不發(fā)病 10 c 7 d 合計 15 23 最簡單的 csi 命令為 c s i a b c d 請注意數(shù)據(jù)輸入順序 csi 5 16 10 7 level 90 Exposed U nexposed Total Cases 5 16 21 Noncases 10 7 17 Tota l 15 23 38 Risk 3333333 6956522 5526316 90 第七章分類資料的統(tǒng)計分析 Pt Est 90 Conf Interval Risk difference 3623188 6172448 107

下載提示(請認真閱讀)

1.請仔細閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認領(lǐng)！既往收益都歸您。

同意并開始全文預(yù)覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

此文檔不允許下載，請繼續(xù)在線閱讀

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標，表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 現(xiàn)代醫(yī)學(xué) 統(tǒng)計方法 Stata 應(yīng)用第一版

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標題：現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與Stata應(yīng)用(第一版)
鏈接地址：http://ioszen.com/p-9270908.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

現(xiàn)代醫(yī)學(xué) 統(tǒng)計 方法 Stata 應(yīng)用 第一版

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

現(xiàn)代醫(yī)學(xué)統(tǒng)計方法與Stata應(yīng)用(第一版)

最新文檔