《《抽樣與參數(shù)估計》PPT課件》由會員分享,可在線閱讀,更多相關(guān)《《抽樣與參數(shù)估計》PPT課件(75頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第 四 章 抽樣與參數(shù)估計,4.1 抽樣與抽樣分布 4.2 參數(shù)估計的基本方法 4.3 總體均值的區(qū)間估計 4.4 總體比例的區(qū)間估計 4.5 樣本容量的確定,學(xué)習(xí)目標(biāo),理解抽樣方法與抽樣分布 估計量與估計值的概念 點估計與區(qū)間估計的區(qū)別 評價估計量優(yōu)良性的標(biāo)準(zhǔn) 總體均值的區(qū)間估計方法 總體比例的區(qū)間估計方法 樣本容量的確定方法,參數(shù)估計在統(tǒng)計方法中的地位,統(tǒng)計推斷的過程,4.1 抽樣與 抽樣分布,什么是抽樣推斷 概率抽樣方法 抽樣分布,抽樣方法,抽樣方法,概率抽樣(probability sampling),也稱隨機(jī)抽樣 特點 按一定的概率以隨機(jī)原則抽取樣本 抽取樣本時使每個單位都有一定的機(jī)
2、會被抽中 每個單位被抽中的概率是已知的,或是可以計算出來的 當(dāng)用樣本對總體目標(biāo)量進(jìn)行估計時,要考慮到每個樣本單位被抽中的概率,簡單隨機(jī)抽樣(simple random sampling),從總體N個單位中隨機(jī)地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的 最基本的抽樣方法,是其它抽樣方法的基礎(chǔ) 特點 簡單、直觀,在抽樣框完整時,可直接從中抽取樣本 用樣本統(tǒng)計量對目標(biāo)量進(jìn)行估計比較方便 局限性 當(dāng)N很大時,不易構(gòu)造抽樣框 抽出的單位很分散,給實施調(diào)查增加了困難 沒有利用其它輔助信息以提高估計的效率,分層抽樣(stratified sampling),將抽樣單位按某種特征或某種規(guī)則劃分為不
3、同的層,然后從不同的層中獨立、隨機(jī)地抽取樣本 優(yōu)點 保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度 組織實施調(diào)查方便 既可以對總體參數(shù)進(jìn)行估計,也可以對各層的目標(biāo)量進(jìn)行估計,系統(tǒng)抽樣(systematic sampling),將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位 先從數(shù)字1到k之間隨機(jī)抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k等單位 優(yōu)點:操作簡便,可提高估計的精度 缺點:對估計量方差的估計比較困難,整群抽樣(cluster sampling),將總體中若干個單位合并為組(群),抽
4、樣時直接抽取群,然后對中選群中的所有單位全部實施調(diào)查 特點 抽樣時只需群的抽樣框,可簡化工作量 調(diào)查的地點相對集中,節(jié)省調(diào)查費用,方便調(diào)查的實施 缺點是估計的精度較差,抽樣分布,總體中各元素的觀察值所形成的分布 分布通常是未知的 可以假定它服從某種分布,總體分布(population distribution),一個樣本中各觀察值的分布 也稱經(jīng)驗分布 當(dāng)樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布,樣本分布(sample distribution),樣本統(tǒng)計量的概率分布 是一種理論概率分布 隨機(jī)變量是 樣本統(tǒng)計量 樣本均值, 樣本比例,樣本方差等 結(jié)果來自容量相同的所有可能樣本 提供了樣本
5、統(tǒng)計量長遠(yuǎn)我們穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù),抽樣分布 (sampling distribution),抽樣分布 (sampling distribution),樣本均值的抽樣分布,容量相同的所有可能樣本的樣本均值的概率分布 一種理論概率分布 進(jìn)行推斷總體總體均值的理論基礎(chǔ),樣本均值的抽樣分布,樣本均值的抽樣分布(例題分析),【例】設(shè)一個總體,含有4個元素(個體) ,即總體單位數(shù)N=4。4 個個體分別為x1=1、x2=2、x3=3 、x4=4 ??傮w的均值、方差及分布如下,均值和方差,樣本均值的抽樣分布 (例題分析), 現(xiàn)從總體中抽取n2的簡單隨機(jī)樣本,在重復(fù)抽
6、樣條件下,共有42=16個樣本。所有樣本的結(jié)果為,樣本均值的抽樣分布 (例題分析), 計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布,樣本均值的分布與總體分布的比較 (例題分析), = 2.5 2 =1.25,總體分布,樣本均值的抽樣分布與中心極限定理,當(dāng)總體服從正態(tài)分布N(,2)時,來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X 的數(shù)學(xué)期望為,方差為2/n。即XN(,2/n),中心極限定理(central limit theorem),中心極限定理:設(shè)從均值為,方差為 2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為、方差為2/n的正態(tài)分布
7、,中心極限定理 (central limit theorem),的分布趨于正態(tài)分布的過程,抽樣分布與總體分布的關(guān)系,樣本均值的數(shù)學(xué)期望 樣本均值的方差 重復(fù)抽樣 不重復(fù)抽樣,樣本均值的抽樣分布(數(shù)學(xué)期望與方差),樣本均值的抽樣分布(數(shù)學(xué)期望與方差),比較及結(jié)論:1. 樣本均值的均值(數(shù)學(xué)期望) 等于總體均值 2. 樣本均值的方差等于總體方差的1/n,樣本比例的抽樣分布,總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比 不同性別的人與全部人數(shù)之比 合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比 總體比例可表示為 樣本比例可表示為,比例(proportion),容量相同的所有可能樣本的樣本
8、比例的概率分布 當(dāng)樣本容量很大時,樣本比例的抽樣分布可用正態(tài)分布近似 一種理論概率分布 推斷總體總體比例的理論基礎(chǔ),樣本比例的抽樣分布,樣本比例的數(shù)學(xué)期望 樣本比例的方差 重復(fù)抽樣 不重復(fù)抽樣,樣本比例的抽樣分布(數(shù)學(xué)期望與方差),4.2 參數(shù)估計的基本方法,估計量與估計值 點估計與區(qū)間估計 評價估計量的標(biāo)準(zhǔn),估計量與估計值,估計量:用于估計總體參數(shù)的隨機(jī)變量 如樣本均值,樣本比例、樣本方差等 例如: 樣本均值就是總體均值 的一個估計量 參數(shù)用 表示,估計量用 表示 估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值 如果樣本均值 x =80,則80就是的估計值,估計量與估計值 (estimator
9、& estimated value),點估計與區(qū)間估計,參數(shù)估計的方法,,,估 計 方 法,點 估 計,區(qū)間估計,,,一個總體參數(shù)的估計,點估計 (point estimate),用樣本的估計量直接作為總體參數(shù)的估計值 例如:用樣本均值直接作為總體均值的估計 例如:用兩個樣本均值之差直接作為總體均值之差的估計 2.沒有給出估計值接近總體參數(shù)程度的信息 點估計的方法有矩估計法、順序統(tǒng)計量法、最大似然法、最小二乘法等,區(qū)間估計 (interval estimate),在點估計的基礎(chǔ)上,給出總體參數(shù)估計的一個區(qū)間范圍,該區(qū)間由樣本統(tǒng)計量加減抽樣誤差而得到的 根據(jù)樣本統(tǒng)計量的抽樣分布能夠?qū)颖窘y(tǒng)計量與
10、總體參數(shù)的接近程度給出一個概率度量 比如,某班級平均分?jǐn)?shù)在7585之間,置信水平是95%,評價估計量的標(biāo)準(zhǔn),無偏性(unbiasedness),無偏性:估計量抽樣分布的數(shù)學(xué)期望等于被 估計的總體參數(shù),有效性(efficiency),有效性:對同一總體參數(shù)的兩個無偏點估計量 ,有更小標(biāo)準(zhǔn)差的估計量更有效,一致性(consistency),一致性:隨著樣本容量的增大,估計量的 值越來越接近被估計的總體參數(shù),4.3 總體均值的區(qū)間估計,區(qū)間估計的基本原理 正態(tài)總體或大樣本的估計 正態(tài)總體小樣本的估計,區(qū)間估計的基本原理,區(qū)間估計的圖示,,,,,將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信
11、區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平 表示為 (1 - 為是總體參數(shù)未在區(qū)間內(nèi)的比例 常用的置信水平值有 99%, 95%, 90% 相應(yīng)的 為0.01,0.05,0.10,置信水平,由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間 統(tǒng)計學(xué)家在某種程度上確信這個區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間,置信區(qū)間 (confidence interval),置信區(qū)間與置信水平,均值的抽樣分布,(1 - ) % 區(qū)間包含了 % 的區(qū)間未包含,用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值 我們只能是希望這個區(qū)間是大量包含總
12、體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個,總體均值的區(qū)間估計 (正態(tài)總體、已知,或非正態(tài)總體、大樣本),總體均值的區(qū)間估計,假定條件 總體服從正態(tài)分布,方差() 已知 如果不是正態(tài)分布,可由正態(tài)分布來近似 (n 30) 總體均值 在1-置信水平下的置信區(qū)間為,重復(fù)抽樣,不重復(fù)抽樣,總體均值的區(qū)間估計(例題分析),,【例】某種零件的長度服從正態(tài)分布,從某天生產(chǎn)一批零件中按重復(fù)抽樣方法隨機(jī)抽取9個,測得其平均長度為21.4cm。已知總體標(biāo)準(zhǔn)差為=0.15cm。試估計該批零件平均長度的置信區(qū)間,置信水平為95%。,解:已知N(,0.152),n=9, 1- = 95
13、%,z/2=1.96 總體均值在1-置信水平下的置信區(qū)間為,該批零件平均長度的置信區(qū)間在21.302cm21.498cm之間,總體均值的區(qū)間估計(例題分析),【例】在某天生產(chǎn)的500袋食品中,按不重復(fù)抽樣方法隨機(jī)抽取25袋進(jìn)行檢查,測得平均每袋的重量為996g。已知該種袋裝食品的重量服從正態(tài)分布,且標(biāo)準(zhǔn)差為20g。試估計該種食品平均重量的置信區(qū)間,置信水平為95%。,解:已知N(,202),n=25, 1- = 95%,z/2=1.96 總體均值在1-置信水平下的置信區(qū)間為,該種食品平均重量的置信區(qū)間為988.35g1003.65g之間,總體均值的區(qū)間估計 (正態(tài)總體、未知、小樣本),總體
14、均值的區(qū)間估計 (小樣本),1.假定條件 總體服從正態(tài)分布,且方差() 未知 小樣本 (n < 30) 使用 t 分布統(tǒng)計量,總體均值 在1-置信水平下的置信區(qū)間為,t 分布,分布是類似正態(tài)分布的一種對稱分布,它通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布,總體均值的區(qū)間估計(例題分析),,【例】已知某種燈泡的壽命服從正態(tài)分布,現(xiàn)從一批燈泡中隨機(jī)抽取16只,測得其使用壽命(小時)如下。建立該批燈泡平均使用壽命95%的置信區(qū)間,總體均值的區(qū)間估計(例題分析),解:已知N(,2),n=16, 1- = 95%,t/2=2.131。根據(jù)
15、樣本數(shù)據(jù)計算得: , 總體均值在1-置信水平下的置信區(qū)間為,,該種燈泡平均使用壽命的置信區(qū)間為1476.8小時1503.2小時,4.4 總體比例的區(qū)間估計,大樣本重復(fù)抽樣時的估計方法 大樣本不重復(fù)抽樣時的估計方法,總體比例的區(qū)間估計(重復(fù)抽樣),1.假定條件 總體服從二項分布 可以由正態(tài)分布來近似 使用正態(tài)分布統(tǒng)計量,3. 總體比例在1-置信水平下的置信區(qū)間為,總體比例的區(qū)間估計(不重復(fù)抽樣),1.假定條件 總體服從二項分布 可以由正態(tài)分布來近似 使用正態(tài)分布統(tǒng)計量,3. 總體比例在1-置信水平下的置信區(qū)間為,總體比例的區(qū)間估計(例題分析),,【例】某城市想要估計下崗職工中女性所占的比
16、例,隨機(jī)抽取了100個下崗職工,其中65人為女性職工。試以95%的置信水平估計該城市下崗職工中女性比例的置信區(qū)間,解:已知 n=100,p65% , z/2=1.96,該城市下崗職工中女性比例的置信區(qū)間為55.65%74.35%,總體比例的區(qū)間估計(例題分析),,【例】某企業(yè)共有職工1000人。企業(yè)準(zhǔn)備實行一項改革,在職工中征求意見,采取不重復(fù)抽樣方法隨機(jī)抽取200人作為樣本,調(diào)查結(jié)果顯示,有150人表示贊成該項改革,50人表示反對。試以95%的概率確定贊成改革的人數(shù)比例的置信區(qū)間,解:已知 n=100,p75% ,z/2=1.96,該企業(yè)職工中贊成改革的人數(shù)比例的置信區(qū)間為69.63%80.
17、37%之間,4.5 樣本容量的確定,估計總體均值時樣本容量的確定 估計總體比例時樣本容量的確定,估計總體均值時樣本容量的確定,估計總體均值時樣本容量n為 重復(fù)抽樣 不重復(fù)抽樣 樣本容量n與總體方差成正比,與邊際誤差成反比,與可靠性系數(shù)成正比,估計總體均值時樣本容量的確定,其中:,估計總體均值時樣本容量的確定 (例題分析),【例】擁有工商管理學(xué)士學(xué)位的大學(xué)畢業(yè)生年薪的標(biāo)準(zhǔn)差大約為2000元,假定想要估計年薪95%的置信區(qū)間,希望邊際誤差為400元,應(yīng)抽取多大的樣本容量?,估計總體均值時樣本容量的確定 (例題分析),解: 已知 =2000,E=400, 1-=95%, z/2=1.96
18、12 /22置信度為90%的置信區(qū)間為,即應(yīng)抽取97人作為樣本,估計總體比例時樣本容量的確定,根據(jù)比例區(qū)間估計公式可得樣本容量n為 重復(fù)抽樣 不重復(fù)抽樣,估計總體比例時樣本容量的確定,E的取值一般小于0.1 未知時,可取最大值0.5,其中:,估計總體比例時樣本容量的確定 (例題分析),【例】根據(jù)以往的生產(chǎn)統(tǒng)計,某種產(chǎn)品的合格率約為90%,現(xiàn)要求邊際誤差為5%,在求95%的置信區(qū)間時,應(yīng)抽取多少個產(chǎn)品作為樣本?,解:已知=90%,1-=95%, Z/2=1.96,E=5%,應(yīng)抽取的樣本容量為,應(yīng)抽取139個產(chǎn)品作為樣本,本章小結(jié),抽樣與抽樣分布 參數(shù)估計的基本方法 總體均值的區(qū)間估計 總體比例的區(qū)間估計 樣本容量的確定,結(jié) 束,THANKS,