東北林業(yè)大學(xué)《抽樣技術(shù)》第二章抽樣調(diào)查基本原理.ppt
《東北林業(yè)大學(xué)《抽樣技術(shù)》第二章抽樣調(diào)查基本原理.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《東北林業(yè)大學(xué)《抽樣技術(shù)》第二章抽樣調(diào)查基本原理.ppt(32頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第二章抽樣調(diào)查基本原理 目錄第一節(jié)有關(guān)基本概念第二節(jié)樣本統(tǒng)計(jì)量的抽樣分布第三節(jié)抽樣誤差第四節(jié)抽樣估計(jì) 第一節(jié)有關(guān)基本概念 一 總體總體也叫母體 它是所要認(rèn)識(shí)對(duì)象的全體 是具有同一性質(zhì)的許多單位的集合 組成總體的每個(gè)個(gè)體叫做單位 目標(biāo)總體是所需研究說明的全體單位的集合 它是抽樣推斷的目標(biāo) 各項(xiàng)推論信息的主體 作業(yè)總體是按某一標(biāo)志排列的全體單位組合 并以一定形式可供從中抽取樣本單位 所以 它是抽樣調(diào)查的依據(jù) 作業(yè)總體與目標(biāo)總體的關(guān)系具體表現(xiàn)在這兩種總體單位的聯(lián)系上 它們的關(guān)系在實(shí)踐中主要有下列幾種形式 1 作業(yè)總體單位與目標(biāo)總體單位是一一對(duì)應(yīng)的 這是最常見的形式 例如 要調(diào)查某地區(qū)的住戶總體 以該地區(qū)的住戶名冊(cè)為抽樣框 那么 從抽樣框中抽中的住戶即作為估計(jì)總體的單位 2 多個(gè)作業(yè)總體單位對(duì)應(yīng)著一個(gè)目標(biāo)總體單位 例如 要調(diào)查某學(xué)校學(xué)生家庭情況 以該學(xué)校學(xué)生名單為抽樣框 而在這份學(xué)生名單中可能有二個(gè)或更多個(gè)學(xué)生同屬于一個(gè)家庭 3 一個(gè)作業(yè)總體單位對(duì)應(yīng)著多個(gè)目標(biāo)總體單位 例如 人口調(diào)查中以各居 村 民委員會(huì)的順序排列表為抽樣框 這時(shí) 所抽中的每個(gè)居 村 民委員會(huì)內(nèi)就包含許多人口 確定抽樣框必須著重考慮的問題 第一 要能反映出作業(yè)總體與目標(biāo)總體的關(guān)系 表明這二個(gè)總體單位屬于哪種對(duì)應(yīng)形式 第二 要能達(dá)到對(duì)目標(biāo)總體進(jìn)行有效的抽樣估計(jì)的目的 這一方面要求抽樣框應(yīng)盡可能地包括被用于估計(jì)目標(biāo)總體的單位 另一方面要求在抽樣框單位中能獲得估計(jì)總體的信息 第三 設(shè)計(jì)和編制抽樣框要有利于實(shí)施抽樣調(diào)查和節(jié)省各項(xiàng)費(fèi)用開支 在抽樣調(diào)查實(shí)踐中 表現(xiàn)作業(yè)總體的抽樣框通??蔀橄铝袔追N形式 抽樣框是在抽樣前 為便于抽樣工作的組織 在可能條件下編制的用來進(jìn)行抽樣的 記錄或表明總體所有抽樣單元的框架 在抽樣框中 每個(gè)抽樣單元都被編上號(hào)碼 1 名單抽樣框 這是以名單一覽表形式列出總體的所有單位 例如 居民住戶調(diào)查中按住戶地址編碼的順序列出全部住戶的名單表 再如 我國(guó)目前的農(nóng)產(chǎn)量抽樣中 按糧食平均畝產(chǎn)量的大小順序列出總體單位 縣 鄉(xiāng) 村 2 區(qū)域抽樣框 這是按自然地理區(qū)域劃分并排列出總體的所有單位 例如森林資源調(diào)查中按航測(cè)圖或地理區(qū)域圖 將該片森林劃分為若干區(qū)域單位 3 時(shí)間表抽樣框 這是按時(shí)間先后順序排列總體單位 它通常適用于與時(shí)間有關(guān)的調(diào)查 如流水線生產(chǎn)的產(chǎn)品檢驗(yàn) 交通運(yùn)輸流量的抽樣調(diào)查等 作為抽樣推斷的總體是目標(biāo)總體 進(jìn)行抽樣調(diào)查其目的在于調(diào)查觀測(cè)總體中部分單位 從而對(duì)總體的某些數(shù)量特征作出推斷估計(jì) 這些總體數(shù)量特征又稱為總體的參數(shù) 包括總體總數(shù) 總體平均數(shù) 總體成數(shù) 總體方差和標(biāo)準(zhǔn)差 等等 總體參數(shù) 總體總值 總體均值 總體方差 總體標(biāo)準(zhǔn)差 總體比例 如全部產(chǎn)品中合格品所占比例 贊成某項(xiàng)政策的人所占比例等 數(shù)學(xué)表達(dá)式為 當(dāng)?shù)趩卧哂心硞€(gè)特定的特征時(shí) 否則總體比率 它是兩個(gè)總體總量或總體均值之比 如固定資產(chǎn)利用率 人均可支配收入變動(dòng)率等 數(shù)學(xué)表達(dá)式為 二 樣本樣本是由從總體中所抽選出來的若干個(gè)抽樣單元組成的集合體 抽樣前 樣本是一個(gè)n維隨機(jī)變量 屬樣本空間 抽樣后 樣本是一個(gè)n元數(shù)組 是樣本空間的一個(gè)點(diǎn) 影響樣本代表性的因素有以下幾個(gè)方面 1 總體標(biāo)志值分布的離散程度 2 抽樣單元數(shù)的多少 或稱樣本容量的大小 3 抽樣方法 從總體中抽取樣本有許多不同的形式 從而構(gòu)成許多不同的抽樣方法 樣本中的個(gè)單位可以從總體中逐個(gè)抽取 也可以一次抽取個(gè)單位 后者稱為全樣本方法 在逐個(gè)抽取中 每次被抽中的單位 即入樣單位可以放回總體中去 也可以不放回總體中去 前者稱為放回抽樣 samplingwithreplacement 或回置抽樣 后者稱為不放回抽樣 samplingwithoutreplacement 或不回置抽樣 在放回抽樣中 一個(gè)單位有可能被抽到兩次或兩次以上 故有人也稱它為重復(fù)抽樣 而在不放回抽樣中 一個(gè)單位至多只能被抽到一次 不可能重復(fù)被抽到 全樣本抽樣也是一種不放回抽樣 在樣本抽取過程中 總體 有時(shí)也指子總體 中的每個(gè)單位被抽中的概率即入樣概率可能相等也可能不相等 前者稱為等概率抽樣 samplingwithequalprobabilities 后者稱為不等概率抽樣 samplingwithunequalprobabilities 一般將反映樣本數(shù)量特征的綜合指標(biāo)稱之為統(tǒng)計(jì)量 統(tǒng)計(jì)量是n元樣本的一個(gè)實(shí)值函數(shù) 是一個(gè)隨機(jī)變量 統(tǒng)計(jì)量的一個(gè)具體取值即為統(tǒng)計(jì)值 主要的樣本統(tǒng)計(jì)量有 樣本總和y樣本均值樣本方差樣本標(biāo)準(zhǔn)差樣本比率r樣本比例 三 必要樣本容量和樣本可能數(shù)目樣本中包含的抽樣單元個(gè)數(shù)稱為樣本容量 又稱樣本含量或樣本大小 樣本可能數(shù)目則是在容量為N的總體中抽取容量為n的樣本時(shí) 所有可能被抽中的不同樣本的個(gè)數(shù) 用A表示 當(dāng)N和n一定時(shí) A的多少與抽樣方法有關(guān) 其計(jì)算方法列表如下 第二節(jié)樣本統(tǒng)計(jì)量的抽樣分布 一 正態(tài)分布如果總體各個(gè)體的標(biāo)志值以總體平均數(shù)為中心 形成鐘型對(duì)稱分布 其分布曲線向兩側(cè)擴(kuò)展 逐漸向橫軸逼近 無限延伸出去 但不接觸橫軸 則這種分布就叫做正態(tài)分布 或高斯分布 常態(tài)分布 服從正態(tài)分布的總體稱為正態(tài)總體 如果一個(gè)隨機(jī)變量X服從正態(tài)分布 則其分布的密度函數(shù) 分布曲線方程 為 當(dāng) 0 1時(shí) 稱該分布為標(biāo)準(zhǔn)正態(tài)分布 標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)為 任何正態(tài)分布 它的樣本落在任意區(qū)間 a b 內(nèi)的概率等于直線x a x b 橫坐標(biāo)和曲線f x 所夾的面積 可由正態(tài)分布概率積分表查得 經(jīng)計(jì)算 正態(tài)總體的樣本落在 概率是68 27 2 2 概率是95 45 3 3 概率是99 73 1 96 1 96 概率是95 二 抽樣分布 抽樣分布是根據(jù)所有可能樣本計(jì)算出來的某一統(tǒng)計(jì)量的數(shù)值分布 抽樣分布有極限分布和精確分布兩類 極限分布也叫做大樣本分布 它只有正態(tài)分布一種形式 精確分布又叫做小樣本分布 其前提是總體服從正態(tài)分布 它是正態(tài)分布的導(dǎo)出分布 包括有t分布 F分布和分布等形式 2 一般地 可以證明如果總體服從正態(tài)分布 且總體均值和方差均為已知 即 Y N 2 則不論樣本量大小如何 樣本均值均圍繞總體均值而服從正態(tài)分布 并且其抽樣分布的方差等于總體方差的n分之一 即 N 2 n 而對(duì)于非正態(tài)總體 若均值 和 2有限 則根據(jù)中心極限定理 當(dāng)樣本量n充分大時(shí) 樣本均值仍然圍繞著總體均值而近似地服從正態(tài)分布 即 N 2 n 一 樣本統(tǒng)計(jì)量的極限分布 例 總體N 5 Y 40 50 60 70 80 則其次數(shù)分布圖為 若取n 2 用放回抽樣 可抽25個(gè)簡(jiǎn)單隨機(jī)樣本 整理后 即可得出關(guān)于樣本均值的次數(shù)分布情況為 用圖形表示 則為 如果總體容量較大 則當(dāng)樣本容量逐步擴(kuò)大時(shí) 樣本平均數(shù)的分布趨于正態(tài)分布的趨勢(shì)更加明顯 二 樣本統(tǒng)計(jì)量的精確分布 1 2分布 設(shè)隨機(jī)變量Yi N 0 1 i 1 2 n 且相互獨(dú)立 則Y 服從自由度為n的 2分布 記作Y 2 n 2分布的概率密度函數(shù)為 主要性質(zhì)有 f y 恒為正 2分布呈右偏形態(tài) 2分布隨n的不斷增大而逐漸趨于正態(tài)分布 2分布 2 n 的數(shù)學(xué)期望和方差分別為EY n DY 2n 2 t分布 若X N 0 1 Y 2 n 且X與Y相互獨(dú)立 則稱隨機(jī)變量 服從自由度為n的t分布 記作 T t n 推論 若X N 2 2未知 則 服從自由度為n 1的t分布 記作 T t n 1 t分布t n 的概率密度函數(shù)為 t分布具有如下性質(zhì) t分布對(duì)稱于縱軸 與N 0 1 相似 在n 30 小樣本 時(shí) t分布的方差大于N 0 1 的方差 在n 30 大樣本 時(shí) t分布隨n的增大而趨于N 0 1 t分布t n 的數(shù)學(xué)期望與方差分別為ET 0 DT n n 2 n 2 若X 2 n1 Y 2 n2 且X與Y相互獨(dú)立 則稱隨機(jī)變量 3 F分布 服從第一自由度為n1 第二自由度為n2的F分布 記作 F F n1 n2 其概率密度函數(shù)為 F分布的主要性質(zhì)有 F分布呈右偏態(tài) f x 恒為正 在 隨n1 n2的不斷增大 F分布的右偏程度逐漸減弱 但不會(huì)趨向正態(tài) 具有倒數(shù)性質(zhì) 即若X F n1 n2 則1 X F n2 n1 若t t n 則 n F 1 n 處取最大值 n1 2 f0 1 其數(shù)學(xué)期望和方差分別為 第三節(jié)抽樣誤差 一 抽樣調(diào)查中的誤差來源誤差就是調(diào)查結(jié)果與現(xiàn)象的實(shí)際結(jié)果之間的偏差 它幾乎在所有的統(tǒng)計(jì)調(diào)查中都或大或小的存在著 在抽樣調(diào)查中 按照形成原因的不同 一般可將誤差分成抽樣誤差和非抽樣誤差兩大類 抽樣誤差是用樣本統(tǒng)計(jì)量推斷總體參數(shù)時(shí)的誤差 它屬于一種代表性誤差 在抽樣調(diào)查中抽樣誤差是不可避免的 但同非抽樣誤差不同的是 抽樣誤差可以計(jì)算 并且可以被控制在任意小的范圍內(nèi) 影響抽樣誤差的因素 1 抽樣誤差通常會(huì)隨樣本量的大小而增減 2 所研究現(xiàn)象總體變異程度的大小 3 抽樣的方式方法 非抽樣誤差不是由于抽樣引起的 它又包括 調(diào)查誤差 無回答誤差 抽樣框誤差 登記性誤差 同抽樣誤差相反 非抽樣誤差是隨著樣本量的增加而增大的 由于抽樣調(diào)查的訪問和資料整理都比普查更便于進(jìn)行 因此非抽樣誤差也遠(yuǎn)遠(yuǎn)小于普查 有時(shí) 普查中的非抽樣誤差甚至大于抽樣調(diào)查中抽樣誤差與非抽樣誤差的總和 二 均方誤差 方差與偏差抽樣誤差的計(jì)算 是建立在誤差分布理論基礎(chǔ)上 從統(tǒng)計(jì)平均意義角度來考慮的 抽樣誤差用所有可能的實(shí)際誤差的均方誤差表示設(shè)總體某個(gè)待估計(jì)的參數(shù)為 用樣本數(shù)據(jù)計(jì)算的一個(gè)統(tǒng)計(jì)量作為的估計(jì) 也稱為的一個(gè)估計(jì)量 estimator 簡(jiǎn)稱估計(jì) 用估計(jì)的實(shí)際誤差是 由于是未知的 因此 也是未知的 這說明根據(jù)一個(gè)樣本 實(shí)際誤差是不可知的 現(xiàn)在我們考慮按一種抽樣方法所能得到的所有可能樣本 對(duì)每個(gè)樣本計(jì)算一個(gè)估計(jì)值 計(jì)算這些估計(jì)值的平均實(shí)際誤差 也即實(shí)際誤差 的均值即期望E 則由于誤差的正負(fù)抵消也不能反映誤差的大小 因此我們轉(zhuǎn)而考慮平均平方誤差 即實(shí)際誤差平方的均值 式中 第一項(xiàng)是估計(jì)量 的方差 記作 第二項(xiàng)是估計(jì)量 的偏倚 的平方 無偏估計(jì)時(shí) 的方差就等于它的均方誤差 MSE 稱為均方誤差 meansquareerror 由于未知 在通常情況下 它仍然是未知的 但均方誤差可以分解成以下兩個(gè)部分 說明 上面所給出的估計(jì)量方差公式 仍然屬于一個(gè)理論公式 實(shí)際中是依據(jù)調(diào)查變量的總體方差進(jìn)行計(jì)算的 當(dāng)未知時(shí) 一般用樣本方差代替以對(duì)估計(jì)量的方差做出估計(jì) 有偏的估計(jì)并非都是不可用的 有時(shí)有偏估計(jì)量在某些方面反而比無偏估計(jì)量更好 有研究認(rèn)為 在實(shí)踐中當(dāng)偏倚小于標(biāo)準(zhǔn)誤的十分之一時(shí) 偏倚對(duì)估計(jì)量準(zhǔn)確度的影響可以忽略不計(jì) 第四節(jié)抽樣估計(jì) 一 抽樣估計(jì)的特點(diǎn)第一 抽樣估計(jì)在邏輯上運(yùn)用的是歸納推理而不是演繹推理 第二 抽樣估計(jì)在方法上運(yùn)用不確定的概率估計(jì)法而不是運(yùn)用確定的數(shù)學(xué)分析法 第三 抽樣估計(jì)的結(jié)論存在著一定程度的抽樣誤差 二 抽樣估計(jì)的方法抽樣估計(jì)的方法多種多樣 如果以估計(jì)中所依據(jù)的資料不同來區(qū)分 一般可以有簡(jiǎn)單估計(jì) 比估計(jì)和回歸估計(jì)等三種方法 簡(jiǎn)單估計(jì)是單純依靠樣本調(diào)查變量的資料估計(jì)總體參數(shù) 其估計(jì)結(jié)果稱為簡(jiǎn)單估計(jì)量 比估計(jì)和回歸估計(jì)是同時(shí)依據(jù)樣本調(diào)查變量以及已知的有關(guān)輔助變量的資料來對(duì)總體參數(shù)做出估計(jì) 其結(jié)果分別稱為比估計(jì)量和回歸估計(jì)量 如果以估計(jì)結(jié)果的表示方式來區(qū)分 則抽樣估計(jì)可以有兩種形式 即定值估計(jì)和區(qū)間估計(jì) 三 置信區(qū)間 一般地說 若估計(jì)量 是無偏的 且呈正態(tài)分布 則參數(shù) 當(dāng)調(diào)查變量的總體方差 2已知時(shí) 上述置信區(qū)間可表示為 的置信度為1 的置信區(qū)間可以寫成 當(dāng)調(diào)查變量的總體方差 2未知時(shí) 則用相應(yīng)的樣本方差s2代替 然而 這時(shí)有可能會(huì)使誤差產(chǎn)生一個(gè)增量 特別是當(dāng)樣本較小時(shí) 更容易影響估計(jì)的精度 因此 為了保持1 的置信度 就應(yīng)該適當(dāng)加寬置信區(qū)間 即用較大的t 2值來代替Z 2 此時(shí) 置信區(qū)間就可以表示成 四 估計(jì)量的優(yōu)良標(biāo)準(zhǔn) 1 無偏性 2 一致性 3 有效性- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 抽樣技術(shù) 東北 林業(yè)大學(xué) 抽樣 技術(shù) 第二 抽樣調(diào)查 基本原理
鏈接地址:http://ioszen.com/p-8710279.html