《2019高考數學二輪復習 第一篇 微型專題 微專題14 統(tǒng)計與統(tǒng)計案例練習 理.docx》由會員分享,可在線閱讀,更多相關《2019高考數學二輪復習 第一篇 微型專題 微專題14 統(tǒng)計與統(tǒng)計案例練習 理.docx(16頁珍藏版)》請在裝配圖網上搜索。
14 統(tǒng)計與統(tǒng)計案例
1.從編號為1~50的50枚最新研制的某種型號的導彈中隨機抽取5枚來進行發(fā)射實驗,若采用系統(tǒng)抽樣方法,則所選取5枚導彈的編號可能是( ).
A.5,10,15,20,25 B.3,13,23,33,43
C.1,2,3,4,5 D.2,4,6,16,32
解析? 間隔距離為10,故可能的編號是3,13,23,33,43,故選B.
答案? B
2.若某校高一年級8個班參加合唱比賽的得分如莖葉圖所示,則這組數據的中位數和平均數分別是( ).
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
解析? ∵這組數據由小到大排列為87,89,90,91,92,93,94,96,∴中位數是91+922=91.5,
平均數x-=87+89+90+91+92+93+94+968=91.5.
答案? A
3.從300名學生(其中男生180人,女生120人)中按性別用分層抽樣的方法抽取50人參加比賽,則應該抽取的男生人數為 .
解析? 因為男生與女生的比例為180∶120=3∶2,所以應該抽取的男生人數為5033+2=30.
答案? 30
4.某車間為了規(guī)定工時定額,需要確定加工零件所花費的時間,為此進行了5次試驗.根據收集到的數據(如下表),由最小二乘法求得線性回歸方程y^=0.67x+54.9.
零件數x (個)
10
20
30
40
50
加工時間y (min)
62
75
81
89
現(xiàn)發(fā)現(xiàn)表中有一個數據看不清,請你推斷出該數據的值為 .
解析? 由x-=30,得y-=0.6730+54.9=75.
設表中的模糊數字為a,
則62+a+75+81+89=755,∴a=68.
答案? 68
能力1
? 隨機抽樣的應用
【例1】 (1)在一次馬拉松比賽中,35名運動員的成績(單位:分鐘)的莖葉圖如圖所示:
若將運動員按成績由好到差編號為1~35,再用系統(tǒng)抽樣方法從中抽取7人,則其中成績在區(qū)間[139,151]上的運動員人數是( ).
A.3 B.4 C.5 D.6
(2)我國古代數學專著《九章算術》中有一衰分問題:今有北鄉(xiāng)八千一百人,西鄉(xiāng)七千四百八十八人,南鄉(xiāng)六千九百一十二人,凡三鄉(xiāng),發(fā)役三百人,則北鄉(xiāng)遣( ).
A.104人 B.108人 C.112人 D.120人
解析? (1)由題意知,將1~35號分成7組,每組5名運動員,成績落在區(qū)間[139,151]內的運動員共有4組,故由系統(tǒng)抽樣法知,共抽取4名.故選B.
(2)由題意可知,這是一個分層抽樣的問題,其中北鄉(xiāng)可抽取的人數為30081008100+7488+6912=300810022500=108,故選B.
答案? (1)B (2)B
1.(1)系統(tǒng)抽樣適用的條件是總體容量較大,樣本容量也較大.
(2)使用系統(tǒng)抽樣時,若總體容量不能被樣本容量整除,可以先從總體中隨機地剔除幾個個體,從而確定分段間隔.
2.分層抽樣問題類型及解題思路
(1)求某層應抽的個體數量:按該層所占總體的比例計算.
(2)已知某層個體數量求總體容量或反之:根據分層抽樣就是按比例抽樣,列比例式進行計算.
(3)確定是否應用分層抽樣:分層抽樣適用于總體中個體差異較大的情況.
1.將參加夏令營的600名學生按001,002,…,600進行編號.采用系統(tǒng)抽樣的方法抽取一個容量為50的樣本,且隨機抽得的號碼為003.這600名學生分別住在三個營區(qū),從001到300在第Ⅰ營區(qū),從301到495在第Ⅱ營區(qū),從496到600在第Ⅲ營區(qū),則三個營區(qū)被抽中的人數依次為( ).
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9
解析? 由題意及系統(tǒng)抽樣的定義可知,將這600名學生按編號依次分成50組,每一組各有12名學生,第k(kN∈*)組抽中的號碼是3+12(k-1).令3+12(k-1)≤300,得k≤1034,因此第Ⅰ營區(qū)被抽中的人數是25;令300<3+12(k-1)≤495,得1034
0.5.
而前4組的頻率之和為0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.
由0.50(x-2)=0.5-0.48,解得x=2.04.
故可估計居民月均用水量的中位數為2.04噸.
1.莖葉圖的優(yōu)缺點:由莖葉圖可以清晰地看到數據的分布情況,這一點同頻率分布直方圖類似.它優(yōu)于頻率分布直方圖的第一點是從莖葉圖中能看到原始數據,沒有任何信息損失,第二點是莖葉圖便于記錄和表示.其缺點是當樣本容量較大時,作圖較煩瑣.
2.(1)準確理解頻率分布直方圖的數據特點,頻率分布直方圖中縱軸上的數據是各組的頻率除以組距的結果,不要誤以為縱軸上的數據是各組的頻率,不要和條形圖混淆.(2)在很多題目中,頻率分布直方圖各小長方形的面積之和為1,是解題的關鍵,常利用樣本的頻率分布直方圖估計總體分布.
1.為了研究某藥品的療效,選取若干名志愿者進行臨床試驗,所有志愿者的舒張壓數據(單位:kPa)的分組區(qū)間為[12,13),[13,14),[14,15),[15,16),[16,17],將其按從左到右的順序分別編號為第一組,第二組,…,第五組,如圖所示的是根據試驗數據制成的頻率分布直方圖.已知第一組與第二組共有20人,第三組中沒有療效的有6人,則第三組中有療效的人數為( ).
A.6 B.8 C.12 D.18
解析? 志愿者的總人數為20(0.16+0.24)1=50,所以第三組的人數為500.36=18,有療效的人數為18-6=12,故選C.
答案? C
2.某電子商務公司對10000名網絡購物者2017年度的消費情況進行統(tǒng)計,發(fā)現(xiàn)消費金額(單位:萬元)都在區(qū)間[0.3,0.9]內,其頻率分布直方圖如圖所示:
(1)直方圖中的a= ;
(2)在這些購物者中,消費金額在區(qū)間[0.5,0.9]內的購物者的人數為 .
解析? (1)由頻率分布直方圖,
可得0.20.1+0.80.1+1.50.1+20.1+2.50.1+a0.1=1,解得a=3.
(2)消費金額在區(qū)間[0.5,0.9]內的頻率為0.20.1+0.80.1+20.1+30.1=0.6,
所以消費金額在區(qū)間[0.5,0.9]內的購物者的人數為0.610000=6000.
答案? (1)3 (2)6000
能力3
? 線性回歸分析
【例4】 某地最近十年糧食需求量逐年上升,下表是部分統(tǒng)計數據:
年份
2008
2010
2012
2014
2016
需求量/萬噸
236
246
257
276
286
(1)利用所給數據求年需求量y與年份x之間的線性回歸方程y^=b^x+a^;
(2)利用(1)中所求出的線性回歸方程預測該地2020年的糧食需求量.
附:回歸直線的斜率和截距的最小二乘估計公式分別為b^=∑i=1n(xi-x-)(yi-y-)∑i=1n(xi-x-)2,a^=y--b^x-.
解析? (1)先將數據處理如下表:
年份-2012
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
對處理的數據,容易算得x--2012=0,y--257=3.2,
b^=(-4)(-24.2)+(-2)(-14.2)+0(-3.2)+215.8+425.8(-4)2+(-2)2+02+22+42=26040=6.5,
a^=(y--257)-b^(x--2012)=3.2.
由上述計算結果,知所求線性回歸方程為
y^-257=6.5(x-2012)+3.2,
即y^=6.5(x-2012)+260.2.
(2)利用所求得的線性回歸方程,可預測2020年的糧食需求量大約為6.5(2020-2012)+260.2=6.58+260.2=312.2(萬噸).
線性回歸分析問題的類型及解題方法
(1)求線性回歸方程
①利用公式,求出回歸系數b^.
②待定系數法:利用回歸直線過樣本點的中心求系數a^.
(2)利用回歸方程進行預測,把線性回歸方程看作一次函數,求函數值.
(3)利用回歸直線判斷正、負相關;決定正相關還是負相關的是系數b^.
(4)回歸方程的擬合效果,可以利用相關系數判斷,當|r|越趨近于1時,兩變量的線性相關性越強.
某地區(qū)2011年至2017年農村居民家庭人均純收入y(單位:千元)的數據如下表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代號t
1
2
3
4
5
6
7
人均純收入y
3.9
4.3
4.6
5.4
5.8
6.2
6.9
(1)求y關于t的線性回歸方程;
(2)利用(1)中的線性回歸方程,分析2011年至2017年該地區(qū)農村居民家庭人均純收入的變化情況,并預測該地區(qū)2020年農村居民家庭人均純收入.
附:回歸直線的斜率和截距的最小二乘估計公式分別為b^=∑i=1n(ti-t-)(yi-y-)∑i=1n(ti-t-)2,a^=y--b^t-.
解析? (1)由所給數據計算得
t-=17(1+2+3+4+5+6+7)=4,
y-=17(3.9+4.3+4.6+5.4+5.8+6.2+6.9)=5.3,
∑i=17(ti-t-)2=9+4+1+0+1+4+9=28,
∑i=17(ti-t-)(yi-y-)=(-3)(-1.4)+(-2)(-1)+(-1)(-0.7)+00.1+10.5+20.9+31.6=14,
b^=∑i=17(ti-t-)(yi-y-)∑i=17(ti-t-)2=1428=0.5,
a^=y--b^t-=5.3-0.54=3.3,
故所求線性回歸方程為y^=0.5t+3.3.
(2)由(1)知,b^=0.5>0,故2011年至2017年該地區(qū)農村居民家庭人均純收入逐年增加,平均每年增加0.5千元.
將2020年的年份代號t=10代入(1)中的線性回歸方程,得y^=0.510+3.3=8.3,
故預測該地區(qū)2020年農村居民家庭人均純收入為8.3千元.
能力4
? 獨立性檢驗
【例5】 微信是現(xiàn)代生活中人們進行信息交流的重要方式,某公司200名員工中90%的人使用微信,其中每天使用微信時間在一小時以內的有60人,若將員工分成青年(年齡小于40歲)和中年(年齡不小于40歲)兩個階段,則使用微信的人中75%是青年人.若規(guī)定每天使用微信時間在一小時以上為經常使用微信,則經常使用微信的員工中有23是青年人.
(1)若要調查該公司使用微信的員工經常使用微信與年齡的關系,列出22列聯(lián)表:
青年人
中年人
合計
經常使用微信
不經常使用微信
合計
(2)根據22列聯(lián)表中的數據利用獨立性檢驗的方法判斷是否有99.9%的把握認為“經常使用微信與年齡有關”.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.010
0.001
k0
6.635
10.828
解析? (1)由已知可得,該公司員工中使用微信的有20090%=180(人).
經常使用微信的有180-60=120(人),
其中青年人有12023=80(人),
使用微信的人中,青年人有18075%=135(人),
故22列聯(lián)表如下:
青年人
中年人
合計
經常使用微信
80
40
120
不經常使用微信
55
5
60
合計
135
45
180
(2)將列聯(lián)表中數據代入公式可得
K2的觀測值k=180(805-5540)21206013545≈13.333.
由于13.333>10.828,所以有99.9%的把握認為“經常使用微信與年齡有關”.
1.比較兩個分類變量有關聯(lián)的可能性大小的方法:
(1)通過計算K2的大小判斷:K2越大,兩變量有關聯(lián)的可能性越大.
(2)通過計算|ad-bc|的大小判斷:|ad-bc|越大,兩變量有關聯(lián)的可能性越大.
2.獨立性檢驗的一般步驟:
(1)根據樣本數據制成22列聯(lián)表.
(2)根據公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d),n=a+b+c+d計算K2的觀測值k.
(3)比較k與臨界值的大小關系,做統(tǒng)計推斷.
為調查某地區(qū)老年人是否需要志愿者提供幫助,用簡單隨機抽樣方法從該地區(qū)調查了500位老年人,結果如表所示:
性別
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估計該地區(qū)老年人中,需要志愿者提供幫助的老年人的比例.
(2)能否有99%的把握認為“該地區(qū)的老年人是否需要志愿者提供幫助與性別有關”?
(3)根據(2)的結論,能否提出更好的調查方法來估計該地區(qū)的老年人中,需要志愿者提供幫助的老年人的比例?說明理由.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析? (1)調查的500位老年人中有70位需要志愿者提供幫助,所以該地區(qū)老年人中,需要志愿者提供幫助的老年人的比例的估計值為70500100%=14%.
(2)K2的觀測值k=500(40270-30160)220030070430≈9.967.
因為9.967>6.635,所以有99%的把握認為“該地區(qū)的老年人是否需要幫助與性別有關”.
(3)由(2)的結論知,該地區(qū)老年人是否需要幫助與性別有關,并且從樣本數據能看出該地區(qū)男性老年人與女性老年人中需要幫助的比例有明顯差異,因此在調查時,先確定該地區(qū)老年人中男、女的比例,再采用分層抽樣方法進行抽樣調查,比采用簡單隨機抽樣方法更好.
一、選擇題
1.某工廠平均每天生產某種機器零件10000件,要求產品檢驗員每天抽取50件零件,檢查其質量狀況,采用系統(tǒng)抽樣方法抽取,將零件編號為0000,0001,0002,…,9999,若抽取的第一組中的號碼為0010,則在第三組中抽取的號碼為( ).
A.0210 B.0410
C.0610 D.0810
解析? 將零件分成50段,分段間隔為200,因此,在第三組中抽取的號碼為0010+2200=0410,故選B.
答案? B
2.某市2017年各月的平均氣溫(℃)數據的莖葉圖如下:
則這組數據的中位數是( ).
A.19 B.20
C.21.5 D.23
解析? 由莖葉圖知所有的數據為8,9,12,15,18,20,20,23,23,28,31,32,中間兩個數為20,20,故中位數為20,故選B.
答案? B
3.某中學有高中生3500人,初中生1500人,為了解學生的學習情況,用分層抽樣的方法從該校學生中抽取一個容量為n的樣本,已知從高中生中抽取70人,則n的值為( ).
A.100 B.150 C.200 D.250
解析? (法一)由題意可得70n-70=35001500,解得n=100.
(法二)由題意得抽樣比為703500=150,總體容量為3500+1500=5000,故n=5000150=100,故選A.
答案? A
4.下列說法錯誤的是( ).
A.回歸直線過樣本點的中心(x-,y-)
B.線性回歸方程對應的直線y^=b^x+a^至少經過其樣本數據點(x1,y1),(x2,y2),…,(xn,yn)中的一個點
C.在殘差圖中,殘差點分布的帶狀區(qū)域的寬度越狹窄,其模型擬合的精度越高
D.在回歸分析中,R2為0.98的模型比R2為0.80的模型擬合的效果好
解析? 回歸直線必過樣本點的中心,A正確;由殘差分析可知殘差點分布的帶狀區(qū)域的寬度越狹窄,其模型擬合的精度越高,C正確;在回歸分析中,R2越接近于1,擬合效果越好,D正確;線性回歸方程對應的直線y^=b^x+a^一定經過樣本點的中心(x-,y-),但不一定經過樣本的數據點,所以B錯誤,故選B.
答案? B
5.在“青春校園歌手大賽”比賽現(xiàn)場上,七位評委為某選手打出的分數的莖葉圖如圖所示,則去掉一個最高分和一個最低分后,所剩數據的平均數和方差分別為( ).
A.85和6.8 B.85和1.6
C.86和6.8 D.86和1.6
解析? 剩余的數據為83,83,84,85,90,
平均分x-=83+83+84+85+905=85,
所以方差s2=15[(83-85)2+(83-85)2+(84-85)2+(85-85)2+(90-85)2]=6.8,故選A.
答案? A
6.已知x與y之間的幾組數據如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假設根據上表數據所得的線性回歸方程為y^=b^x+a^.若某同學根據上表中的前兩組數據(1,0)和(2,2)求得的直線方程為y=bx+a,則以下結論正確的是( ).
A.b^>b,a^>a B.b^>b,a^a D.b^a,故選C.
答案? C
二、填空題
7.已知樣本數據x1,x2,…,xn的平均數x-=5,則樣本數據2x1+1,2x2+1,…,2xn+1的平均數為 .
解析? 由x1,x2,…,xn的平均數x-=5,得2x1+1,2x2+1,…,2xn+1的平均數為2x-+1=25+1=11.
答案? 11
8.某單位為了了解用電量y(kWh)與氣溫x(℃)之間的關系,隨機統(tǒng)計了某4天的用電量與當天氣溫,并制作了對照表:
氣溫(℃)
18
12
10
0
用電量(kWh)
27
34
37
62
由表中數據得線性回歸方程y^=b^x+a^中的b^=-2,預測當氣溫為-4 ℃時,用電量約為 kWh.
解析? 根據題意知x-=18+12+10+04=10,y-=27+34+37+624=40.因為回歸直線過樣本點的中心,所以a^=40-(-2)10=60,所以當x=-4時,y^=(-2)(-4)+60=68,所以用電量約為68 kWh.
答案? 68
9.某學校隨機抽取部分新生調查其上學所需時間(單位:分鐘),并將所得數據繪制成頻率分布直方圖(如圖),其中,上學所需時間的范圍是[0,100],樣本數據分組為[0,20),[20,40),[40,60),[60,80),[80,100],則
(1)圖中的x= ;
(2)若上學所需時間不少于1小時的學生可申請在學校住宿,則該校600名新生中估計有 名學生可以申請住宿.
解析? (1)由頻率分布直方圖知20x=1-20(0.025+0.0065+0.003+0.003),解得x=0.0125.
(2)上學時間不少于1小時的學生的頻率為(0.003+0.003)20=0.12,因此估計有0.12600=72(人)可以申請住宿.
答案? (1)0.0125 (2)72
三、解答題
10.某省會城市地鐵將于2019年6月開始運營,為此召開了一個價格聽證會,擬定價格后又進行了一次調查,隨機抽查了50人,他們的月收入與態(tài)度如下表:
月收入(單
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
贊成定價
者人數
1
2
3
5
3
4
認為價格偏
高者人數
4
8
12
5
2
1
(1)若以區(qū)間的中點值為該區(qū)間內的人均月收入,求參與調查的人員中“贊成定價者”與“認為價格偏高者”的月平均收入的差距是多少(結果保留2位小數);
(2)由以上統(tǒng)計數據填寫下面22列聯(lián)表,分析是否有99%的把握認為“月收入以5500元為分界點對地鐵定價的態(tài)度有差異”.
月收入不低于
5500元的人數
月收入低于
5500元的人數
合計
認為價格偏高者
贊成定價者
合計
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解析? (1)“贊成定價者”的月平均收入為
x1=201+302+403+505+603+7041+2+3+5+3+4
≈50.56.
“認為價格偏高者”的月平均收入為
x2=204+308+4012+505+602+7014+8+12+5+2+1
=38.75,
∴“贊成定價者”與“認為價格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根據條件可得22列聯(lián)表如下:
月收入不低于
5500元的人數
月收入低于
5500元的人數
合計
認為價格偏高者
3
29
32
贊成定價者
7
11
18
合計
10
40
50
K2的觀測值k=50(311-729)210401832≈6.272<6.635,
∴沒有99%的把握認為“月收入以5500元為分界點對地鐵定價的態(tài)度有差異”.
鏈接地址:http://ioszen.com/p-6230707.html