《高考數學文二輪復習教師用書:第1部分 重點強化專題 專題3 突破點8 獨立性檢驗與回歸分析 Word版含答案》由會員分享,可在線閱讀,更多相關《高考數學文二輪復習教師用書:第1部分 重點強化專題 專題3 突破點8 獨立性檢驗與回歸分析 Word版含答案(14頁珍藏版)》請在裝配圖網上搜索。
1、
高考數學精品復習資料
2019.5
突破點8 獨立性檢驗與回歸分析
[核心知識提煉]
提煉1 變量的相關性
(1)正相關:在散點圖中,點散布在從左下角到右上角的區(qū)域.
(2)負相關:在散點圖中,點散布在從左上角到右下角的區(qū)域.
(3)相關系數r:當r>0時,兩變量正相關;當r<0時,兩變量負相關;當|r|≤1且|r|越接近于1,相關程度越高,當|r|≤1且|r|越接近于0,相關程度越低.
提煉2 線性回歸方程
方程=x+稱為線性回歸方程,其中=,=-.回歸直線恒過樣本中心(,).
提煉3
2、獨立性檢驗
(1)確定分類變量,獲取樣本頻數,得到2×2列聯(lián)表.
(2)求觀測值:k=.
(3)根據臨界值表,作出正確判斷.如果k≥kα,就推斷“X與Y有關系”,這種推斷犯錯誤的概率不超過α,否則就認為在犯錯誤的概率不超過α的前提下不能推斷“X與Y有關系”.
[高考真題回訪]
回訪1 變量的相關性
1.(20xx·全國卷Ⅱ)根據下面給出的2004年至我國二氧化硫年排放量(單位:萬噸)柱形圖,以下結論中不正確的是( )
圖81
A.逐年比較,減少二氧化硫排放量的效果最顯著
B.我國治理二氧化硫排放顯現成效
C.以來我國二氧化硫年排放量呈減
3、少趨勢
D.以來我國二氧化硫年排放量與年份正相關
D [對于A選項,由圖知從到二氧化硫排放量下降得最多,故A正確.對于B選項,由圖知,由到矩形高度明顯下降,因此B正確.對于C選項,由圖知從以后除稍有上升外,其余年份都是逐年下降的,所以C正確.由圖知以來我國二氧化硫年排放量與年份負相關,故選D.]
2.(20xx·全國卷)在一組樣本數據(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=x+1上,則這組樣本數據的樣本相關系數為( )
A.-1 B.0
C
4、. D.1
D [樣本點都在直線上時,其數據的估計值與真實值是相等的,即yi=i,代入相關系數公式r==1.]
3.(20xx·全國卷Ⅰ)為了監(jiān)控某種零件的一條生產線的生產過程,檢驗員每隔30 min從該生產線上隨機抽取一個零件,并測量其尺寸(單位:cm).下面是檢驗員在一天內依次抽取的16個零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
5、
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相關系數r,并回答是否可以認為這一天生產的零件尺寸不隨生產過程的進行而系統(tǒng)地變大或變小(若|r|<0.25,則可以認為零件的尺寸不隨生產過程的進行而系統(tǒng)地變大或變小).
(2)一天內抽檢零件中,如果出現了尺寸在(-3s,+3s)之外的零件,就認為這條生產線在這一天的生產過程可能出現了異常情況,需對當天的生產過程進行檢查.
(ⅰ)從這一天抽檢的結果看,是否需對當天的生產過程進行檢查?
(ⅱ)在(-3s,+3s)之外的數據稱為
6、離群值,試剔除離群值,估計這條生產線當天生產的零件尺寸的均值與標準差.(精確到0.01)
附:樣本(xi,yi)(i=1,2,…,n)的相關系數r=
[解] (1)由樣本數據得(xi,i)(i=1,2,…,16)的相關系數
r=≈≈-0.18. 2分
由于|r|<0.25,因此可以認為這一天生產的零件尺寸不隨生產過程的進行而系統(tǒng)地變大或變?。? 4分
(2)(ⅰ)由于=9.97,s≈0.212,因此由樣本數據可以看出抽取的第13個零件的尺寸在(-3s,+3s)以外,因此需對當天的生產過程進行檢查. 6分
(ⅱ)剔除離群值,即第13個數據,剩下數據的平均數為
(
7、16×9.97-9.22)=10.02,
這條生產線當天生產的零件尺寸的均值的估計值為10.02. 8分
x≈16×0.2122+16×9.972≈1 591.134, 10分
剔除第13個數據,剩下數據的樣本方差為
(1 591.134-9.222-15×10.022)≈0.008,
這條生產線當天生產的零件尺寸的標準差的估計值為≈0.09. 12分
回訪2 獨立性檢驗
4.(20xx·全國卷Ⅱ)海水養(yǎng)殖場進行某水產品的新、舊網箱養(yǎng)殖方法的產量對比,收獲時各隨機抽取了100個網箱,測量各箱水產品的產量(單位:kg),其頻率
8、分布直方圖如下:
圖82
(1)記A表示事件“舊養(yǎng)殖法的箱產量低于50 kg”,估計A的概率;
(2)填寫下面列聯(lián)表,并根據列聯(lián)表判斷是否有99%的把握認為箱產量與養(yǎng)殖方法有關;
箱產量<50 kg
箱產量≥50 kg
舊養(yǎng)殖法
新養(yǎng)殖法
(3)根據箱產量的頻率分布直方圖,對這兩種養(yǎng)殖方法的優(yōu)劣進行比較.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
[解] (1)舊養(yǎng)殖法的箱產量低于50 kg的頻率為
(0.012+0.014+0.0
9、24+0.034+0.040)×5=0.62.
因此,事件A的概率估計值為0.62. 3分
(2)根據箱產量的頻率分布直方圖得列聯(lián)表
箱產量<50 kg
箱產量≥50 kg
舊養(yǎng)殖法
62
38
新養(yǎng)殖法
34
66
5分
K2的觀測值k=≈15.705.
由于15.705>6.635,故有99%的把握認為箱產量與養(yǎng)殖方法有關. 8分
(3)箱產量的頻率分布直方圖表明:新養(yǎng)殖法的箱產量平均值(或中位數)在50 kg到55 kg之間,舊養(yǎng)殖法的箱產量平均值(或中位數)在45 kg到50 kg之間,且新養(yǎng)殖法的箱產量分布集中程度較舊養(yǎng)殖法的箱產量
10、分布集中程度高,因此,可以認為新養(yǎng)殖法的箱產量較高且穩(wěn)定,從而新養(yǎng)殖法優(yōu)于舊養(yǎng)殖法. 12分
熱點題型1 回歸分析
題型分析:高考命題常以實際生活為背景,重在考查回歸分析中散點圖的作用、回歸方程的求法和應用,難度中等.
【例1】 在一次抽樣調查中測得樣本的5組數據,得到一個變量y關于x的回歸方程模型,其對應的數值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
(1)試作出散點圖,根據散點圖判斷,y=a+bx與y=+m哪一個適宜作為變量y關于x的回歸方程模型?(給出判斷即可,不必說明理由)
(2)根據(1)的判斷結果及表中數據,
11、建立變量y關于x的回歸方程;
(3)根據(2)中所求的變量y關于x的回歸方程預測:當x=3時,對應的y值為多少?(保留四位有效數字)
[解] (1)作出變量y與x之間的散點圖,如圖所示,
2分
由圖可知變量y與x近似地呈反比例函數關系,
那么y=+m適宜作為變量y關于x的回歸方程模型. 4分
(2)由(1)知y=+m適宜作為變量y關于x的回歸方程模型,令t=,則y=kt+m,由y與x的數據表可得y與t的數據表如下:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
6分
作出y與t的散點圖,如圖所示.
8分
由圖可知y與t近似地
12、呈線性相關關系.
又=1.55,=7.2,iyi=94.25,=21.312 5,
所以k==≈4.134 4,m=-k=7.2-4.134 4×1.55≈0.8,
所以y=4.134 4t+0.8,
所以y關于x的回歸方程為y=+0.8. 10分
(3)由(2)得y關于x的回歸方程是y=+0.8,
當x=3時,可得y=+0.8≈2.178. 12分
[方法指津]
1.正確理解計算,的公式和準確的計算,是求線性回歸方程的關鍵.其中回歸直線必過樣本中心(,).
2.在分析兩個變量的相關關系時,可根據樣本數據作出散點圖來確定兩個變量之間是否具有相關關系,若具有線性相
13、關關系,則可通過線性回歸方程估計和預測變量的值.
[變式訓練1] 二手車經銷商小王對其所經營的A型號二手汽車的使用年數x與銷售價格y(單位:萬元/輛)進行整理,得到如下數據:
使用年數x
2
3
4
5
6
7
售價y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
下面是z關于x的折線圖:
圖83
(1)由折線圖可以看出,可以用線性回歸模型擬合z與x的關系,請用相關系數加以說明;
(2)求y關于x的回歸方程,并預測某輛A型號二手車當使用年數為9年時售價約為多少;(
14、,小數點后保留兩位數字)
(3)基于成本的考慮,該型號二手車的售價不得低于7 118元,請根據(2)求出的回歸方程預測在收購該型號二手車時車輛的使用年數不得超過多少年.
參考公式:==,=- ,r=.
參考數據:
xiyi=187.4,xizi=47.64,x=139,
=4.18,
=13.96,
=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
【導學號:04024080】
[解] (1)由題意,知=×(2+3+4+5+6+7)=4.5, 1分
=×(3.00+2.48+2.08+1.86+1.48+1.10)=2, 2
15、分
又xizi=47.64,
=4.18,
=1.53,
∴r=
=-≈-0.99,
∴z與x的相關系數大約為-0.99,說明z與x的線性相關程度很高. 4分
(2)=
=-≈-0.36, 5分
∴=- =2+0.36×4.5=3.62,
∴z與x的線性回歸方程是=-0.36x+3.62, 6分
又z=ln y,
∴y關于x的回歸方程是=e-0.36x+3.62. 7分
令x=9,
得=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴=1.46,
即預測某輛A型號二手車當使用年數為9年時售價約為1.46萬元. 8
16、分
(3)當≥0.711 8,
即e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34時,
則有-0.36x+3.62≥-0.34,
解得x≤11,
因此,預測在收購該型號二手車時車輛的使用年數不得超過11年. 12分
熱點題型2 獨立性檢驗
題型分析:盡管全國卷Ⅰ在近幾年未在該點命題,但其極易與分層抽樣、古典概型等知識交匯,是潛在的命題點之一,需引起足夠的重視.
【例2】 (20xx·長沙二模)某學校的特長班有50名學生,其中有體育生20名,藝術生30名,在學校組織的一次體檢中,該班所有學生進行了心率測試,心率全部介于50次/分到75次/
17、分之間,現將數據分成五組,第一組[50,55),第二組[55,60),……,第五組[70,75],按上述分組方法得到的頻率分布直方圖如圖84所示,已知圖中從左到右的前三組的頻率之比為a∶4∶10.
圖84
(1)求a的值,并求這50名學生心率的平均值;
(2)因為學習專業(yè)的原因,體育生常年進行系統(tǒng)的身體鍛煉,藝術生則很少進行系統(tǒng)的身體鍛煉,若從第一組和第二組的學生中隨機抽取1名,該學生是體育生的概率為0.8,請將下面的列聯(lián)表補充完整,并判斷是否有99.5%的把握認為心率小于60次/分與常年進行系統(tǒng)的身體鍛煉有關?說明你的理由.
心率小于60次/分
18、心率不小于60次/分
合計
體育生
20
藝術生
30
合計
50
參考數據:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
參考公式:K2=,其中n=a+b+c+d.
[解] (1)因為第二組數據的頻率為0.032×5=0.16,
故第二組的頻數為0.16×50=8,
所以第一組的頻數為2a,第三組的頻數為20,第四組的頻數為16,第五組的頻數為4.
19、所以2a=50-20-16-8-4=2,故a=1. 3分
所以這50名學生的心率平均值為52.5×+57.5×+62.5×+67.5×+72.5×=63.7. 5分
(2)由(1)知,第一組和第二組的學生(即心率小于60次/分的學生)共10名,其中體育生有10×0.8=8(名),故列聯(lián)表補充如下:
心率小于60次/分
心率不小于60次/分
合計
體育生
8
12
20
藝術生
2
28
30
合計
10
40
50
所以K2=≈8.333>7.879,
故有99.5%的把握認為心率小于6
20、0次/分與常年進行系統(tǒng)的身體鍛煉有關. 12分
[方法指津]
求解獨立性檢驗問題時要注意:一是2×2列聯(lián)表中的數據與公式中各個字母的對應,不能混淆;二是注意計算得到K2之后的結論.
[變式訓練2] (20xx·蘭州三模)隨著手機的發(fā)展,“微信”逐漸成為人們交流的一種形式.某機構對“使用微信交流”的態(tài)度進行調查,隨機抽取了50人,他們年齡的頻數分布及對“使用微信交流”贊成人數如下表.
年齡
(單位:歲)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
頻數
5
10
15
10
5
5
贊成
21、人數
5
10
12
7
2
1
(1)若以“年齡45歲為分界點”,由以上統(tǒng)計數據完成下面2×2列聯(lián)表,并判斷是否有99%的把握認為“使用微信交流”的態(tài)度與人的年齡有關;
年齡不低于45歲的人數
年齡低于45歲的人數
合計
贊成
不贊成
合計
(2)若從年齡在[55,65)的被調查人中隨機選取2人進行追蹤調查,求2人中至少有1人不贊成“使用微信交流”的概率.
參考數據:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
22、
2.706
3.841
5.024
6.635
7.879
10.828
K2=,其中n=a+b+c+d.
【導學號:04024081】
[解] (1)2×2列聯(lián)表如下:
年齡不低于45歲的人數
年齡低于45歲的人數
合計
贊成
10
27
37
不贊成
10
3
13
合計
20
30
50
K2=≈9.98>6.635.
所以有99%的把握認為“使用微信交流”的態(tài)度與人的年齡有關. 6分
(2)設年齡在[55,65)中不贊成“使用微信交流”的人為A,B,C,贊成“使用微信交流”的人為a,b,
則從5人中隨機選取2人有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab,共10種結果,其中2人中至少有1人不贊成“使用微信交流”的有AB,AC,Aa,Ab,BC,Ba,Bb、Ca、Cb,共9種結果,所以2人中至少有1人不贊成“使用微信交流”的概率為P=. 12分