《高考數學一輪復習學案訓練課件北師大版文科: 第9章 算法初步、統(tǒng)計與統(tǒng)計案例 第4節(jié) 相關性、最小二乘估計與統(tǒng)計案例學案 文 北師大版》由會員分享,可在線閱讀,更多相關《高考數學一輪復習學案訓練課件北師大版文科: 第9章 算法初步、統(tǒng)計與統(tǒng)計案例 第4節(jié) 相關性、最小二乘估計與統(tǒng)計案例學案 文 北師大版(11頁珍藏版)》請在裝配圖網上搜索。
1、
高考數學精品復習資料
2019.5
第四節(jié) 相關性、最小二乘估計與統(tǒng)計案例
[考綱傳真] 1.會做兩個有關聯變量的數據的散點圖,并利用散點圖認識變量間的相關關系.2.了解最小二乘法的思想,能根據給出的線性回歸方程系數公式建立線性回歸方程(線性回歸系數公式不要求記憶).3.了解回歸分析的基本思想、方法及其簡單應用.4.了解獨立性檢驗(只要求22列聯表)的思想、方法及其初步應用.
(對應學生用書第141頁)
[基礎知識填充]
1.相關性
(1)通常將變量所對應的點描出來,這些點就組成了變量之間的一個圖,通常稱這
2、種圖為變量之間的散點圖.
(2)從散點圖上可以看出,如果變量之間存在著某種關系,這些點會有一個集中的大致趨勢,這種趨勢通??梢杂靡粭l光滑的曲線來近似,這樣近似的過程稱為曲線擬合.
(3)若兩個變量x和y的散點圖中,所有點看上去都在一條直線附近波動,則稱變量間是線性相關的,若所有點看上去都在某條曲線(不是一條直線)附近波動,則稱此相關是非線性相關的.如果所有的點在散點圖中沒有顯示任何關系,則稱變量間是不相關的.
2.線性回歸方程
(1)最小二乘法
如果有n個點(x1,y1),(x2,y2),…,(xn,yn),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2
3、+…+[yn-(a+bxn)]2來刻畫這些點與直線y=a+bx的接近程度,使得上式達到最小值的直線y=a+bx就是所要求的直線,這種方法稱為最小二乘法.
(2)線性回歸方程
方程y=bx+a是兩個具有線性相關關系的變量的一組數據(x1,y1),(x2,y2),…,(xn,yn)的線性回歸方程,其中a,b是待定參數.
3.回歸分析
(1)定義:對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法.
(2)樣本點的中心
對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn)中,(,)稱為樣本點的中心.
(3)相關系數
①r=
=
4、②當r>0時,表明兩個變量正相關;
當r<0時,表明兩個變量負相關;
當r=0時,表明兩個變量線性不相關.
|r|值越接近于1,表明兩個變量之間的線性相關程度越高.
|r|值越接近于0,表明兩個變量之間的線性相關程度越低.
4.獨立性檢驗
設A,B為兩個變量,每一個變量都可以取兩個值,變量A:A1,A2=;變量B:B1,B2=.
22列聯表:
B
A
B1
B2
總計
A1
a
b
a+b
A2
c
d
c+d
總計
a+c
b+d
n=a+b+c+d
構造一個統(tǒng)計量
χ2=.
利用統(tǒng)計量χ2來判斷“兩個分類
5、變量有關系”的方法稱為獨立性檢驗.
當χ2≤2.706時,沒有充分的證據判定變量A,B有關聯,
可以認為變量A,B是沒有關聯的;
當χ2>2.706時,有90%的把握判定變量A,B有關聯;
當χ2>3.841時,有95%的把握判定變量A,B有關聯;
當χ2>6.635時,有99%的把握判定變量A,B有關聯.
[基本能力自測]
1.(思考辨析)判斷下列結論的正誤.(正確的打“√”,錯誤的打“”)
(1)“名師出高徒”可以解釋為教師的教學水平與學生的水平成正相關關系.( )
(2)某同學研究賣出的熱飲杯數y與氣溫x(℃)之間的關系,得回歸方程=-2.352x+14
6、7.767,則氣溫為2℃時,一定可賣出143杯熱飲.( )
(3)因為由任何一組觀測值都可以求得一個線性回歸方程,所以沒有必要進行相關性檢驗.( )
(4)若事件X,Y關系越密切,則由觀測數據計算得到的χ2的觀測值越?。? )
[答案] (1)√ (2) (3) (4)
2.(教材改編)已知變量x與y正相關,且由觀測數據算得樣本平均數=3,=3.5,則由該觀測數據算得的線性回歸方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
A [因為變量x和y正相關,排除選項C,D.又樣本中心(3,3
7、.5)在回歸直線上,排除B,選項A滿足.]
3.(20xx全國卷Ⅱ)根據下面給出的2004年至我國二氧化硫年排放量(單位:萬噸)柱形圖,以下結論中不正確的是( )
圖941
A.逐年比較,減少二氧化硫排放量的效果最顯著
B.我國治理二氧化硫排放顯現成效
C.以來我國二氧化硫年排放量呈減少趨勢
D.以來我國二氧化硫年排放量與年份正相關
D [對于A選項,由圖知從到二氧化硫排放量下降得最多,故A正確.對于B選項,由圖知,由到矩形高度明顯下降,因此B正確.對于C選項,由圖知從以后除稍有上升外,其余年份都是逐年下降的,所以C正確.由圖知以來我國二氧化硫年排放量與年份負相關
8、,故選D.]
4.為了評價某個電視欄目的改革效果,在改革前后分別從居民點抽取了100位居民進行調查,經過計算χ2≈0.99,根據這一數據分析,下列說法正確的是
( )
A.有99%的人認為該電視欄目優(yōu)秀
B.有99%的人認為該電視欄目是否優(yōu)秀與改革有關系
C.有99%的把握認為該電視欄目是否優(yōu)秀與改革有關系
D.沒有理由認為該電視欄目是否優(yōu)秀與改革有關系
D [只有χ2≥6.635才能有99%的把握認為“該電視欄目是否優(yōu)秀與改革有關系”,而即使χ2≥6.635也只是對“該電視欄目是否優(yōu)秀與改革有關系”這個論斷成立的可能性大小的結論,與是否有99%的人等無關,故只有D
9、正確.]
5.(20xx西安模擬)某車間為了規(guī)定工時定額,需要確定加工零件所花費的時間,為此進行了5次試驗.根據收集到的數據(如下表),由最小二乘法求得回歸方程=0.67x+54.9.
零件數x(個)
10
20
30
40
50
加工時間y(min)
62
75
81
89
現發(fā)現表中有一個數據看不清,請你推斷出該數據的值為________.
68 [由=30,得=0.6730+54.9=75.
設表中的“模糊數字”為a,
則62+a+75+81+89=755,∴a=68.]
(對應學生用書第142頁)
相關關系的判斷
(1)(20
10、xx湖北高考)已知變量x和y滿足關系y=-0.1x+1,變量y與z正相關.下列結論中正確的是( ) 【導學號:00090333】
A.x與y正相關,x與z負相關
B.x與y正相關,x與z正相關
C.x與y負相關,x與z負相關
D.x與y負相關,x與z正相關
(2)對四組數據進行統(tǒng)計,獲得如圖942所示的散點圖,關于其相關系數的比較,正確的是( )
圖942
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
(1)C (2)A [(1)因為y=-0.1x+1的斜率小于0,
11、故x與y負相關.因為y與z正相關,可設z=y(tǒng)+,>0,則z=y(tǒng)+=-0.1x++,故x與z負相關.
(2)由散點圖知,圖①與圖③是正相關,故有r1>0,r3>0,圖②與圖④是負相關,則r2<0,r4<0,且圖①與圖②中的樣本點集中在一條直線附近,因此有r2<r4<0<r3<r1.]
[規(guī)律方法] 1.利用散點圖判斷兩個變量是否有相關關系是比較直觀簡便的方法.如果所有的樣本點都落在某一函數的曲線附近,變量之間就有相關關系.如果所有的樣本點都落在某一直線附近,變量之間就有線性相關關系.若點散布在從左下角到右上角的區(qū)域,則正相關,若點散布在左上角到右下角的區(qū)域,則負相關.
2.利用相關系
12、數判定,當|r|越趨近于1,相關性越強.
當殘差平方和越小,相關指數r2越大,相關性越強.
[變式訓練1] (1)四名同學根據各自的樣本數據研究變量x,y之間的相關關系,并求得線性回歸方程,分別得到以下四個結論:
①y與x負相關且=2.347x-6.423;
②y與x負相關且=-3.476x+5.648;
③y與x正相關且=5.437x+8.493;
④y與x正相關且=-4.326x-4.578.
其中一定不正確的結論的序號是( ) 【導學號:00090334】
A.①② B.②③
C.③④ D.①④
(2)變量X與Y相對應的一組數據為(10,
13、1),(11.3,2),(11.8,3),(12.5,4),(13,5);變量U與V相對應的一組數據為(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示變量Y與X之間的線性相關系數,r2表示變量V與U之間的線性相關系數,則( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
(1)D (2)C [(1)由線性回歸方程=x+知當>0時,y與x正相關,當<0時,y與x負相關,∴①④一定錯誤.
(2)對于變量Y與X而言,Y隨X的增大而增大,故Y與X正相關,即r1>0;對于變量V與U而言,V隨U的增大而減小,故V與
14、U負相關,即r2<0,故選C.]]
線性回歸方程及應用
(20xx全國卷Ⅲ)如圖943是我國至生活垃圾無害化處理量(單位:億噸)的折線圖.
圖943
注:年份代碼1~7分別對應年份2008~20xx.
(1)由折線圖看出,可用線性回歸模型擬合y與t的關系,請用相關系數加以說明;
(2)建立y關于t的回歸方程(系數精確到0.01),預測我國生活垃圾無害化處理量.
參考數據:yi=9.32,tiyi=40.17,=0.55,≈2.646.
參考公式:相關系數r=,回歸方程=a+b中斜率和截距的最小二乘估計公式分別為=,a=-b.
[解] (1)由折線圖中的數
15、據和附注中的參考數據得
=4, (ti-)2=28,=0.55, 2分
(ti-)(yi-)=tiyi-yi=40.17-49.32=2.89,
所以r≈≈0.99.
因為y與t的相關系數近似為0.99,說明y與t的線性相關程度相當大,從而可以用線性回歸模型擬合y與t的關系. 5分
(2)由=≈1.331及(1)得
b==≈0.103. 8分
a=-b≈1.331-0.1034≈0.92.
所以y關于t的回歸方程為y=0.92+0.10t. 10分
將對應的t=9代入回歸方程得y=0.92+0.109=1.82.
所以預測我國生活垃圾無害化處
16、理量約為1.82億噸. 12分
[規(guī)律方法] 1.在分析實際中兩個變量的相關關系時,可根據樣本數據作出散點圖來確定兩個變量之間是否具有相關關系,也可計算相關系數r進行判斷.若具有線性相關關系,則可通過線性回歸方程估計和預測變量的值.
2.(1)正確運用計算b,a的公式和準確的計算,是求線性回歸方程的關鍵.(2)回歸直線=bx+a必過樣本點的中心(,).
[變式訓練2] (20xx全國卷Ⅰ)某公司為確定下一年度投入某種產品的宣傳費,需了解年宣傳費x(單位:千元)對年銷售量y(單位:t)和年利潤z(單位:千元)的影響.對近8年的年宣傳費xi和年銷售量yi(i=1,2,…,8)數據作了初步
17、處理,得到下面的散點圖及一些統(tǒng)計量的值.
圖944
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根據散點圖判斷,y=a+bx與y=c+d哪一個適宜作為年銷售量y關于年宣傳費x的回歸方程類型?(給出判斷即可,不必說明理由)
(2)根據(1)的判斷結果及表中數據,建立y關于x的回歸方程;
(3)已知這種產品的年利潤z與x,y的關系為z=0.2y-x.根據(2)的結果回答下列問題:
①年宣傳費x=49時,年
18、銷售量及年利潤的預報值是多少?
②年宣傳費x為何值時,年利潤的預報值最大?
附:對于一組數據(u1,v1),(u2,v2),…,(un,vn),其回歸直線v=α+βu的斜率和截距的最小二乘估計分別為β=,α=- .
[解] (1)由散點圖可以判斷,y=c+d適宜作為年銷售量y關于年宣傳費x的回歸方程類型. 2分
(2)令w=,先建立y關于w的線性回歸方程.
由于d===68, 4分
c=-d =563-686.8=100.6, 5分
所以y關于w的線性回歸方程為y=100.6+68w, 6分
因此y關于x的回歸方程為y=100.6+68. 7分
(3)①由
19、(2)知,當x=49時,
年銷售量y的預報值y=100.6+68=576.6, 8分
年利潤z的預報值=576.60.2-49=66.32. 9分
②根據(2)的結果知,年利潤z的預報值
z=0.2(100.6+68)-x=-x+13.6+20.12. 10分
所以當==6.8,即x=46.24時,z取得最大值.
故年宣傳費為46.24千元時,年利潤的預報值最大. 12分
獨立性檢驗
(20xx全國卷Ⅱ)海水養(yǎng)殖場進行某水產品的新、舊網箱養(yǎng)殖方法的產量對比,收獲時各隨機抽取了100個網箱,測量各箱水產品的產量(單位:kg),其頻率分布直方圖如下:
20、
圖945
(1)記A表示事件“舊養(yǎng)殖法的箱產量低于50 kg”,估計A的概率;
(2)填寫下面列聯表,并根據列聯表判斷是否有99%的把握認為箱產量與養(yǎng)殖方法有關;
箱產量<50 kg
箱產量≥50 kg
舊養(yǎng)殖法
新養(yǎng)殖法
(3)根據箱產量的頻率分布直方圖,對這兩種養(yǎng)殖方法的優(yōu)劣進行比較.
附:
χ2=.
[解] (1)舊養(yǎng)殖法的箱產量低于50 kg的頻率為
(0.012+0.014+0.024+0.034+0.040)5=0.62. 2分
因此,事件A的概率估計值為0.62. 4分
(2)根據箱產量的頻率分布直
21、方圖得列聯表
箱產量<50 kg
箱產量≥50 kg
舊養(yǎng)殖法
62
38
新養(yǎng)殖法
34
66
5分
χ2的觀測值=≈15.705. 7分
由于15.705>6.635,故有99%的把握認為箱產量與養(yǎng)殖方法有關. 8分
(3)箱產量的頻率分布直方圖表明:新養(yǎng)殖法的箱產量平均值(或中位數)在50 kg到55 kg之間,舊養(yǎng)殖法的箱產量平均值(或中位數)在45 kg到50 kg之間,且新養(yǎng)殖法的箱產量分布集中程度較舊養(yǎng)殖法的箱產量分布集中程度高,因此,可以認為新養(yǎng)殖法的箱產量較高且穩(wěn)定,從而新養(yǎng)殖法優(yōu)于舊養(yǎng)殖法.
12分
[規(guī)律方法] 1.在2
22、2列聯表中,如果兩個變量沒有關系,則應滿足ad-bc≈0.|ad-bc|越小,說明兩個變量之間關系越弱;|ad-bc|越大,說明兩個變量之間關系越強.
2.解決獨立性檢驗的應用問題,一定要按照獨立性檢驗的步驟得出結論.獨立性檢驗的一般步驟:
(1)根據樣本數據制成22列聯表;
(2)根據公式χ2=計算χ2的觀測值k;
(3)比較k與臨界值的大小關系,作統(tǒng)計推斷.
[變式訓練3] (20xx濟南聯考)某市地鐵即將于6月開始運營,為此召開了一個價格聽證會,擬定價格后又進行了一次調查,隨機抽查了50人,他們的收入與態(tài)度如下; 【導學號:00090335】
月收入(
23、單位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
贊成定價者人數
1
2
3
5
3
4
認為價格偏高者人數
4
8
12
5
2
1
(1)若以區(qū)間的中點值為該區(qū)間內的人均月收入,求參與調查的人員中“贊成定價者”與“認為價格偏高者”的月平均收入的差距是多少(結果保留2位小數);
(2)由以上統(tǒng)計數據填下面22列聯表,分析是否有99%的把握認為“月收入以55百元為分界點對地鐵定價的態(tài)度有差異”.
月收入不低于
55百元的人數
月收入低于55
百元的人數
總計
認為價格偏高
24、者
贊成定價者
總計
附:χ2=.
P(χ2≥k0)
0.05
0.01
k0
3.841
6.635
[解] (1)“贊成定價者”的月平均收入為
x1=
≈50.56.
“認為價格偏高者”的月平均收入為
x2=
=38.75,
∴“贊成定價者”與“認為價格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元). 5分
(2)根據條件可得22列聯表如下:
月收入不低于
55百元的人數
月收入低于55
百元的人數
總計
認為價格偏高者
3
29
32
贊成定價者
7
11
18
總計
10
40
50
χ2=≈6.27<6.635,
∴沒有99%的把握認為“月收入以55百元為分界點對地鐵定價的態(tài)度有差異”. 12分