




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2講統(tǒng)計與統(tǒng)計案例
考綱展示命題探究
1抽樣方法
⑴簡單隨機抽樣的概念
設(shè)一個總體含有N個個體,從中逐個不放回地抽取個個
體作為樣本,如果每次抽取時總體內(nèi)的各個個體被抽到的機會都相
笠,就把這種抽樣方法叫做簡單隨機抽樣.
(2)特點與方法
(3)系統(tǒng)抽樣的概念
當(dāng)總體中的個體數(shù)較多時,可將總體分成均衡的幾個部分,然后
按照預(yù)先定出的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本,
這種抽樣方法叫做系統(tǒng)抽樣(也稱為機械抽樣或等距抽樣).
(4)系統(tǒng)抽樣的特點
①適用于元素個數(shù)很多旦均衡的總體.
②各個個體被抽到的機會均等.
③總體分組后,在起始部分采用的是簡單隨機抽樣.
④如果總體容量N能被樣本容量n整除,則抽樣間隔為
如果總體容量N不能被樣本容量〃整除,可隨機地從總體中剔除余
數(shù),然后再按系統(tǒng)抽樣的方法抽樣.
(5)分層抽樣的概念
在抽樣時,將總體分成互不交叉的層,然后按照一定的比例,從
各層獨立地抽取一定數(shù)量的個體,將各層取出的個體合在一起作為樣
本,這種抽樣方法就叫做分層抽樣.
(6)分層抽樣的步驟
①分層:按某種特征將總體分成若干部分.
②按比例確定每層抽取個體的個數(shù).
③各層分別按簡單隨機抽樣或系統(tǒng)抽樣的方法抽取個體.
④綜合每層抽樣,組成樣本.
2用樣本估計總體
(1)頻率分布表與頻率分布直方圖
頻率分布表與頻率分布直方圖的繪制步驟如下:
①求極差,即求一組數(shù)據(jù)中最大值與最小值的差.
②決定組距與組數(shù).
③將數(shù)據(jù)分組.
④列頻率分布表.落在各小組內(nèi)的數(shù)據(jù)的個數(shù)叫做頻數(shù),每小組
的頻數(shù)與數(shù)據(jù)總數(shù)的比值叫做這一小組的頻率.計算各小組的頻率,
列出頻率分布表.
⑤畫頻率分布直方圖.依據(jù)頻率分布表畫頻率分布直方圖,其中
縱坐標(biāo)(小長方形的高)表示頻率與組距的比值,其相應(yīng)組距上的頻率
頻率
等于該組上的小長方形的面積,即每個小長方形的面積=組距X
=頻率.
這樣,頻率分布直方圖就以面積的形式反映了數(shù)據(jù)落在各個小組
的頻率的大小,各個小長方形面積的總和等于1.
(2)頻率分布折線圖和總體密度曲線
①頻率分布折線圖:連接頻率分布直方圖中各小長方形上端的中
臣,就得到頻率分布折線圖.
②總體密度曲線:隨著樣本容量的增加,作頻率分布直方圖時所
分的組數(shù)也在增加,相應(yīng)的頻率分布折線圖會越來越接近于一條光滑
曲線,統(tǒng)計中稱這條光滑曲線為總體密度曲線.
(3)莖葉圖
莖葉圖是統(tǒng)計中用來表示數(shù)據(jù)的一種圖,莖是指中間的一列數(shù),
葉就是從莖的旁邊生長出來的數(shù).
對于樣本數(shù)據(jù)較少,且分布較為集中的一組數(shù)據(jù):若數(shù)據(jù)是兩位
整數(shù),則將十位數(shù)字作莖,個位數(shù)字作葉;若數(shù)據(jù)是三位整數(shù),則將
百位、十位數(shù)字作莖,個位數(shù)字作葉.樣本數(shù)據(jù)為小數(shù)時做類似處理.
對于樣本數(shù)據(jù)較少,且分布較為集中的兩組數(shù)據(jù),關(guān)鍵是找到兩
組數(shù)據(jù)共有的莖.
(4)眾數(shù)、中位數(shù)、平均數(shù)
定義特點
體現(xiàn)了樣本數(shù)據(jù)的最大集中
在一組數(shù)據(jù)中出現(xiàn)次數(shù)最多
眾數(shù)點,不受極端值的影響,而且
的數(shù)據(jù)
不唯一
將一組數(shù)據(jù)按大小順序依次
中位數(shù)不受極端值的影響,僅
中位排列,處在最空間位置的一個
利用了排在中間數(shù)據(jù)的信息,
數(shù)數(shù)據(jù)(或最中間兩個數(shù)據(jù)的平
只有一個
均數(shù))
平均與每一個樣本數(shù)據(jù)有關(guān),只有
樣本數(shù)據(jù)的算術(shù)平均數(shù)
數(shù)一個
(5)極差、標(biāo)準(zhǔn)差與方差
定義特點
反映一組數(shù)據(jù)的波動
情況,一般情況下,
極差大,則數(shù)據(jù)波動
極差一組數(shù)據(jù)中最大值與最小值的差性大;極差小,則數(shù)
據(jù)波動性小,但極差
只考慮兩個極端值,
可靠性較差
反映了各個樣本數(shù)據(jù)
聚集于樣本平均數(shù)周
圍的程度.標(biāo)準(zhǔn)差越
小,表明各個樣本數(shù)
標(biāo)準(zhǔn)差是樣本數(shù)據(jù)到平均數(shù)的一種平均
標(biāo)準(zhǔn)差據(jù)在樣本平均數(shù)周圍
距離,即5=
越集中;標(biāo)準(zhǔn)差越大,
表明各個樣本數(shù)據(jù)在
樣本平均數(shù)的兩邊越
分散
同標(biāo)準(zhǔn)差一樣用來衡
標(biāo)準(zhǔn)差的平方,即心=
量樣本數(shù)據(jù)的離散程
方差1————
22度,但是平方后夸大
-1(X|—九)+(X2-X---X)]
了偏差程度
M注意點眾數(shù)、平均數(shù)、中位數(shù)的關(guān)系
(1)眾數(shù)、中位數(shù)與平均數(shù)都是描述一組數(shù)據(jù)集中趨勢的量,平
均數(shù)是最重要的量.
(2)平均數(shù)反映的是樣本個體的平均水平,眾數(shù)和中位數(shù)貝,]反映
樣本中個體的“重心”.
(3)實際問題中求得的平均數(shù)、眾數(shù)和中位數(shù)應(yīng)帶上單位.
1.思維辨析
(1)系統(tǒng)抽樣在第1段抽樣時采用簡單隨機抽樣.()
(2)若為了適合分段或分層而剔除幾個個體后再抽樣,則對剔除
的個體來說是不公平的.()
(3)一組數(shù)據(jù)的平均數(shù)一定大于這組數(shù)據(jù)中的每個數(shù)據(jù).()
(4)一組數(shù)據(jù)的方差越大,說明這組數(shù)據(jù)的波動越大.()
(5)頻率分布直方圖中,小矩形的面積越大,表示樣本數(shù)據(jù)落在
該區(qū)間內(nèi)的頻率越高.()
(6)莖葉圖中的數(shù)據(jù)要按從小到大的順序?qū)懀嗤臄?shù)據(jù)可以只
記一次.()
答案(1)7(2)X(3)X(4)V(5)7(6)X
2.如圖是容量為15()的樣本的頻率分布直方圖,則樣本數(shù)據(jù)落
在[6,10)內(nèi)的頻數(shù)為()
A.12B.48
C.60D.80
答案B
解析XX150=48.
3.為了檢查某超市貨架上的飲料是否含有塑化劑,要從編號依
次為1到50的塑料瓶裝飲料中抽取5瓶進(jìn)行檢驗,用每部分選取的
號碼間隔一樣的系統(tǒng)抽樣方法確定所選取的5瓶飲料的編號可能是
()
A.5,10,15,20,25B.2,4,8,16,32
C.123,4,5D.7,17,27,37,47
答案D
解析利用系統(tǒng)抽樣,把編號分為5段,每段10個,每段抽取
一個,號碼間隔為10.
>[考法綜述]高考對隨機抽樣的考查常以實際應(yīng)用為背景考
查樣本的抽取,特別是分層抽樣與系統(tǒng)抽樣的理解與計算.利用樣本
頻率分布估計總體分布是高考熱點,會列頻率分布表,會畫頻率分布
直方圖,小題一般較容易,大題往往結(jié)合概率考查,難度中等.
命題法1抽樣方法
典例1(1)已知某單位有40名職工,現(xiàn)要從中抽取5名職工,
將全體職工隨機按1?40編號,并按編號順序平均分成5組.按系統(tǒng)
抽樣方法在各組內(nèi)抽取一個號碼.若第1組抽出的號碼為2,則所有
被抽出職工的號碼為.
(2)某個年級有男生560人,女生420人,用分層抽樣的方法從
該年級全體學(xué)生中抽取一個容量為280的樣本,則此樣本中男生人數(shù)
為.
[解析](1)由系統(tǒng)抽樣知識知,第一組1?8號;第二組為9?16
號;第三組為17?24號;第四組為25?32號;第五組為33?40號.
第一組抽出號碼為2,則依次為10,18,26,34.
(2)抽取比例為益著所以樣本中男生人數(shù)為
□0U-r4ZUVow/
560Xy=160.
[答案]⑴2,10,18,26,34(2)160
Q[解題法】三種抽樣方法的比較
類別共同點各自特點相互聯(lián)系適用范圍
簡單隨機抽樣是不放回從總體中逐個—總體中的個
抽樣,抽樣抽取數(shù)較少
過程中,每將總體均分成
個個體被幾部分,按事在起始部分抽
總體中的個
系統(tǒng)抽樣抽到的機先確定的規(guī)樣時,采用簡
數(shù)比較多
會(概率)相貝IJ,在各部分單隨機抽樣
等抽取
各層抽樣時,
將總體分成幾總體由差異
采用簡單隨機
分層抽樣層,分層進(jìn)行明顯的幾部
抽樣或者系統(tǒng)
抽取分組成
抽樣
命題法2用樣本估計總體
典例2(1)某校10。名學(xué)生期中考試語文成績的頻率分布直方
圖如圖所示,其中成績分組區(qū)間是:[50,60),[60,70),[70,80),[80,90),
[90,100].
①求圖中。的值;
②根據(jù)頻率分布直方圖,估計這100名學(xué)生語文成績的平均分;
③若這100名學(xué)生語文成績某些分?jǐn)?shù)段的人數(shù)(X)與數(shù)學(xué)成績相
應(yīng)分?jǐn)?shù)段的人數(shù)。)之比如下表所示,求數(shù)學(xué)成績在[50,90)之外的人
數(shù).
分?jǐn)?shù)段[50,60)[60,70)[70,80)[80,90)
x*y1:12:13:44:5
(2)為了比較兩種治療失眠癥的藥(分別稱為A藥,B藥)的療效,
隨機地選取20位患者服用A藥,20位患者服用B藥,這40位患者
在服用一段時間后,記錄他們?nèi)掌骄黾拥乃邥r間(單位:h).試
驗的觀測結(jié)果如下:
服用A藥的20位患者日平均增加的睡眠時間:
服用B藥的20位患者日平均增加的睡眠時間:
①分別計算兩組數(shù)據(jù)的平均數(shù),從計算結(jié)果看,哪種藥的療效更
好?
②根據(jù)兩組數(shù)據(jù)完成下面莖葉圖,從莖葉圖看,哪種藥的療效更
好?
[解](1)①由頻率分布直方圖可知:
(2aX10=l,所以〃
②根據(jù)頻率分布直方圖,估計這100名學(xué)生語文成績的平均分為
55XXXXX
③根據(jù)頻率分布直方圖及表中數(shù)據(jù)得:
分?jǐn)?shù)段xy
[50,60)55
[60,70)4020
[70,80)3()40
[80,90)2025
???數(shù)學(xué)成績在[50,90)之外的人數(shù)為100—5—20—40—25=10.
(2)①設(shè)A藥觀測數(shù)據(jù)的平均數(shù)為x,B藥觀測數(shù)據(jù)的平均數(shù)為
y,
由觀測結(jié)果可得
—__i_
X=20
1
}?=20
由以上計算結(jié)果可知:尤>),,由此可看出4藥的療效更好.
②由觀測結(jié)果可繪制如下莖葉圖:
7
從以上莖葉圖可以看出,A藥療效的試驗結(jié)果有總的葉集中在
7
“2二"3.”上,而3藥療效的試驗結(jié)果有面的葉集中在“0.”,力.”上,
由此可看出A藥的療效更好.
Q【解題法】用樣本估計總體的解題策略
(1)用樣本估計總體時,樣本的平均數(shù)、標(biāo)淮差只是總體的平均
數(shù)、標(biāo)準(zhǔn)差的近似.實際應(yīng)用中,當(dāng)所得數(shù)據(jù)平均數(shù)不相等時,需先
分析平均水平,再計算標(biāo)準(zhǔn)差(方差)分析穩(wěn)定情況.
(2)若給出圖形,一方面可以由圖形得到相應(yīng)的樣本數(shù)據(jù),再計
算平均數(shù)、方差(標(biāo)準(zhǔn)差);另一方面,可以從圖形直觀分析樣本數(shù)據(jù)
的分布情況,大致判斷平均數(shù)的范圍,并利用數(shù)據(jù)的波動性大小反映
方差(標(biāo)準(zhǔn)差)的大小.
1.根據(jù)下面給出的2004年至2013年我國二氧化硫年排放量(單
位:萬噸)柱形圖,以下結(jié)論中不正確的是()
A.逐年比較,2008年減少二氧化硫排放量的效果最顯著
B.2007年我國治理二氧化硫排放顯現(xiàn)成效
C.2006年以來我國二氧化硫年排放量呈減少趨勢
D.2006年以來我國一氧化硫年排放量與年份正相關(guān)
答案D
解析根據(jù)柱形圖可觀察兩個變量的相關(guān)性,易知A、B、C正
確,2006年以來我國二氧化硫年排放量與年份負(fù)相關(guān),選項D錯誤.故
選D.
2.若樣本數(shù)據(jù)即,應(yīng),…,即o的標(biāo)準(zhǔn)差為8,則數(shù)據(jù)2AR一1,2處
—1,…,2>V[()—1的標(biāo)準(zhǔn)差為()
A.8B.15
C.16D.32
答案C
解析由標(biāo)準(zhǔn)差的性質(zhì)知,21]—1,2x2—1,…2xio—1的標(biāo)準(zhǔn)差為
2X8=16,故選C.
3.重慶市2013年各月的平均氣溫(C)數(shù)據(jù)的莖葉圖如下:
則這組數(shù)據(jù)的中位數(shù)是()
A.19B.20
D.23
答案B
解析根據(jù)莖葉圖及中位數(shù)的概念,由莖葉圖知,該組數(shù)據(jù)的中
位數(shù)為1-=20.故選B.
4.我國古代數(shù)學(xué)名著《數(shù)書九章》有“米谷粒分”題:糧倉開倉
收糧,有人送來米1534石,驗得米內(nèi)夾谷,抽樣取米一把,數(shù)得254
粒內(nèi)夾谷28粒,則這批米內(nèi)夾谷約為()
A.134石B.169石
C.338石D.1365石
答案B
解析根據(jù)樣本估計總體,可得這批米內(nèi)夾谷約為急
義1534y169石.故選B.
5.某中學(xué)初中部共有110名教師,高中部共有150名教師,其
性別比例如圖所示,則該校女教師的人數(shù)為()
A.167B.137
C.123D.93
答案B
解析初中部女教師的人數(shù)為110X70%=77,高中部女教師的
人數(shù)為150X(1-60%)=60,則該校女教師的人數(shù)為77+60=137,
故選B.
6.對一個容量為N的總體抽取容量為〃的樣本,當(dāng)選取簡單隨
機抽樣、系統(tǒng)抽樣和分層抽樣三種不同方法抽取樣本時,總體中每個
個體被抽中的概率分別為Pl,P2,P3,則()
A.Pl=P2<〃3B.P2=P3Vpi
C.Pl=P3Vp2D?P1=〃2=P3
答案D
解析由隨機抽樣定義可知,每個個體成為樣本的概率相等,故
選D.
7.為了研究某藥品的療效,選取若干名志愿者進(jìn)行臨床試驗.所
有志愿者的舒張壓數(shù)據(jù)(單位:kPa)的分組區(qū)間為[12,13),[13,14),
[14,15),[15,16),[16,17],將其按從左到右的順序分別編號為第一組,
第二組,……,第五組.如圖是根據(jù)試驗數(shù)據(jù)制成的頻率分布直方
圖.已知第一組與第二組共有20人,第三組中沒有療效的有6人,
則第三組中有療效的人數(shù)為()
A.6B.8
C.12D.18
答案C
解析設(shè)樣本容量為〃,
XlXn=20,解得〃=50.
X1X50=18.
因為第三組中沒有療效的有6人,所以第三組中有療效的人數(shù)為
18—6=12.
8.在一次馬拉松比賽中,35名運動員的成績(單位:分鐘)的莖
葉圖如圖所示.
若將運動員按成績由好到差編為1?35號,再用系統(tǒng)抽樣方法從
中抽取7人,則其中成績在區(qū)間[139,151]上的運動員人數(shù)是
答案4
解析由系統(tǒng)抽樣方法知,應(yīng)把35人分成7組,每組5人,每
組按規(guī)則抽取1人,因為成績在區(qū)間[139,151]上的共有4組,故成績
在區(qū)間[139,151]上的運動員人數(shù)是4
9.為了了解一片經(jīng)濟林的生長情況,隨機抽測了其中6()株樹木
的底部周長(單位:cm),所得數(shù)據(jù)均在區(qū)間[80,130]上,其頻率分布
直方圖如圖所示,則在抽測的6()株樹木中,有株樹木的底
部周長小于100cm.
答案24
解析60XX10=24.
10.某公司為了解用戶對其產(chǎn)品的滿意度,從A,B兩地區(qū)分別
隨機調(diào)查了40個用戶,根據(jù)用戶對產(chǎn)品的滿意度評分,得到A地區(qū)
用戶滿意度評分的頻率分布直方圖和B地區(qū)用戶滿意度評分的頻數(shù)
分布表.
A地區(qū)用戶滿意度評分的頻率分布直方圖
B地區(qū)用戶滿意度評分的頻數(shù)分布表
滿意度
[50,60)[60,70)[70,80)[80,90)[90,100]
評分分組
頻數(shù)2814106
(1)在圖中作出B地區(qū)用戶滿意度評分的頻率分布直方圖,并通
過直方圖比較兩地區(qū)滿意度評分的平均值及分散程度(不要求計算出
具體值,給出結(jié)論即可);
B地區(qū)用戶滿意度評分的頻率分布直方圖
(2)根據(jù)用戶滿意度評分,將用戶的滿意度分為三個等級:
滿意度評分低于70分70分到89分不低于90分
滿意度等級不滿意泗思非常滿意
估計哪個地區(qū)用戶的滿意度等級為不滿意的概率大?說明理由.
解⑴
通過兩地區(qū)用戶滿意度評分的頻率分布直方圖可以看出,B地區(qū)
用戶滿意度評分的平均值高于A地區(qū)用戶滿意度評分的平均值;B
地區(qū)用戶滿意度評分比較集中,而A地區(qū)用戶滿意度評分比較分散.
(2)A地區(qū)用戶的滿意度等級為不滿意的概率大.
記CA表示事件:“A地區(qū)用戶的滿意度等級為不滿意”;CB表
示事件:“B地區(qū)用戶的滿意度等級為不滿意”.
由頻率分布直方圖得P(CAX
P(CBX
所以A地區(qū)用戶的滿意度等級為不滿意的概率大.
11.某工廠36名工人的年齡數(shù)據(jù)如下表:
工人編號年齡工人編號年齡工人編號年齡工人編號年齡
1401()3619272834
244113120432939
340123821413043
441133922373138
533144323343242
640154524423353
745163925373437
842173826443549
943183627423639
(1)用系統(tǒng)抽樣法從36名工人中抽取容量為9的樣本,且在第
分段里用隨機抽樣法抽到的年齡數(shù)據(jù)為44,列出樣本的年齡數(shù)據(jù);
(2)計算⑴中樣本的均值;和方差
(3)36名工人中年齡在二一s與7+s
解(1)由系統(tǒng)抽樣的知識可知,36人分成9組,每組4人,其
中第一組的工人年齡為44,所以其編號為2,故所有樣本數(shù)據(jù)的編號
為4〃-2,72=1,2,…,9.其數(shù)據(jù)為:44,40,36,43,36,37,44,43,37.
—44+4()+-??+37
(2)x=---------5---------=40.
由方差公式知,52=|[(44-40)2+(40-40)2+-+(37-40)2]=
y
10()
-9*,
(3)因為舟=喈,所以$=¥*3,4),
JZJ
所以36名工人中年齡在G—s和M+s之間的人數(shù)等于在區(qū)間
[37,43]內(nèi)的人數(shù),
即40,40,41,…,39,共23人.
所以36名工人中年齡在1一5和或+s之間的人數(shù)所占的百分比
唔
12.某城市100戶居民的月平均用電量(單位:度),以[160,180),
[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分
組的頻率分布直方圖如圖所示.
(1)求直方圖中”的值;
(2)求月平均用電量的眾數(shù)和中位數(shù);
(3)在月平均用電量為[220,240),[240,260),[260,280),[280,300]
的四組用戶中,用分層抽樣的方法抽取11戶居民,則月平均用電量
在[220,240)的用戶中應(yīng)抽取多少戶?
解(1)依題意,20Xxr
(2)由題圖可知,最高矩形的數(shù)據(jù)組為[220,240),
220+240
眾數(shù)為=230.
X
???依題意,設(shè)中位數(shù)為y,
.“一220)X
解得y=224,
???中位數(shù)為224.
(3)月平均用電量在[220,240)的用戶在四組用戶中所占比例為,=
5
TT
???月平均用電量在[220,240)的用戶中應(yīng)抽取11X得=5(戶).
13.某校高三共有900名學(xué)生,高三模擬考之后,為了了解學(xué)生
學(xué)習(xí)情況,用分層抽樣方法從中抽出若干學(xué)生此次數(shù)學(xué)成績,按成績
分組,制成如下的頻率分布表:
第一第二第三第四第五第六第七第八
組號
組組組組組組組組
合計
[70,8[80,9[90,1[100,[110,[120,[130,[140,
分組
0)0)00)110)120)130)140)150)
頻數(shù)64222018a105C
頻率b1
⑴確定表中江C的值;
(2)為了了解數(shù)學(xué)成績在120分以上的學(xué)生的心理狀態(tài),現(xiàn)決定
在第六、七、八組中用分層抽樣方法抽取6名學(xué)生,在這6名學(xué)生中
又再隨機抽取2名與心理老師面談,求第七組中至少有一名學(xué)生被抽
到與心理老師面談的概率;
(3)估計該校本次考試的數(shù)學(xué)平均分.
解(1)因為頻率和為1,所以b
因為頻率=頻數(shù)/樣本容量,所以c=100,a=15.
(2)第六、七、八組共有30個樣本,用分層抽樣方法抽取6名學(xué)
生,每個被抽取的概率均為:,第七組被抽取的樣本數(shù)為1X10=2,
將第六組、第八組抽取的樣本分別用A,B,C,D表示,第七組抽出
的樣本用E,尸表示.
抽取2個的方法有AB、AC.AD、AE、AF、BC、BD、BE、BF、
CD、CE、CF、DE、DF、EF,共15種.
3
其中至少含E或尸的取法有9種,則所求概率為W
(3)估計平均分為75XXXXXXXX
1回歸分析
(1)變量間的相關(guān)關(guān)系
當(dāng)自變量取值一定時;因變量的取值帶有一定的隨機性,則這兩
個變量之間的關(guān)系叫做相關(guān)關(guān)系.即相關(guān)關(guān)系是一種非確定性關(guān)系.
當(dāng)一個變量的值由小變大時,另一個變量的值也由小變大,則這
兩個變量正相關(guān);
當(dāng)一個變量的值由小變大時,而另一個變量的值由大變小,則這
兩個變量負(fù)相關(guān).
(2)散點圖
將樣本中的〃個數(shù)據(jù)點(為,y)(i=l,2,…描在平面直角坐標(biāo)
系中,所得圖形叫做散點圖.
具有正相關(guān)關(guān)系的兩個變量的散點圖如圖⑴所示,
具有負(fù)相關(guān)關(guān)系的兩個變量的散點圖如圖⑵所示.
(3)兩個變量的線性相關(guān)
如果散點圖中點的分布從整體上看大致在二附近,則這兩
個變量之間具有線性相關(guān)關(guān)系,這條直線叫做回歸直線.回歸直線對
應(yīng)的方程叫做回歸直線方程(簡稱回歸方程).
(4)回歸方程的求解
求回歸方程的方法是最小二乘法,即使得樣本數(shù)據(jù)的點到回歸直
線的距離的平方和最小.
若變量x與),具有線性相關(guān)關(guān)系,有〃個樣本數(shù)據(jù)(為,y)(i=
n
£(x-x)(y—y)
AAAA、Z')
1,2,…,〃),則回歸方程y=中------------=
E(x/—x)2
ZX/:V/-KX.vA〃〃
----------,。=y.其中尤=[1:如丁二^£孫(x,y)稱為
E后一〃三200
樣本點的中心.
(5)相關(guān)系數(shù)
我們可以利用相關(guān)系數(shù)來定量地衡量兩個變量之間的線性相關(guān)
n
X(X-X)(y—y)
關(guān)系,計算公式為r=—,1g.
[£8一%)江(V/-y)2
\11=\/=i
當(dāng)》o時,表明兩個變量正相關(guān);當(dāng)r<o時,表明兩個變量負(fù)相
關(guān).
一越接近于1,表明兩個變量的線性相關(guān)性越強;
仍越接近于o,表明兩個變量之間幾乎不存在線性相關(guān)關(guān)系.
通常,當(dāng)上時,我們認(rèn)為兩個變量之間存在著很強的線性相關(guān)關(guān)
2獨立性檢驗
(1)2X2列聯(lián)表
設(shè)X,y為兩個變量,它們的取值分別為{為,松}和{y”》},其
樣本頻數(shù)列聯(lián)表(2X2列聯(lián)表)如下:
>2總計
X1aba+b
X2Cdc+d
總計a+cb+d〃+/?+c+d
(2)獨立性檢驗
利用隨機變量一(也可表示為2”啜空;上八
(其中〃=〃+/?+c+d為樣本容量)來判斷“兩個變量有關(guān)系”的
方法稱為獨立性檢驗.
(3)獨立性檢驗的一般步驟
①根據(jù)樣本數(shù)據(jù)列出2X2列聯(lián)表;
②計算隨機變量心的觀測值k,查下表確定臨界值k°:
尸(蜉2谿)
P(心/))
ko
③如果攵2自,就推斷“X與丫有關(guān)系”,這種推斷犯錯誤的概
率不超過。(昭2姐;否則,就認(rèn)為在犯錯誤的概率不超過P(照》公)
的前提下不能推斷“X與y有關(guān)系”.
M注意點對獨立性檢驗的理解
(1)通常認(rèn)為k&“x與y有關(guān)系”.
(2)獨立性檢驗得出的結(jié)論是帶有概率性質(zhì)的,只能說結(jié)論成立
的概率有多大,而不能完全肯定一個結(jié)論,因此才出現(xiàn)了臨界值表.在
分析問題時一定要注意這點,不可對某個問題下確定性結(jié)論,否則就
可能對統(tǒng)計計算的結(jié)果作出錯誤的解釋.
1.思維辨析
(1)相關(guān)關(guān)系的兩個變量是非確定關(guān)系.()
(2)散點圖中的點越集中,兩個變量的線性相關(guān)性越強.()
(3)對于分類變量X與K它們的隨機變量片的觀測值越小.“X
與y有關(guān)聯(lián)”的把握程度越大.()
(4)“名師出高徒”可以解釋為教師的教學(xué)水平與學(xué)生的水平成
正相關(guān)關(guān)系.()
(5)只有兩個變量有相關(guān)關(guān)系,所得到的回歸模型才有預(yù)測價
值.()
答案(1)7(2)X(3)X(4)J(5)7
AA
A.yx+4B.yx+5
AA
C.yxD.yx
答案C
解析因為回歸直線方程必過樣本點的中心(嚏,7),將點(4,5)
代入A,B,C,D檢驗可知,選項C正確.
3.某高校教“統(tǒng)計初步”課程的教師隨機調(diào)查了選該課程的一
些學(xué)生的情況,具體數(shù)據(jù)如下表:
專業(yè)
非統(tǒng)計專業(yè)統(tǒng)計專業(yè)
性另
男1310
女720
為了判斷主修統(tǒng)計專業(yè)是否與性別有關(guān)系,根據(jù)表中的數(shù)據(jù),得
5QX(13X2O-1QX7)2^
到心的觀測值k=
23X27X20X30
因為k
答案5%
解析???4P(心2
命題法1回歸分析
典例1假設(shè)關(guān)于某設(shè)備的使用年限N年)和所支出的維修費
用M萬元),有如下表的統(tǒng)計資料:
使用年限M年)23456
維修費用M萬元)
若由資料可知y對x呈線性相關(guān)關(guān)系,試求:
(1)線性回歸直線方程;
(2)根據(jù)回歸直線方程,估計使用年限為12年時,維修費用是多
少?
[解]⑴列表
i12345合計
Xj2345620
y25
砂
X?4916253690
x=4,y=5;
55
Ex?=90;Ex%
i=1i=1
5_____
A^Xiy—5xy
i=I
h=-------=錯誤!
X后一5x2
Z=1
A_A——
于是a=y—bxX
A
所以線性回歸直線方程為期
A
(2)當(dāng)工=12時,yX
Q【解題法】求線性回歸直線方程的步驟
(1)用散點圖或進(jìn)行相關(guān)性檢驗判斷兩個變量是否具有線性相關(guān)
關(guān)系.
⑵列表求出X,y,£君,Exm(可用計算器進(jìn)行計算).
z=lz=li=I
八/2xy
A——A——
(3)利用公式〃=胃---a-=--y---hx求得回歸系數(shù).
(4)寫出回歸直線方程.
命題法2獨立性檢驗
典例2某工廠有25周歲以上(含25周歲)工人300名,25周歲
以下工人200名.為研究工人的日平均生產(chǎn)量是否與年齡有關(guān),現(xiàn)采
用分層抽樣的方法,從中抽取了10()名工人,先統(tǒng)計了他們某月的日
平均生產(chǎn)件數(shù),然后按工人年齡在“25周歲以上(含25周歲)”和“25
周歲以下”分為兩組,再將兩組工人的H平均生產(chǎn)件數(shù)分成5組:
[50,60),[60,70),[70,80),[80,90),[90,100]分別加以統(tǒng)計,得到如圖
所示的頻率分布直方圖.
(1)從樣本中日平均生產(chǎn)件數(shù)不足60件的工人中隨機抽取2人,
求至少抽到一名“25周歲以下組”工人的概率;
(2)規(guī)定日平均生產(chǎn)件數(shù)不少于80件者為“生產(chǎn)能手”,請你根
據(jù)已知條件完成2X2列聯(lián)表,并判斷是否有90%的把握認(rèn)為“生產(chǎn)
能手與工人所在的年齡組有關(guān)”?
〃(小僧22—〃
附:/=
〃1+,2+〃+1〃+2
P*k)
k
(注:此公式也可以寫成爛=}工J普浮
(4)(c十d)(a+c)(b+a)
[解](1)由已知得,樣本中有25周歲以上組工人60名,25周歲
以下組工人4()名.所以,樣本中日平均生產(chǎn)件數(shù)不足60件的工人中,
25周歲以上組工人有60XA,4,4;25周歲以下組工人有40XB],
B2.
從中隨機抽取2名工人,所有的可能結(jié)果共有10種,它們是:
(Ai,A2),(A),&),(A2,4),(Ai,Bi,),(4,&),(4,Bi),(A2,
&),(4,S),(A3,&),(Bi,4).
其中,至少有1名“25周歲以下組”工人的可能結(jié)果共有7種,
它們是:(4,Bi),(4,4),如,Bi),(4,&),(4,B3(4,82),
7
(Bi,&),故所求的概率尸=元.
(2)由頻率分布直方圖可知,在抽取的100名工人中,“25周歲
以上組”中的生產(chǎn)能手60X“25周歲以下組”中的生產(chǎn)能手
40XX2列聯(lián)表如下:
生產(chǎn)能手非生產(chǎn)能手合計
25周歲以上組154560
25周歲以下組152540
合計3070100
所以得K?=----------Md—bc)?---------
加以付A(a+bXc+d)(a+c)(b+d)
100X(15X25—15X45)225_
60X40X30X70=瓦心
所以沒有90%的把握認(rèn)為“生產(chǎn)能手與工人所在的年齡組有
關(guān)”.
9【解題法】解決獨立性檢驗問題的方法
首先要根據(jù)題目條件列出兩個變量的2X2列聯(lián)表,通過計算隨
機變量心的觀測值上依據(jù)臨界值與犯錯誤的概率得出結(jié)論.注意觀
測值的臨界值與概率間的對應(yīng)關(guān)系.
1.為了解某社區(qū)居民的家庭年收入與年支出的關(guān)系,隨機調(diào)查了
該社區(qū)5戶家庭,得到如下統(tǒng)計數(shù)據(jù)表:
收入式萬元)
支出M萬元)
根據(jù)上表可得回歸直線方程),=/?X+Q,其中加=y—據(jù)此估
計,該社區(qū)一戶年收入為15萬元家庭的年支出為()
B
D
答案B
AAAA
解析:xy6...QX.??回歸方程為y-=15代入上式得,yX
2.根據(jù)如下樣本數(shù)據(jù):
X345678
y
A
得到的回歸方程為y="+。,則()
A.47>O,h>0B.a>0,h<0
C.〃<0,b>0D.6/<0,b<0
答案B
解析由樣本數(shù)據(jù)可知y值總體上是隨x值的增大而減少的,故
b<0,又回歸直線過第一象限,故縱截距00.故選B.
3.已知變量x與),正相關(guān),且由觀測數(shù)據(jù)算得樣本平均數(shù)1=3,
y
AA
A.yxB.y=2x
AA
C.y=~2xD.yx
答案A
解析由變量x與y正相關(guān),可知x的系數(shù)為正,排除C、D.而
所有的回歸直線必經(jīng)過點(二,7),由此排除B,故選A.
4.某公司為確定下一年度投入某種產(chǎn)品的宣傳費,需了解年宣
傳費式單位:千元)對年銷售量),(單位:。和年利潤z(單位:千元)的
影響.對近8年的年宣傳費M和年銷售量),1,2,…,8)數(shù)據(jù)作了
初步處理,得到下面的散點圖及一些統(tǒng)計量的值.
廠——18
表中Wi=y]Xi,w=g£助.
/=i
(1)根據(jù)散點圖判斷,丁=。+以與y=c+八&哪一個適宜作為年銷
售量),關(guān)于年宣傳費x的回歸方程類型?(給出判斷即可,不必說明
理由)
(2)根據(jù)⑴的判斷結(jié)果及表中數(shù)據(jù),建立),關(guān)于x的回歸方程;
(3)已知這種產(chǎn)品的年利潤z與x,y的關(guān)系為zy—尤根據(jù)⑵的結(jié)
果回答下列問題:
①年宣傳費x=49時:年銷售量及年利潤的預(yù)報值是多少?
②年宣傳費x為何值時,年利潤的預(yù)報值最大?
附:對于一組數(shù)據(jù)(的,5),(〃2,02),…,(〃“,Vn)9其回歸直線
0=。+的的斜率和截距的最小二乘估計分別為
n
A£(出一〃)(①一v)AA
P='n,OL=V-PU.
£(均一U)2
i=l
解(1)由散點國可以判斷,y=c+小、&適宜作為年銷售量y關(guān)于
年宣傳費工的回歸方程類型.
⑵令w=必先建立y關(guān)于zo的線性回歸方程.由于
8
A£(助一z。)(y-y)
d------------=,=68,
E(w—w)2
/=!
AA
c=y—dw=563—68X
所以y關(guān)于w的線性回歸方程為)w,因此y關(guān)于x的回歸方程
A
為)
(3)①由(2)知,當(dāng)x=49時-,年銷售量),的預(yù)報值
年利潤z的預(yù)報值
A
zX
②根據(jù)(2)的結(jié)果知,年利潤z的預(yù)報值
A
z\[x)~x=-x^x
A
所以當(dāng)加=,2)應(yīng)取得最大值.
5.某地區(qū)2007年至2013年農(nóng)村居民家庭人均純收入),(單位:
千元)的數(shù)據(jù)如下表:
年份2007200820092010201120122013
年份
1234567
代號,
人均
純收
入.V
(1)求),關(guān)于,的線性回歸方程;
(2)利用(1)中的回歸方程,分析2007年至2013年該地區(qū)農(nóng)村居
民家庭人均純收入的變化情況,并預(yù)測該地區(qū)2015年農(nóng)村居民家庭
人均純收入.
附:回歸直線的斜率和截距的最小二乘估計公式分別為:b=
n
X(。一t)(0一y)
j=?A—A—
,a=y-bt.
it)2
/=1
解(1)由所給數(shù)據(jù)計算得
t=,(1+2+3+4+5+6+7)=4,
1
y=i
7_
S(6—t)2=9+4+l+0+l+4+9=28,
i=\
7__
t)8—y)=(—3)xx(-i)+(-i)xxxxx
i=l
7__
AA_A_
.z=i_________________14
b=7~=28〃=y-blX
£(Lt)2
A
所求回歸方程為w
(2)由(1)知,b
A
將2015年的年份代號t=9代入(1)中的回歸方程,得yX
6.2014年7月18日15時,超強臺風(fēng)“威馬遜”
(1)根據(jù)頻率分布直方圖估計小區(qū)每戶居民的平均損失;
(2)臺風(fēng)后區(qū)委會號召小區(qū)居民為臺風(fēng)重災(zāi)區(qū)捐款,小明調(diào)查的
50戶居民捐款情況如上表,在表格空白處填寫正確數(shù)字,并說明是
否有95%以上的把握認(rèn)為捐款數(shù)額是否多于或少于500元和自身經(jīng)
濟損失是否到4000元有關(guān)?
附:臨界值表
ko
P(心2⑹
n(ad-bc}2
參考公式:心=,n=a+b+c+d.
(a+b)(c+d)(a+c)(b+d)
解(1)記每戶居民的平均損失為x元,貝心
x=(1000XXXXXX2000=3360.
(2)如下表:
5OX(3OX6-9X5)2_
長=39X11X35X15)
所以有95%以上的把握認(rèn)為捐款數(shù)額是否多于或少于500元和
自身經(jīng)濟損失是否到4000元有關(guān).
7.氣象部門提供了某地區(qū)今年六月份(30天)的日最高氣溫的統(tǒng)
計表如下:
日最高氣溫/
K2222V/W2828UW32。32
(單位:℃)
天數(shù)612YZ
由于工作疏忽,統(tǒng)計表被墨水污染,丫和z數(shù)據(jù)不清楚,但氣象
部門提供的資料顯示,六月份的日最高氣溫不高于32c
(1)若把頻率看作概率,求y,Z的值;
(2)把日最高氣溫高于32°C稱為本地區(qū)的“高溫天氣”,根據(jù)已
知條件完成下面2X2列聯(lián)表,并據(jù)此推測是否有95%的把握認(rèn)為本
地區(qū)的“高溫天氣”與西瓜“旺銷”有關(guān)?說明理由.
高溫天氣非高溫天氣合計
旺銷1
不旺銷6
合計
n(ad-hc)2
附:=
(a+b)(c+d)(a+c){b+d)
由概率知識得:P(?32)=l一尸(/<
???Z=30X
7=30-(6+124-3)=9.
(2)由獨立性檢驗知識得到如下2X2列聯(lián)表:
高溫天氣非高溫天氣合計
旺銷12122
不旺銷268
合計32730
〃(ad—bc)2
(a+b)(c+d)(a+c)(b+d)
30X(1X6—2X21)2
22X8X3X27
??????沒有95%的把握認(rèn)為本地區(qū)的“高溫天氣”與西瓜“旺
銷”有關(guān).
機從某小區(qū)抽取100戶居民進(jìn)行月用電量調(diào)查,發(fā)現(xiàn)其用電量都
在5()至35()度之間,頻率分布直方圖如圖所示.
(1)直方圖中x的值為;
(2)在這些用戶中,用電量落在區(qū)間[1()0,250)內(nèi)的戶數(shù)為
[錯解]
[錯因分析]在頻率分布直方圖中,小矩形的面積表示頻率,縱
頻率
坐標(biāo)表示而值而出錯,x
[正解]Xx=,50)
(2)VX
.,.XI00=70.
[答案]
[心得體會]
M課時撬分練
時間:60分鐘
基礎(chǔ)組
1J2016.冀州中學(xué)期中]某市共有400所學(xué)校,現(xiàn)要用系統(tǒng)抽樣的
方法抽取20所學(xué)校作為樣本,調(diào)查學(xué)生課外閱讀的情況.把這400
所學(xué)校編上1?400的號碼,再從1?20中隨機抽取一個號碼,如果
此時抽得的號碼是6,則在編號為21到40的學(xué)校中,應(yīng)抽取的學(xué)校
的編號為()
A.25B.26
C.27D.以上都不是
答案B
解析系統(tǒng)抽樣是把個體編號后,先抽取第一個,然后每次間隔
相同的數(shù)依次抽取,本題中每次間隔20,第一個抽取的是6號,接
下來應(yīng)該抽取的是第26號,故選B.
2.[201S衡水中學(xué)仿真]在某次測量中得到的A樣本數(shù)據(jù)如下:
82,84,84,86,86,86,88,88,88,88.若B樣本數(shù)據(jù)恰好是4樣本數(shù)據(jù)每個都
加2后所得數(shù)據(jù),則4B兩樣本的下列數(shù)字特征對應(yīng)相同的是()
A.眾數(shù)B.平均數(shù)
C.中位數(shù)D.標(biāo)準(zhǔn)差
答案D
解析由題原來眾數(shù)88變?yōu)?0,中位數(shù)由86變?yōu)?8,平均數(shù)
增加2,所以每個數(shù)與平均數(shù)的差不變,即標(biāo)準(zhǔn)差不變.故選D.
3.[2016.棗強中學(xué)預(yù)測]對具有線性相關(guān)關(guān)系的變量筋y有一組
AA
觀測數(shù)據(jù)(“y)(i=l,2,…,8),其回歸直線方程是產(chǎn)學(xué)十〃,且汨
A
+?+13H-----=2(y]2H-----F/)=6,則實數(shù)。的值是()
1
-
A-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年技術(shù)標(biāo)準(zhǔn)對項目管理影響試題及答案
- 倉庫風(fēng)險管理與應(yīng)對策略計劃
- 經(jīng)濟法概論應(yīng)試技巧分享試題及答案
- 安檢理論試題及答案
- 2024年家具、建筑用金屬附件及架座項目資金籌措計劃書代可行性研究報告
- 2019-2025年一級建造師之一建鐵路工程實務(wù)題庫練習(xí)試卷A卷附答案
- 2025年中國建設(shè)銀行陜西渭南支行春季校招考試筆試試題含答案
- 資訊更新水利水電工程試題及答案
- 2024-2025公司安全管理人員安全培訓(xùn)考試試題附完整答案(網(wǎng)校專用)
- 2025年項目管理高效學(xué)習(xí)試題及答案
- 電網(wǎng)工程設(shè)備材料信息參考價2025年第一季度
- 2025年高三高考沖刺主題教育班會:《高三考前心理調(diào)適指南:減壓賦能 輕松備考》-2024-2025學(xué)年高中主題班會課件
- MOOC 理解馬克思-南京大學(xué) 中國大學(xué)慕課答案
- 涉及飲用水衛(wèi)生安全產(chǎn)品衛(wèi)生許可證申請表
- 供熱對供電煤耗影響量的計算
- 綠城集團(tuán)精裝修驗收標(biāo)準(zhǔn)-
- 大數(shù)據(jù)時代對會計的影響
- 特靈-RTHD水冷螺桿式冷水機組_圖文
- 突發(fā)安全生產(chǎn)事故應(yīng)急救援預(yù)案(現(xiàn)場處理方案)
- 直流系統(tǒng)蓄電池充放電試驗報告
- 送教上門學(xué)生教案(生活適應(yīng)和實用語數(shù)共17篇)
評論
0/150
提交評論