【文档说明】高考统考数学理科北师大版一轮复习教师用书:第9章 第3节 变量间的相关关系、统计案例 含解析.doc,共(15)页,541.000 KB,由envi的店铺上传
转载请保留链接:https://www.doc5u.com/view-8c2d9999540b591631b6d3960679ce7d.html
以下为本文档部分文字说明:
变量间的相关关系、统计案例[考试要求]1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2
×2列联表)的思想、方法及其初步应用.1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波
动,则称此相关为非线性相关的.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘估计(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(xn,yn)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(
a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y
2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(x,y)称为样本点的中心.(3)相关系数r①r=
i=1nxiyi-nxyi=1nx2i-nx2i=1ny2i-ny2;②当r>0时,称两个变量正相关.当r<0时,称两个变量负相关.当r=0时,称两个变量线性不相关.4.独立性检验若一个2×2列联表为:BAB1B2总计A
1aba+bA2cdc+d总计a+cb+dn=a+b+c+d则统计量χ2为:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(1)当χ2≤2.706时,可以认为变量A,B是没有关联的;(2)当χ2>2.7
06时,有90%的把握判定变量A,B有关联;(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.[常用结论](1)回归直线必过样本点的中心(x,y).(2)当两个变量的相关系数|r|=
1时,两个变量呈函数关系.一、易错易误辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一
组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.()[答案](1)√(2)√(3)×(4)√二、教材习题衍生1.下面是2×2列联表:y1y2总计x
1a2173x2222547总计b46120则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52C[∵a+21=73,∴a=52.又a+22=b,∴b=74.]2.某研究机构对高三学生的记忆力x和判断力y进
行统计分析,所得数据如表:x681012y2356则y对x的线性回归直线方程为()A.y=2.3x-0.7B.y=2.3x+0.7C.y=0.7x-2.3D.y=0.7x+2.3C[因为i=14xiyi=6×2+8×3+10×5+12×6=158,x=6+8+10+124=9,y=2+3+5+
64=4.所以b=158-4×9×436+64+100+144-4×81=0.7,a=4-0.7×9=-2.3.故线性回归直线方程为y=0.7x-2.3.故选C.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女72
0已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的
可能性约为________.5%[χ2≈4.844,这表明小概率事件发生.根据独立性检验,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部
,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x(℃)的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程y^=2x+60.如果气象预报某天的最高气温为34℃,则可
以预测该天这种饮料的销售量为__________杯.128[由题意x=34时,该小卖部大约能卖出冷饮的杯数y^=2×34+60=128杯.]考点一相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关
系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.1.观察下列各图形,①②③④其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③C[由散点图知③中的点
都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.]2.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与
y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C[由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]3.对四组数据进行统计,获得如
图所示的散点图,关于其相关系数的比较,正确的是()相关系数为r1相关系数为r2相关系数为r3相关系数为r4A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A[由相关系数的定义以及散点图可知r
2<r4<0<r3<r1.]4.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1ec2x拟合时的相关系数为r1,用y^=b^x+a^拟合时的相关系数为r2,则|r1|>|r2|;③x,y之间不能建立线性回归方程.①②
[在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y^=b^x+a^拟合效果要好,则|r1|>|r2|,故②正确;x,y之间可以建立线性回归方程,但拟合效果不
好,故③错误.]考点二回归分析用最小二乘法求线性回归方程的步骤线性回归分析[典例1-1](2020·贵阳模拟)某地随着经济的发展,居民收入逐年增长,表1是该地一建设银行连续五年的储蓄存款(年底余额):年份x201320142015
20162017储蓄存款y(千亿元)567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2012,z=y-5得到下表2:时间代号t12345z01235表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出
y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y^=b^x+a^,其中b^=∑ni=1xiyi-nx·y∑ni=1x2i-nx2,a^=y-b^x)[解](1)t=3,z=2.2,∑5i=1tizi=45,∑5i=1t2i=5
5,b^=45-5×3×2.255-5×9=1.2,a^=z-b^t=2.2-3×1.2=-1.4,所以z^=1.2t-1.4.(2)将t=x-2012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2012)-1.4,即y^
=1.2x-2410.8.(3)因为y^=1.2×2022-2410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.点评:在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x,y)),利用回
归方程进行预测,常把线性回归方程看作一次函数,求函数值.利用回归直线方程求出的是估算值,非准确值.非线性回归方程[典例1-2]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单
位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i=1(xi-x)2∑8i=1(wi-w)2∑8i=1(xi-x)(yi-y)∑8i=1(wi-w)·(yi-y)
46.65636.8289.81.61469108.8表中wi=xi,w]=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方
程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,
v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为β^=∑ni=1(ui-u)(vi-v)∑ni=1(ui-u)2,α^=v-β^u.[解](1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2
)令w=x,先建立y关于w的线性回归方程.由于d^=i=18(wi-w)(yi-y)i=18(wi-w)2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)
①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20
.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.点评:对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方
程.[跟进训练]1.(2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分
别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i=1xi=60,∑20i=1yi=1200,∑20i=1(xi-x-)2=80,∑20i=1(yi-y-)2=9000,∑20i=1(xi-x-)(yi-y-)
=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,
为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2,2≈1.414.[解](1)由已知得样本平均数y=120i=120yi=60,从
而该地区这种野生动物数量的估计值为60×200=12000.(2)样本(xi,yi)(i=1,2,…,20)的相关系数r=i=120(xi-x)(yi-y)i=120(xi-x)2i=120(yi-
y)2=80080×9000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样
的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.2.十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以
下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):年份20132014201520162017年份代码x12345新能源汽车的年销量y/万辆1.55.917.732.955.6(1)请根据散点图判断y^=b^x+a
^与y^=c^x2+d^中哪个更适宜作为新能源汽车年销量y关于年份代码x的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测2022年我国新能源
汽车的年销量.(精确到0.1)c^=i=1n(wi-w)(yi-y)i=1n(wi-w)2,d^=y-c^w.附:令wi=x2i.y∑5i=1(xi-x)2∑5i=1(wi-w)2∑5i=1(xi-x)·(yi-y)∑5i=1(wi-w)·(yi-y)22.
7210374135.2851.2[解](1)根据散点图得,y^=c^x2+d^更适宜作为年销量y关于年份代码x的回归方程.(2)依题意得,w-=1+4+9+16+255=11,c^=i=15(wi-w-)()yi-y-i=15(wi-w-)2=851.2374≈2.28,则d^=y--
c^w-=22.72-2.28×11=-2.36,∴y^=2.28x2-2.36.令x=10,则y^=2.28×100-2.36=225.64≈225.6,故预测2022年我国新能源汽车的年销量为225.6万辆.考点三独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2
的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n(ad-bc)2(a+b)(a+c)
(b+d)(c+d)计算χ2的观测值k.(3)比较观测值k与临界值的大小关系,作统计推断.[典例2](2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,
整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据
用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤4
00人次>400空气质量好空气质量不好附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(χ2≥k)0.0500.0100.001k3.8416.63510.828.[解](1)由所给数据,该市一天的空气质
量等级为1,2,3,4的概率的估计值如表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1100(100×20+300×35+500×45)=350.(3)根据所给数据,可得2×2列联表:人次≤400人次>4
00空气质量好3337空气质量不好228根据列联表得χ2=100×(33×8-22×37)255×45×70×30≈5.820.由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.点评:独立性检验是判断两个分类变量之间是否有关系的一种
方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[跟进训练]1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过
社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果
的图形是()ABCDD[根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和
SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50](50,150](150,475][0,35]32184(35,75]6812(75,115]3710(1)估计事件“该市一天空气中PM2.5浓度
不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO
2浓度有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(χ2≥k)0.0500.0100.001k3.8416.63510.828.[解](1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,
该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:SO2PM2.5[0,150](150,475][0,75]6416
(75,115]1010(3)根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.