【文档说明】2023高考数学科学复习创新方案(新高考题型版) 第10章 第3讲 成对数据的统计分析 含解析【高考】.doc,共(36)页,666.500 KB,由小赞的店铺上传
转载请保留链接:https://www.doc5u.com/view-93f963472a7e495145da82589cb69794.html
以下为本文档部分文字说明:
1第3讲成对数据的统计分析1.相关关系(1)相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类①按变量间的增减性分为01正相关和02负相关.正相关:当一个
变量的值增加时,另一个变量的相应值也呈现03增加的趋势.负相关:当一个变量的值增加时,另一个变量的相应值呈现04减少的趋势.②按变量间是否有线性特征分为05线性相关或06非线性相关(曲线相关).线性相关:如果两个变量的取值呈现正相关或负相关
,而且散点落在07一条直线附近,我们就称这两个变量线性相关.非线性相关或曲线相关:如果两个变量具有相关性,但不是08线性相关,我们就称这两个变量非线性相关或曲线相关.2.相关关系的刻画(1)散点图:为了直观描述成对样本数据的特征,把每对成对数据
都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.(2)样本相关系数①我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=2∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2.②样本相关系数r的取值范围为09
[-1,1].若r>0时,成对样本数据10正相关;若r<0时,成对样本数据11负相关;当|r|越接近121时,成对样本数据的线性相关程度越强;当|r|越接近130时,成对样本数据的线性相关程度越弱.3.一元线性回归模型称Y=bx+a+e,E(e)=0,
D(e)=σ2为Y关于x的一元线性回归模型.其中Y称为14因变量或15响应变量,x称为16自变量或17解释变量,18a称为截距参数,19b称为斜率参数;e是20Y与21bx+a之间的随机误差,如果e=220,那么Y与x之间的关系就可以用一元线性函数模型来描述.4.最小二乘法将y^=b^x
+a^称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b^,a^叫做b,a的最小二乘估计,其中b^=∑ni=1(xi-x-)(yi-y-)∑ni
=1(xi-x-)2,a^=23y--b^x-.5.残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为24观测值,通过经验回归方程得到的y^称为25预测值,26观测值减去27预测值称为残差.(2)残差分析28残差是随机误差的估计结果,通过对29残差的分析可以判断模型刻
画数3据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.6.对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以30横轴为对称轴的水平带状区域内,则说明经验
回归方程较好地刻画了两个变量的关系.(2)残差平方和法残差平方和31∑ni=1(yi-y^i)2越小,模型的拟合效果越好.(3)决定系数R2法可以用决定系数R2=1-∑ni=1(yi-y^i)2∑ni=1(yi-y-)2来比较两个模型
的拟合效果,R2越32大,模型拟合效果越好,R2越33小,模型拟合效果越差.7.列联表与独立性检验(1)2×2列联表①2×2列联表给出了成对分类变量数据的34交叉分类频数.②定义一对分类变量X和Y,我们整理数据如
下表所示:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d像这种形式的数据统计表称为2×2列联表.(2)独立性检验①定义:利用χ2的取值推断分类变量X和Y35是否独立的方法称为χ2独
立性检验,读作“卡方独立性检验”.简称独立性检验.②χ2=36n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.4(3)独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释.②根据抽样数据整理出2×2列联表,计算χ2的
值,并与临界值xα比较.③根据检验规则得出推断结论.④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关
系,也可能是伴随关系.2.回归直线y^=b^x+a^必过样本点的中心(x-,y-).1.下面是一个2×2列联表:XY合计y1y2x1a2173x2222547合计b46120其中a,b处填的值分别为()A.94,72B.52,50C.52,74D.74,52答案C解析由a+2
1=73,得a=52,a+22=b,得b=74.故选C.2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.855m10
6115124103则哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁答案D解析|r|越接近1,m越小,线性相关性越强,故选D.3.已知相关变量x和y满足关系y=-0.1x+1,相关变量y与z负相关.下列结论中正确的是(
)A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案D解析由y=-0.1x+1可得x与y负相关.因为y与z负相关,可设z=b^y+a^,b^<0,则
z=b^(-0.1x+1)+a^=-0.1b^x+b^+a^,故x与z正相关.4.通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表.参照附表,能得到的正确结论是()运动性别合计男女爱好402060不爱好2030
50合计6050110A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关”6附:χ2=n(ad-bc)2(
a+b)(c+d)(a+c)(b+d),n=a+b+c+d.α0.050.0100.001xα3.8416.63510.828答案A解析由列联表中的数据可得χ2=110×(40×30-20×20)260×50×60×50≈7.822>6.635,故有99%以上的把握认为
“爱好该项运动与性别有关”.故选A.5.若已知∑ni=1(yi-y-)2是∑ni=1(xi-x-)2的4倍,∑ni=1(xi-x-)(yi-y-)是∑ni=1(xi-x-)2的1.5倍,则相关系数r的值为________.答案34解析由r=∑ni=1(xi-x-)(yi-
y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2,得r=34.6.(2022·山西太原摸底)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得经验回归方程y^=b^x+a^中的b^为9.4
,据此模型预测广告费用为6万元时销售额约为________万元.答案65.5解析由表可得x-=4+2+3+54=3.5,y-=49+26+39+544=42,因为点(3.5,42)在经验回归直线y^=b^x+a^上,且b^=9.4,所以42=9.4×
3.5+a^,解得a^=9.1.故经验回归方程为y^=9.4x+9.1.7令x=6,得y^=65.5.故预测广告费用为6万元时销售额约为65.5万元.多角度探究突破考向一两个变量的相关性角度相关关系的判断例1(1)为研究语文成绩和英语成绩之间是否具
有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用经验回归方程y^=b^x+a^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A.线性相关关系较强,b^的值为1.25B.线性相关关系较强,b^的值
为0.83C.线性相关关系较强,b^的值为-0.87D.线性相关关系较弱,无研究价值答案B解析由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以经验回归方程的斜率应为正数,且从散点图观察,经验回
归方程的斜率应该比直线y=x的斜率要小一些,综上可知应选B.(2)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额6583478利润率(%)12.610.41
8.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销
售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.故选A.角度相关系数的意义例2(2020·全国Ⅱ卷节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成
面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i=1xi=60,∑20i=1yi=1200,∑20i=
1(xi-x-)2=80,∑20i=1(yi-y-)2=9000,∑20i=1(xi-x-)(yi-y-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(
xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).附:相关系数r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2,2≈1.414.解(1)每个样区野
生动物数量的平均数为120∑20i=1yi=120×1200=60,地块数为200,所以该地区这种野生动物数量的估计值为200×60=12000.(2)样本(xi,yi)的相关系数为9r=∑20i=1(xi-x-)(yi-y-)∑20i=1(xi-x-)2∑20i=
1(yi-y-)2=80080×9000=223≈0.94.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强.1.(20
22·贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案A解析易知
题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.2.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16
个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.0410抽取次序910111213141516零件尺寸10.269.9110.1310.02
9.2210.0410.059.95经计算得x-=116i=116xi=9.97,s=116i=116(xi-x-)2=116(i=116x2i-16x-2)≈0.212,i=116(i-8.5)2≈18.439,i=116(xi-x-)(i-8
.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或
变小);(2)一天内抽检零件中,如果出现了尺寸在(x--3s,x-+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x--3s,x-+3s)之外的数据称为离群值,试剔除离
群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2i=1n(yi-y-)2.参考数据:0.008≈0
.09.解(1)由样本数据,得(xi,i)(i=1,2,…,16)的相关系数r=11i=116(xi-x-)(i-8.5)i=116(xi-x-)2i=116(i-8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r|
<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需
对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.i=116x2i≈16×0.2122+16×9.972≈1591.134
,剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.多角度探究突破考向二回归分析角度线性回归模型例3为保证新能源汽车的推广,某市逐渐
加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下数据:年份编号x12345年份20162017201820192020数量y/个3710414719622612(1)已知可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(2)求y关于x
的经验回归方程,并预测2024年该市新能源汽车充电站的数量.参考数据:∑5i=1yi=710,∑5i=1xiyi=2600,∑5i=1(yi-y-)2≈149.89,10≈3.16.参考公式:相关系数r=∑ni=1(xi-x
-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2,经验回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2,a^=y--b^x-
.解(1)由已知数据得x-=15×(1+2+3+4+5)=3,y-=15×710=142,∑5i=1(xi-x-)2=(-2)2+(-1)2+0+1+22=10,∑5i=1(xi-x-)(yi-y-)=∑5i=1
xiyi-5x-y-=2600-5×3×142=470,所以r≈4703.16×149.89≈0.99.因为y与x的相关系数近似为0.99,接近1,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系.(2)由(1)得b^=∑5i=1(xi-x-)(yi-y-)∑5i
=1(xi-x-)2=47010=47,a^=y--b^x-=142-47×3=1,故所求经验回归方程为y^=47x+1,将2024年对应的年份编号x=9代入经验回归方程得y^=47×9+1=424,故预测2024年该市新能源汽车充电站的数量为
424个.角度非线性回归模型13例4某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,
8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-∑8i=1(xi-x-)2∑8i=1(wi-w-)2∑8i=1(xi-x-)·(yi-y-)∑8i=1(wi-w-)·(yi-y-)46.65636.8289.81.6
1469108.8表中wi=xi,w-=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;(3)已知这种产
品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预测值是多少?②年宣传费x为何值时,年利润的预测值最大?附:对于一组数据(u1,v1),(u2,v2)
,…,(un,vn),其经验回归方程v=α^+β^u的斜率和截距的最小二乘估计分别为β^=∑ni=1(ui-u-)(vi-v-)∑ni=1(ui-u-)2,α^=v--β^u-.解(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x14的经验回归方程
类型.(2)令w=x,先建立y关于w的经验回归方程.由于d^=∑8i=1(wi-w-)(yi-y-)∑8i=1(wi-w-)2=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的经验回归
方程为y^=100.6+68w,因此y关于x的经验回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预测值为y^=100.6+6849=576.6(千元),年利润z的预测值为z^=576.6×0.2-49=66.32(千元).
②根据(2)的结果知,年利润z的预测值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预测值最大.(1)正确理解计算b^,a^的公式和准确的计算是求经验回
归方程的关键.(2)经验回归方程y^=b^x+a^必过样本点的中心(x-,y-).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测.
(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.3.某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:15月份123456广告投入量/万元24681012收益/万元14.2120.
3131.831.1837.8344.67他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:x-y-∑6i=1xiyi∑6i=1x2i7301464.24
364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.①剔除异常数据后,求出(1)中所选模型的经验回归方程;②广告投入量x=18时,(1)中所选模型收益的预测值是多少?附
:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2=∑ni=1xiyi-nx-y-∑ni=1x2i
-nx-2,a^=y--b^x-.解(1)应该选择模型①,因为模型①的残差点比较均匀地落在以横轴为对称轴的水平带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预测精度高.(2)①剔除异常数据,即3月份的数据后,得x-=15×(
7×6-6)=7.2,16y-=15×(30×6-31.8)=29.64.∑5i=1xiyi=1464.24-6×31.8=1273.44,∑5i=1x2i=364-62=328.b^=∑5i=1xiyi-5x-y-∑5i=1x2
i-5x-2=1273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a^=y--b^x-=29.64-3×7.2=8.04.所以y关于x的经验回归方程为y^=3x+8.04.②把x=18代入①中所求经验回归方程得y^=3×1
8+8.04=62.04,故预测值为62.04万元.考向三独立性检验例5(1)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高堆积条
形图,最能体现该药物对预防禽流感有效果的图形是()答案D解析在等高堆积条形图中,aa+b与cc+d相差很大时,我们认为两个分类变17量有关系,在四个选项中(等高的条形图)中,选项D中不服药样本中患病的频率与服药样本中患病的频率相差最大,故选D.(2)某省进行高中新课程改革已经四年了,为了解
教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.①根据以上数据建立一个2×2
列联表;②试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.解①2×2列联表如下所示:教师年龄新课程教学模式合计赞同不赞同老教师101020青年教师24630合计341650②零假
设H0:对新课程教学模式的赞同情况与教师年龄无关.由公式得χ2=50×(10×6-10×24)220×30×34×16≈4.963<6.635=x0.01,所以依据小概率值α=0.01的独立性检验,没有充分证据推断H0
不成立,因此可以认为H0成立,即对新课程教学模式的赞同情况与教师年龄无关.1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越
大.(3)通过计算aa+b与cc+d的大小判断:相差越大,两变量有关联的可能性越大.2.独立性检验的一般步骤18(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算
χ2的值.(3)比较χ2与临界值xα的大小关系,作统计推断.4.为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图.根据图中信息,在下列各项中说法最佳的一项是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物
A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果答案B解析由题图可得服用药物A的患病比例少于服用药物B的患病比例,而服用药物A的未患病比例多于服用药物B的未患病比例,所以药物A的预防效果优于药物B的预防效果.故选B.5.(2021·全国甲卷改编)甲、乙两台机
床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:机床质量合计一级品二级品甲机床15050200乙机床12080200合计27013040019(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2
)依据小概率值α=0.01的独立性检验,能否推断甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),α0.0500.0100.001xα3.8416.63510.828解(1)由题意,可得甲机床、乙机床
生产总数均为200件,因为甲的一级品的频数为150,所以甲的一级品的频率为150200=34;因为乙的一级品的频数为120,所以乙的一级品的频率为120200=35.(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.由列联表中的数据得χ2=400×(150×80-50×120)220
0×200×270×130≈10.256.由于10.256>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.一、单项选择题1.对两个变量x,y进行线性回归分析,计算得到样本相关系数r=-0.9962,则下列
说法中正确的是()A.x与y正相关B.x与y具有较强的线性相关关系C.x与y几乎不具有线性相关关系D.x与y的线性相关关系还需进一步确定答案B解析因为样本相关系数r=-0.9962,所以x与y负相关,因为|r|=0.9962,20非常接近1,所以线性相关性很强,
故选B.2.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度
x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+blnx答案D解析由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是y=a+blnx.故选D.3.现行普通高中学生在高一时
面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列统计结论不正确的是()A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿
的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理21答案D解析由等高堆积条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有
两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.4.为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其经验回归方程为y^=b^x+a^.已知∑10i=
1xi=225,∑10i=1yi=1600,b^=4.该班某学生的脚长为24cm,据此估计其身高为()A.160cmB.163cmC.166cmD.170cm答案C解析由已知x-=22.5,y-=160,∴a^=160-4×22.5=70,当x=24时,y^=4×24+70=166,故选C.5.
根据如下样本数据:x345678y4.02.50.50.50.40.1得到经验回归方程为y^=b^x+a^,则()A.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0答案B解析根据给出的数据
可发现,整体上y与x呈现负相关,所以b^<0,由样本点(3,4.0)及(4,2.5)可知a^>0.6.某互联网公司借助手机微信平台推广自己的产品,对今年前5个月的月微信推广费用x与月利润额y(单位:百
万元)进行了初步统计,得到下列表格中的数据:x2456822y304060p70经计算,月微信推广费用x与月利润额y满足经验回归方程y^=6.5x+17.5,则p的值为()A.50B.56.5C.60D.70答案A解析由于经验回归直线过样本点的中心,x-=5,y-=200+p5,代入经验回归方
程得200+p5=6.5×5+17.5,解得p=50.故选A.7.某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:每周平均体育锻炼时间不少于4小时),现在用分层随机抽样的方法从中收集2
00位学生每周平均体育锻炼时间的样本数据(单位:小时),将其按[0,2),[2,4),[4,6),[6,8),[8,10),[10,12]进行分组,得到如图所示的频率分布直方图.已知在样本数据中,有40位女生的每周平均体育锻炼时间不少于4小时,根据独立性检验原理,可知()附:χ2=n(
ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.100.050.010.005xα2.7063.8416.6357.879A.有99%的把握认为“该校学生每周平均体育锻炼时间与性别有关”B.有90%的把握认为“
该校学生每周平均体育锻炼时间与性别有关”C.有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”23答案B解析由频率分布直方图可知,平均体育锻炼时间不少于4小时的频率为2×(0.150+0.125+0.075+0.0
25)=0.75,故经常进行体育锻炼的学生有200×0.75=150人.又其中有40位女生的每周平均体育锻炼时间不少于4小时,故有150-40=110位男生经常锻炼.根据分层随机抽样的方法可知,样本中男生的人数为7001000×
200=140,女生的人数为3001000×200=60.列出2×2列联表如下:锻炼情况性别合计男生女生经常锻炼11040150不经常锻炼302050合计14060200故χ2=200×(110×20-40×30)2150×50×140×60≈3.17,因为2.706<3.17<3.
841.故有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”.故选B.8.给出以下四个命题:①在回归分析中,可用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好;②回归模型中残差是实际值yi与
估计值y^的差,残差点所在的带状区域宽度越窄,说明模型拟合精度越高;③在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=
1,2,…,n)都在直线y=-12x+1上,则这组样本数据的线性相关系数为-12;④分类变量x与y的随机变量χ2的值越小,判断“x与y有关系”的把握程度越大.其中真命题的个数为()A.1B.224C.3D.4答案B解析根据决定系数的意义可知①正确;由残差的定义和残差图的绘制可以知道②正确;
相关系数rr=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2i=1n(yi-y-)2反映的是两变量之间线性相关程度的强弱,与经验回归方程的斜率b^=i=1n(xi-x-)(yi-y-)i=1n(x
i-x-)2无关,因为所有样本点都在直线y=-12x+1上,所以样本数据的线性相关系数为-1,故③错误;χ2的值越小,x与y有关系的把握程度越小,故④错误.故选B.二、多项选择题9.(2022·湖南长沙月考)中华人民共和国成立以来,我国文化事业得到了充分发展,尤其是中共十八大
以来,文化事业发展更加迅速,下图是从2016年到2021年六年间我国公共图书馆业机构数与对应年份编号的散点图(为便于计算,将2016年编号为1,2017年编号为2,…,2021年编号为6,把每年的公共图书馆业机构数作为响应变量,把年份编号作为解释变量进行回归分析),得到经验回归方程
为y^=13.743x+3095.7,其R2=0.9817,下列结论正确的是()A.公共图书馆业机构数与年份编号的正相关性较强B.在2017~2021年间,2019年公共图书馆业机构数增加量最多C.公共图书馆业机构数平均每年增加13.7
4325D.可预测2022年公共图书馆业机构数为3190答案AC解析因为散点图中各点散布在从左下角到右上角的区域内,所以为正相关,因为R2=0.9817接近于1,所以公共图书馆业机构数与年份编号的相关性较强,故A正确;由题图可知,在2017~20
21年间,2018年公共图书馆业机构数增加量最多,故B错误;因为经验回归直线的斜率为13.743,所以公共图书馆业机构数平均每年增加13.743,故C正确;将x=7代入经验回归方程y^=13.743x+3095.7,解得y^=3191.901≈31
92,所以可预测2022年公共图书馆业机构数为3192,故D错误.故选AC.10.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相
关关系.某地观测人员根据如表的观测数据,建立了y关于x的经验回归方程y^=0.25x+k,则下列说法正确的是()x(次数/分钟)2030405060y(℃)2527.52932.536A.k的值是20B.变量x,y呈正相关关系C.若x的值增加1,则y的值约增加0.25D.当蟋蟀
52次/分鸣叫时,该地当时的气温预测值为33.5℃答案ABC解析由题意,得x-=15×(20+30+40+50+60)=40,y-=15×(25+27.5+29+32.5+36)=30,则k=y--0.25x-=30-0.25×40=20,故A正确;由
经验回归方程可知,b^=0.25>0,变量x,y呈正相关关系,故B正确;若x的值增加1,则y的值约增加0.25,故C正确;当x=52时,y^=0.25×52+20=33,故D错误.故选ABC.11.因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用26封闭式
管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经
统计得到如下列联表:性别评价满意不满意男2020女4010附表:α0.100.050.0250.0100.001xα2.7063.8415.0246.63510.828附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)以下说法正确的有()A.满意度的调查过程采用了分
层随机抽样的抽样方法B.该学校学生对学校的管理和服务满意的概率的估计值为0.6C.有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D.没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系答案AC解析因为学
校学生男女比例为4000∶5000=4∶5.随机调查的男女比例为40∶50=4∶5,故采用了分层随机抽样的方法,故A正确;满意的频率为20+4090=23≈0.667,所以该学校学生对学校的管理和服务满意的概率的估计值为0.667,故B错误;由列联表得χ2=90×(20×10-2
0×40)240×50×60×30=9>6.635,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,故C正确,D错误.故选AC.12.某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了
27该平台从2013年到2021年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2013年作为第1年)的函数.运用Excel软件,分别选择回归直线和三次函数回归曲线进行拟合,
效果如下图,则下列说法中正确的是()A.销售额y与年份序号x呈正相关关系B.销售额y与年份序号x线性相关显著C.三次函数回归曲线的拟合效果好于回归直线的拟合效果D.根据三次函数回归曲线可以预测2022年“年货节”期间的
销售额约为8454亿元答案ABC解析根据拟合图象知,散点从左下到右上分布,销售额y与年份序号x呈正相关关系,A正确;因为相关系数0.936>0.75,靠近1,所以销售额y与年份序号x线性相关显著,B正确;根据三次函数回归曲线的决定系数0.999>0.936,决定系数越大,拟合
效果越好,所以三次函数回归曲线的拟合效果好于回归直线的拟合效果,C正确;由三次函数y=0.168x3+28.141x2-29.027x+6.889知,当x=10时,y=2698.719亿元,D错误.故选ABC.三、填空题13.为了解某班学生喜爱打篮球是否与性别有关,对本班48人
进行了问卷调查,得到了如下的2×2列联表:性别打篮球合计喜爱不喜爱男生628女生10合计48已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.请将上面的2×2列联表补充完整.答案性别打篮球合计喜爱不喜爱男生22628女生101020合计32
1648解析在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23,故喜爱打篮球的学生共有48×23=32人,因为喜爱打篮球的女生有10人,故喜爱打篮球的男生有22人,结合题意可知不喜爱打篮球的女生有
48-32-6=10人.列联表补充如下:性别打篮球合计喜爱不喜爱男生22628女生101020合计32164814.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.29从这
次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.答案(1)乙(2)数学解析(
1)由图分析,甲的语文成绩名次比其总成绩名次靠后,乙的语文成绩名次比其总成绩名次靠前,故填乙.(2)根据丙在两个图中对应的点的纵坐标,观察易得,丙同学成绩名次更靠前的科目是数学.15.某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的
身高有关,该老师用线性回归分析的方法预测他孙子的身高约为________cm.b^=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2,a^=y--b^x-答案185解析设父亲身高为xcm,儿子身高
为ycm,则x173170176y170176182x-=173,y-=176,b^=0×(-6)+(-3)×0+3×60+9+9=1,a^=y--b^x-=176-1×173=3,所以y^=x+3,当x=182时,y^=185.16.如图是某地区2004年至2020年环
境基础设施投资额y(单位:亿元)的折线图.30为了预测该地区2022年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2004年至2020年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.
4+13.5t;根据2014年至2020年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.利用这两个模型,该地区2022年的环境基础设施投资额的预测值分别为________,________;并且可以判断利用模型____
____得到的预测值更可靠.答案226.1(亿元)256.5(亿元)②解析①y^=-30.4+13.5×19=226.1(亿元),②y^=99+17.5×9=256.5(亿元);当年份为2020时,对于模型①:t=17,y^=-30.4+13.5×17=
199.1(亿元),对于模型②:t=7,y^=99+17.5×7=221.5(亿元),所以②的准确度较高,①偏差较大,所以利用模型②得到的预测值更可靠.四、解答题17.(2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天
空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:PM2.5浓度SO2浓度[0,50](50,150](150,475]31[0,35]32184(35,75]6812(75,115]3710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且S
O2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:PM2.5浓度SO2浓度[0,150](150,475][0,75](75,115](3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=
n(ad-bc)2(a+b)(c+d)(a+c)(b+d),α0.0500.0100.001xα3.8416.63510.828解(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,
因此该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:PM2.5浓度SO2浓度[0,150](150,475][0,75]6416(75,115]1010(3)
零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.由列联表中的数据得χ2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推32断H0不成立,即认为该市一天空气中
PM2.5浓度与SO2浓度有关.18.下面给出了根据我国2014~2020年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2014~2020年的年份代码x分别为1~7).(1)根据散点图分析y与x之间的相关关
系;(2)根据散点图相应数据计算得∑7i=1yi=1074,∑7i=1xiyi=4517,求y关于x的经验回归方程;(系数精确到0.01)(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.附:回归方程y^=a^+b^x中斜率和截距的最小二乘估计公式分别为b^=∑ni=1(xi
-x-)(yi-y-)∑ni=1(xi-x-)2,a^=y--b^x-.解(1)根据散点图可知,散点大致分布在一条从左下角到右上角的直线附近,表明y与x线性相关,并且是正相关.(2)由所给数据计算得x-=17×(1+2
+3+4+5+6+7)=4,∑7i=1(xi-x-)2=28,∑7i=1(xi-x-)(yi-y-)=∑7i=1xiyi-x-∑7i=1yi=4517-4×1074=221,33b^=∑7i=1(xi-x-)(yi-y-)∑7i=1(xi-x-)2=22128≈7.
89,a^=y--b^x-=10747-7.89×4≈121.87,所求经验回归方程为y^=7.89x+121.87.(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明经验回归方程的拟合效果较好.19.(2021·菏泽二模)“十四五”是我国全面建
成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2021年到2025年.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入
,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2,y=eλx+t,其
中α,β,λ,t均为常数,e为自然对数的底数.令ui=x2i,vi=lnyi(i=1,2,…,10),经计算得如下数据:x-=26,y-=215,u-=680,v-=5.36,∑10i=1(xi-x-)2=100,∑10i=1(ui-u-)2=22500,∑
10i=1(ui-u-)(yi-y-)=260,∑10i=1(yi-y-)2=4,∑10i=1(vi-v-)2=4,∑10i=1(xi-x-)(vi-v-)=18.(1)请从相关系数的角度,分析哪一个模型拟合度更好?(2)根据(1)的选择及
表中数据,建立y关于x的回归方程;(系数精确到0.01)(3)若希望2021年盈利额y为500亿元,请预测2021年的研发资金投入额x约为多少亿元?(结果精确到0.01)附:①相关系数34r=∑ni=1(xi-x-)(yi-y-
)∑ni=1(xi-x-)2∑ni=1(yi-y-)2;②回归直线y^=b^x+a^中:b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2,a^=y--b^x-.参考数据:ln2=0.693,ln5
=1.609.解(1)为了判断两个函数模型y=α+βx2,y=eλx+t的拟合程度,只需要判断两个函数模型y=α+βu,v=λx+t的拟合程度即可.设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为
r2,由题意r1=∑10i=1(ui-u-)(yi-y-)∑10i=1(ui-u-)2∑10i=1(yi-y-)2=26022500×4≈0.87,r2=∑10i=1(xi-x-)(vi-v-)∑10i=1(xi-x-)2∑10i
=1(vi-v-)2=18100×4=0.9,显然r2>r1>0,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.(2)先建立v关于x的经验回归方程,由y=eλx+t得lny=λx+t,即v=λx+t,λ=∑10i=1(xi-x-)(vi-v-)∑10i=1(xi-x-)2=1
8100=0.18,t=v--λx-=5.36-0.18×26=0.68,所以v关于x的经验回归方程为v=0.18x+0.68,即lny=0.18x+0.68,所求回归方程为y=e0.18x+0.68.(3)若2021年盈利额为500亿元,即500=e0.18x
+0.68,ln500=0.18x+0.68,6.213=0.18x+0.68,解得x≈30.74,35所以预测2021年的研发资金投入额约为30.74亿元.20.(2021·攀枝花三模)第五代移动通信技术简称5G或5G技术,是最新一代蜂窝移动通信技术,也是继4G系统之后的延伸.为了了解市民对A
,B运营商的5G通信服务的评价,分别从A,B运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如下:A运营商的100名用户的测评得分得分[40,50](50,60](60,70]频率0.180.230.3得分(70,80](80,90](90,100]频率0
.240.030.02(1)根据频率分布直方图,分别求出B运营商的100名用户的测评得分的中位数和平均值(同一组中的数据以该组区间的中点值为代表);(2)填写下面列联表,依据小概率值α=0.01的独立性检验,推断测评得分优秀是否与运营商有关?运营商测评得
分合计优秀非优秀AB合计附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.1000.0500.0250.0100.00136xα2.7063.8415.0246.63510.828解(1)由频率分
布直方图可知B运营商测评得分在区间[40,70]的频率为(0.008+0.016+0.026)×10=0.5,故B运营商测评得分的中位数为70;由频率分布直方图可知B运营商测评得分的平均值为45×0.08+55×0.16+65×0.26+75×0.3+85×0.16+9
5×0.04=69.2.(2)零假设为H0:测评得分优秀与运营商无关.由频率分布表可知A运营商测评得分优秀的有100×(0.24+0.03+0.02)=29个,非优秀的有100×(0.18+0.23+0.3)=71个,由频率分布直方图可知B运营商测评得分优秀的有(0.03+0.016+0.00
4)×10×100=50个,非优秀的有(0.008+0.016+0.026)×10×100=50个,则可得列联表如下:运营商测评得分合计优秀非优秀A2971100B5050100合计79121200则χ2=200×(29×50-71×50)2100×100×79×121≈9.22
7,因为9.227>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为测评得分优秀与运营商有关.