【文档说明】(新教材)2021-2022学年下学期高二暑假巩固练习8 成对数据的统计分析【高考】.docx,共(17)页,621.837 KB,由小赞的店铺上传
转载请保留链接:https://www.doc5u.com/view-0a093f6837a345c8fc6008ad4e13ca8c.html
以下为本文档部分文字说明:
一、单选题.1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若2K的观测值为6.635k=,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.若从统计量中求出有9
5%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误C.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病D.以上三种说法都不正确2.对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是()A.24
310rrrrB.42130rrrrC.42310rrrrD.24130rrrr3.某调查者在调查中获知某公司近年来科研费用支出x(万元)与公司所获得利润y(万元)的统计资料如下表:序号科研费用支出ix利润iyiixy2ix1531155
25暑假练习08成对数据的统计分析2114044012134301201645341702553257596220404合计301801000200则利润y关于科研费用支出x的经验回归方程为()参考公式:1221ˆniiiniixynxybxnx==−=−,ˆˆaybx=−.A.ˆ220
yx=+B.ˆ220yx=−C.ˆ202yx=+D.ˆ202yx=−4.某公司2019年1月至7月空调销售完成情况如图所示,其中x为月份,y为销售量,下面四个回归方程类型中,最适合作为销售量y和月份x的回归方程类型的是()A.ˆyab
x=+B.2ˆyabx=+C.ˆexyab=+D.ˆlnyabx=+5.有两个分类变量X,Y,其列联表如下所示,1Y2Y1Xa20a−2X15a−30a+其中a,15a−均为大于5的整数,若在犯错误的概率不超过005.
的前提下认为X,Y有关,则a的值为()A.8B.9C.8或9D.6或86.下列有关线性回归分析的六个命题:①在回归直线方程ˆ20.5yx=−中,当解释变量x增加1个单位时,预报变量ˆy平均减少05.个单位②回归直线就是散点图中经过样本数据点最多的那条直线③当相关性系数0r时,两个变
量正相关④如果两个变量的相关性越强,则相关性系数r就越接近于1⑤残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高⑥甲、乙两个模型的相关指数2R分别约为088.和080.,则模型乙的拟合效果更好其中真命题的个数为
()A.1个B.2个C.3个D.4个7.已知变量y关于x的非线性经验回归方程为0.5ˆebxy−=,其一组数据如下表所示:x1234ye3e4e5e若5x=,则预测y的值可能为()A.152eB.112eC.7eD.5e二、多选题.8.下列结论正确的是()A.函数关系是一种确定性关系B.相关关系
是一种非确定性关系C.在研究身高与年龄的关系时,散点图中可用横轴表示年龄,纵轴表示身高D.散点图能准确反映变量间的关系9.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据()(),1,2,,iixyin=L,用最小二乘法建立的
回归直线方程为0.8585.71yx=−$,则下列结论中正确的是()A.y与x具有正的线性相关关系B.若该大学女生的平均身高为168cm,则平均体重约为5709kg.C.若该大学某女生身高增加1cm,则其体重约增加085kg.D.若该大学某女生身高为17
0cm,则可断定其体重必为5879kg.10.下列说法,其中正确的是()A.对于独立性检验,2的值越大,说明两事件相关程度越大B.以模型ekxyc=去拟合一组数据时,为了求出回归方程,设lnzy=,将其变换后得到线性方程0.34zx=+,则c,k的值分
别是4e和03.C.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则高一学生被抽到的概率最大D.通过回归直线ˆˆˆybxa=+及回归系数ˆb可以精确反映变量的取值和变
化趋势11.为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,得到如图所示的等高条形统计图,则下列说法中正确的有()A.被调
查的学生中喜欢登山的男生人数比不喜欢登山的女生人数多B.被调查的男生中喜欢登山的人数比不喜欢登山的人数多C.是否有99%的把握认为喜欢登山和性别有关不会受到被调查的男女生人数影响D.是否有99%的把握认为喜欢登山和性别有关会受到被调查的男女生人数
影响12.在检验A与B是否有关的过程中,根据所得数据算得2K的值,则下列说法不正确的是()A.若27879K.,则认为A与B独立,该推断犯错误的概率不超过0001.B.若27879K.,则认为A与B独立,该推断犯错误的概率不超过0005.C.若27879K.,则认为A与
B不独立,该推断犯错误的概率不超过0001.D.若27879K.,则认为A与B不独立,该推断犯错误的概率不超过0005.三、解答题.13.某社区对居民参加体育活动进行随机调查,参与调查的60岁以下和60岁以上的(含60岁)人数如下表:60岁以下60岁以上(含60岁)男性居
民3040女性居民5020(1)判断能否有99.9%的把握认为参加体育活动与性别有关;(2)用分层抽样方法,在60岁以下的居民中抽取8人,再从这8人中随机抽取3人,记抽到的男性居民数为随机变量X,求X的分布列和数学期
望.附:()2PKk0050.0010.0001.k3841.6635.10828.()()()()()22nadbcKabcdacbd−=++++,其中nabcd=+++.14.近期新冠病毒奥密克戎毒株全球蔓延,传染性更强、潜伏期更短、防控难度更大.为落实动态清零
政策下的常态化防疫,某高中学校开展了每周的核酸抽检工作:周一至周五,每天中午13:00开始,当天安排450位师生核酸检测,五天时间全员覆盖.(1)该校教职工有410人,高二学生有620人,高三学生有610人,①用分层抽样的方法,求高一学
生每天抽检人数;②高一年级共15个班,该年级每天抽检的学生有两种安排方案,方案一:集中来自部分班级;方案二:分散来自所有班级.你认为哪种方案更合理,并给出理由.(2)学校开展核酸抽检的第一周,周一至周五核酸抽检
用时记录如下:第x天12345用时y(小时)12.12.11.10.10.①计算变量x和y的相关系数r(精确到001.),并说明两变量线性相关的强弱;②根据①中的计算结果,判定变量x和y是正相关,还是负相关,并给出可能的原因
.参考数据和公式:103.16,相关系数()()()()12211niiinniiiixxyyrxxyy===−−=−−.15.A,B是河道分布密集、水患严重的西部两邻县,从2015年开始,沿海C市对A县对口整治河道,C市2015年对A县河道整治投入40亿元,以后河道整治投入逐
年减少244111010aa−亿元(a是常数,04a).B县则由当地市级机关下派第一书记,单位承包到镇(乡)河道,实行河长负责,市民承包到河段的责任制,下表是从2015年到2019年,对B县以年为单位的河道整治
投入额:投入年份20152016201720182019年分代号t12345年河道整治投入额y(亿元)3024221816(1)用最小二乘法求对B县的河道整治投入额y与投入年份代号t的回归方程;(2)①A,B两
县人口分别为58万和42万,请比较对A,B两县从2015年至2020年这6年人均河道整治投入的大小(对B县2020年的河道整治投入取回归方程的估计值).②统计得出两县2020年河道整治是否达标与人均河道整治投入额分布22列联表(人数单位:万人):未达标达标合计6年的人均河道整治投入
不低于3亿元/万人2038586年的人均河道整治投入低于3亿元/万人241842合计4456100结合此表,是否有975%.把握认为河道整治达标与对当地市民的河道整治投入有关?参考公式及数据:51522155iiiiitytybtt==−=−
$,aybt=−$$,51296iiity==,52155iit==.()()()()()22nadbcKabcdacbd−=++++,nabcd=+++.2K检验临界值表:()20PKk005.0025.0010.0005.0k3841.50
24.6635.7879.16.随着科技进步,近年来,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:年份201620172018201920202021年份代码
x123456新能源乘用车年销售量y(万辆)5078126121137352(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)(2)若用nxyme=模型拟合y与x的关系,可得回归方程为0.3337.71xye=$,经计算该模型和第(1)问中模型的2R(2R为相关指
数)分别为087.和071.,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.参考数据:设lnuy=,其中lniiuy=.yu(
)()61iiixxyy=−−()()61iiixxuu=−−3.63e5.94e6.27e144478.841570.3771.380528参考公式:对于一组具有线性相关关系的数据()()123iixyin=,,,,,,其回归直
线ˆˆˆybxa=+的斜率和截距的最小二乘估计公式分别为()()()121ˆniiiniixxyybxx==−−=−,ˆˆaybx=−.一、单选题.1.【答案】B【解析】对于A,2K的观测值6.635k=时,有99%
的把握认为吸烟与患肺病有关系,不是指“在100个吸烟的人中必有99人患有肺病”,故A错误;对于B,根据独立性原理知,从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误,B正确;对于C,从独立性检验可知有99%的把握认
为吸烟与患肺病有关系时,不能说某人吸烟,那么他有99%的可能性患有肺病,C错误,故选B.2.【答案】B【解析】由题中的散点图可以看出,图1和图3是正相关,相关系数大于0,则10r,30r,图2和图4是负相关,相关系数小于0,则20r,40r,图3和图4的点相对于图1和图2更加集中,所
以相关性较强,所以3r更接近于1,4r更接近于1−,由此可得42130rrrr,故选B.3.【答案】A【解析】由表格数据知:3056x==,180306y==,10006530ˆ2200625b−
==−,ˆ302520a=−=,所求经验回归方程为ˆ220yx=+,故选A.4.【答案】B【解析】对于A,散点显然不符合一次函数的大致图象,A错误;对于B,散点的增长幅度符合二次函数的图象特征,B正确;对于C,以6和7月份为例,66e2.7387,77e2.71045
,无法有一个固定答案与解析的常数,ab,使得对应的ˆy值与散点对应的y值相符,即散点图不符合指数函数模型,C错误;对于D,散点的增长幅度不符合对数函数的大致图象,D错误,故选B.5.【答案】C【解析】因为5a且155a−,aZ,所以6a=或7或8或9,根据公式,得()()()(
)222653015201313603.84120451550204532aaaaa+−−−−==,即2(1360)1595.5a−,当6a=时,22(1360)(13660)3241595.5
a−=−=;当7a=时,22(1360)(13760)9611595.5a−=−=;当8a=时,22(1360)(13860)19361595.5a−=−=;当9a=时,22(1360)(13960)32491595.5a−=−=,即当8a=或9时满足题
意,故选C.6.【答案】B【解析】对于①,根据回归系数的含义,可得回归直线方程ˆ20.5yx=−中,当解释变量x增加1个单位时,预报变量ˆy平均减少05.个单位,故①正确;对于②,回归直线就是散点图中经过样本数据点最多的那条
直线,不正确.回归直线也可能不过任何一个点;故②不正确;对于③,当相关性系数0r时,两个变量正相关,故③正确;对于④,如果两个变量的相关性越强,则相关性系数r的绝对值就越接近于1,故④不正确;对于⑤,残差图中残差
点所在的水平带状区域越宽,则回归方程的预报精确度越低,故⑤不正确;对于⑥,甲、乙两个模型的2R分别约为088.和080.,则模型甲的拟合效果更好,故⑥不正确,则正确的个数为2,故选B.7.【答案】C【解析】由题意,将0.5ˆebxy−=两边同时取对数
,得ln0.5ybx=−,设0.5zbx=−,则x1234z134512342.54x+++==,13453.254z+++==,由0.5zbx=−,得3.252.50.5b=−,解得1.5b=,所以1.
50.5exy−=,所以当5x=时,1.550.57eey−==,故选C.二、多选题.8.【答案】ABC【解析】对于A:因为函数关系是确定关系,所以A正确;对于B:因为相关关系是非确定性关系,所以B正确;对于C:两个变量转换成数据后,一个对应点的横坐标,一个对应点的纵坐标,所以C
正确;对于D:散点图只能大致反映变量间的关系,所以D错误,故选ABC.9.【答案】ABC【解析】根据y与x的线性回归方程为ˆ0.8585.71yx=−,其中0.850,说明y与x具有正的线性相关关系,A正确;
回归直线过样本点的中心(),xy,由0.8516885.7157.09y=−=,B正确;由回归方程知,若该大学某女生身高增加1cm,则其体重约增加0.85kg,故C正确;若该大学某女生身高为170cm,则可预测其体重约为58.79kg,不可断定
其体重必为58.79kg,D错误,故选ABC.10.【答案】AB【解析】由独立性检验得A说法是正确的;B中模型ekxyc=两边取对数得lnlnyckx=+,由线性方程0.34zx=+得40.3,ln4,ekcc===,知c,k的值分别是4e,03.,故B说法正确;根据简单随
机抽样,每个个体被抽到的概率相同,故C错误;回归直线ˆˆˆybxa=+及回归系数ˆb是预测变量的取值和变化趋势,并不是精确反映,故D错误,故选AB.11.【答案】BD【解析】因为不知道被调查的学生中,男生与
女生的人数,所以不能确定喜欢登山的男生人数比不喜欢登山的女生人数多,因此选项A不正确;由统计图中可以确定被调查的男生中喜欢登山的人数的百分比为80%,所以被调查的男生中喜欢登山的人数比不喜欢登山的人数多,因此选项B正确;因为不知道被调查的学生中,男生与女生的人数,所以不能由卡方
公式进行计算判断,所以选项C不正确,选项D正确,故选BD.12.【答案】ABC【解析】当20.0057.879xK=时,我们认为A与B不独立,该推断犯错误的概率不超过0005.,只有D说法正确,故选ABC.三、解
答题.13.【答案】(1)有99.9%的把握认为;(2)分布列见解析,期望为98.【解析】(1)由题意可得()221403020504011.66710.82880607070−=,故有99.9%把握认为参加体育活动与性别有关.(2)60以下居民共80人,其中男性30人
,女性50人,用分层抽样的方法从中抽8人,则男性有830380=人,女性有850580=人,从这3位男性和5位女性中随机抽取3人,抽到的男性居民数可能有0,1,2,3,故X的所有可能取值为0,1,2,3,()35385028CPXC===,()1235
3815128CCPXC===,()21353815256CCPXC===,()33381456CPXC===,X的分布列如下:X0123P52815281556156()5151519012328285
6568EX=+++=.14.【答案】(1)①122人;②方案二,理由见解析;(2)①0.95r−,线性相关性很强;②负相关,理由见解析.【解析】(1)解:①高一学生每天抽检人数为45054106206101225−−−=(人).②方案二更合理,因为新冠病毒奥密克戎毒株传染性更强
、潜伏期更短,分散抽检可以全面检测年级中每班学生的状况,更有利于防控筛查工作.(2)解:①()11234535x=++++=,()11.21.21.1111.15y=++++=,所以()()()()()120.1
10.110.120.10.6niiixxyy=−−=−+−+−+−=−,()21411410niixx=−=+++=,()210.010.010.010.010.04niiyy=−=+++=,变量x和y的相关系数为()()()()122110.630.951
00.0410niiinniiiixxyyrxxyy===−−−−===−−−,因为0.75r,可知两变量线性相关性很强.②由0r可知变量x和y是负相关,可能的原因:随着抽检工作的开展,学校相关管理协调工作效率
提高,因此用时缩短.15.【答案】(1)3.432.2yt=−+$;(2)①对A县的人均河道整治投入大于对B县的人均河道整治投入;②有975%.的把握.【解析】(1)由表可知,3t=,22y=,∵51296iiity==,52155iit==,∴25152215296
53223.455535iiiiitytybtt==−−===−−−$,∴()223.4332.2aybt=−=−−=$$,所以,所求回归方程为3.432.2yt=−+$.(2)①由条件可知,对A县的河道整治总投入()22441165331
010640217422AaaSa−=−=−+(亿元),∴这6年对A县人均河道整治投入为()2331742310658a−+(亿元/万人).对B县2020年的河道整治投入为32.263.411.8y=−=(亿元),∴对
B县的河道整治总投入为52211.8121.8BS=+=(亿元),∴这6年对B县人均河道整治投入为121.82.942=(亿元/万人).所以,对A县的人均河道整治投入大于对B县的人均河道整治投入.②由22列联
表知,()22100201824385.0765.02444565842K−==,所以,有975%.的把握认为河道整治达标与当地市民的河道整治投入有关.16.【答案】(1)4824ˆyx=−;(2)当
回归方程为4824ˆyx=−时,2022年我国新能源乘用车的年销售量的预测值是312万辆;当回归方程为0.3337.71xye=$时,2022年我国新能源乘用车的年销售量的预测值是380万辆.(3)由于相关指数越接
近于1,两个变量之间的关系就强,相应的拟合程度也越好,所以0.3337.71xye=$模型得到的预测值更可靠.【解析】(1)由表中数据得,1234563.56x+++++==,144y=,()()61841iiixxyy=−−=,()()()()()()()22222
221234561niixxxxxxxxxxxxxx=−=−+−+−+−+−+−()()()()()()22222213.523.533.543.553.563.517.5=−+−+−+−+−+−=,()()()1
21841ˆ4817.5niiiniixxyyxxb==−−=−=,ˆˆ144483.524xayb=−=−=−,y关于x的线性回归方程为4824ˆyx=−.(2)由(1)知,y关于x的线性回归方程为4824ˆyx=−,当7x=时,2022年我国新能源乘用车的年
销售量的预测值2ˆ4872431y=−=(万辆);对于回归方程0.3337.71xye=$,当7x=时,2022年我国新能源乘用车的年销售量的预测值:0.3373.632.315.9437.71380yeeee==
==$(万辆).(3)依题意:0.3337.71xye=$模型和第(1)问中模型的2R(2R为相关指数)分别为087.和071.,由于相关指数越接近于1,两个变量之间的关系就强,相应的拟合程度也越好
,所以0.3337.71xye=$模型得到的预测值更可靠.