【文档说明】《2023年高考数学必考考点二轮复习讲义(新高考专用)》第二十二讲统计初步及成对数据的统计分析解析版.docx,共(51)页,2.694 MB,由envi的店铺上传
转载请保留链接:https://www.doc5u.com/view-beb983d773ee6711b1afa66895c2cce8.html
以下为本文档部分文字说明:
第二十二讲:统计初步及成对数据的统计分析【考点梳理】1.统计初步(1)随机抽样:简单随机抽样,分层抽样(2)用样本估计总体:频率分布直方图,样本数字特征(百分位数、平均数、众数、中位数、方差、标准差)特征数具体数字
算法频率分布直方图(表)众数次数出现最多的数字频率最大或最高组的中间值中位数样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数频率等于0.5时的横坐标平均数所有数字之和除以总个数每个小矩形面积乘以
小矩形底边中点的横坐标之和方差2222121[()()()]nSxxxxxxn=−+−++−平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小.标准差、方差越大,数据的离散程度越大,
越不稳定;标准差、方差越小,数据的离散程度越小,越稳定2.成对数据的统计分析(1)相关关系,(2)回归分析,(3)独立性检验【典型题型讲解】考点一:抽样:简单随机抽样分层抽样【典例例题】例1.某工厂利用随机数表对生产的700个零件进行抽样测试,先将70
0个零件进行编号,001,002,……,699,700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是()322118342978645407325242064438122343567735
7890564284421253313457860736253007328623457889072368960804325678084367895355773489948375225355783245778
92345A.623B.328C.253D.007【答案】A【解析】从第5行第6列开始向又读取数据,第一个数为253,第二个数是313,第三个数是457,下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,第四个是007,第五个是328,第六个是6
23.故选:A.例2.2022年7月24日,搭载问天实验舱的长征五号B遥三运载火箭,在我国文昌航天发射场成功发射,我国的航天事业又上了一个新的台阶.某校现有高一学生1000人,高二学生800人,高三学生1200人,为了调查该校学生对我国航天事业的了解程度,现从三
个年级中采用分层抽样的方式抽取60人填写问卷调查,则高三年级有多少人被抽中()A.16B.18C.20D.24【答案】D【解析】由分层抽样原则可知:高三年级应抽取1200602410008001200=+
+人.故选:D.【方法技巧与总结】根据样本数据的特点要判定采用随机简单抽样和分层抽样【变式训练】1.某个年级有男生180人,女生160人,用分层抽样的方法从该年级全体学生中抽取一个容量为68的样本,则
此样本中女生人数为()A.40B.36C.34D.32【答案】D【解析】由题意得:样本中女生人数为1606832180160=+.故选:D2.某中学为了掌握学校员工身体状况,偶尔会采用抽检的方式来收集各部门员工的健康情况.为了让样本更具有代表性,学校对各部门采用分层抽样的方法进行抽检.已知
该校部门A、部门B、部门C分别有40、60、80人,各部门员工不存在交叉任职情况,若共抽检了90人,则部门A抽检人数为______.【答案】20【解析】由题意得从部门A抽检人数为409020406080=++(人
),故答案为:203.某市甲、乙、丙三所学校的高三学生共有800名,其中男、女生人数如下表:甲校乙校丙校男生9790x女生153160y(1)现用分层随机抽样的方法从这三所学校的所有高三学生中抽取48人,则应从丙校抽取多少人?(2)该市模考
后,市教研室准备从这三所学校的所有高三学生中利用随机数法抽取100人进行成绩统计分析,将800人按001,002,…,800进行编号,如果从第8行第7列的数开始向右读,请你依次写出最先抽取的4个人的编号.(下面摘取了随机数表第7行至第9行
)844217533157245506887704744767217633502683926301531659169275381658217071751286735807443913263321134278641607825207443815032442997931【解析】(1)根据题意
可得丙校共有()8009715390160300xy+=−+++=人,根据分层抽样规则可得,应从丙校抽取4830018800=人.(2)第8行第7列的数为1,从数1开始向右读,则最先抽取的4个人的编号
为165,538,707,175.考点二:样本数字特征【典例例题】例1.(2022·广东中山·高三期末)甲、乙两支田径队的体检结果为:甲队体重的平均数为60kg,方差为200,乙队体重的平均数为70kg,方差为300,又已知甲、乙两队的队员人数之比为1:4,那么甲、乙两队
全部队员的平均体重和方差分别是()A.65,280B.68,280C.65,296D.68,296【答案】B【解析】设甲队有a人,甲、乙两队的队员人数之比为1:4,则乙队有4a人,因为甲队体重的平均数为60,乙队体重的平均数为70,则甲、乙两队全部队员的平均体重为60704685aaxa+
==,甲队体重的方差2222121[(60)(60)(60)]200asxxxa=−+−++−=甲222212121[()60260()]aaxxxaxxxa=++++−+++2222121[()60260(60)]200axxxaaa=++++
−=则22221220060axxxaa+++=+乙队体重的方差为22221241[(70)(70)(70)]3004asyyya=−+−++−=乙22221241241[()470270()]4aayyyayy
ya=++++−+++22221241[()470270(704)]3004ayyyaaa=++++−=则22221243004470ayyyaa+++=+甲、乙两队全部队员体重的方差为22222221
2124[(68)(68)(68)][(68)(68)(68)]5aaxxxyyysa−+−++−+−+−++−=222212121[()68268()]5aaxxxaxxxa=++++−++++22221241241[()468268()]5
aayyyayyya++++−+++221[(20060)68268(60)]5aaaaa=++−+221[(3004470)468268(704)]5aaaaa++−264129629655=+=故选:B.例2.(2022·广
东深圳·高三期末)为了分析某次考试的情况,随机抽取了若干学生,将其考试成绩分组为:)60,70,)70,80,)80,90,)90,100,)100,110,)110,120,)120130,,)130140,,140,150,并绘制成如下图所示
的频率分布直方图,据此可估计该次考试成绩的中位数(),1mkk+,则整数k的值为()A.99B.100C.101D.102【答案】B【详解】考试成绩在)90,100内的频率为:()10.0040.0080.0150.0250.0150.0060.0040.002100.21P
=−+++++++=,则前4组考试成绩频率分别为:)60,70,0.04)70,80,0.08)80,90,0.15)90,100,0.21考试成绩的中位数为m,则()0.040.080.150.211000.0250.5m++++−=,()100.8100,101m=100k
=故选:B.例3.(2021·广东汕头·高三期末)某中学为了解学生数学史知识的积累情况,随机抽取150名同学参加数学史知识测试,测试题共5道,每答对一题得20分,答错得0分.得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比
分布图如图所示,则()A.该次数学史知识测试及格率超过90%B.该次数学史知识测试得满分的同学有15名C.该次测试成绩的中位数大于测试成绩的平均数D.若该校共有1500名学生,则数学史知识测试成绩能得优秀的同学大约有720名【
答案】AC【详解】由图知,及格率为18%92%90%−=,故A正确.该测试满分同学的百分比为18%32%48%12%−−−=,即有12%15018=名,B错误.由图知,中位数为80分,平均数为408%6032%8048%10012%72.8
+++=分,故C正确.由题意,1500名学生成绩能得优秀的同学有1500(48%12%)900+=,故D错误.故选:AC例4.2021年7月至2022年7月,我国居民消费价格保持平稳,居民消费价格涨跌幅如图所示,则()备注:同比增长率=1
00%当月消费价格-去年同期消费价格去年同期消费价格,环比增长率=100%当月消费价格-上月同期消费价格上月同期消费价格,A.2022年1月全国居民消费价格比2021年1月全国居民消费价格有所下降B.2022年5月全国居民消费价格比2022年4月全国居民消费价格有所上升C.2021年7月至20
22年7月全国居民消费价格同比增长率的40%分位数为1.0%D.2021年10月至2022年7月全国居民消费价格环比增长率的平均数为0.25%【答案】D【解析】对A,从图中可以看出2022年1月全国居民消费
价格的同比增长率为0.9%0,所以2022年1月全国居民消费价格有所上升,故A错误;对B,由图2022年5月全国居民消费价格环比增长率为0.2%0−,所以2022年5月全国居民消费价格有所下降,故B错误;对C,将C选项中的数据由小到大排列得,0.7
%,0.8%,0.9%0.9%,1%,1.5%,1.5%,1.5%,2.1%,2.1%,2.3%,2.5%,2.7%,因为1340%5.2=,则同比增长率的40%分位数为第6个数1.5%,故C错误;对D,环比增长率的平均数为0.7%0.4%0.3%0.4%0.6
%0.4%0.2%0.5%0.25%10+−+++−+=,故D正确.故选:D【方法技巧与总结】1、频率分布直方图(1)利用频率分布直方图求频率、频数;(2)利用频率分布直方图估计总体.(3)频率分布直方图的纵坐标是频率除
以组距,而不是频率.2、百分位数计算一组n个数据的的第p百分位数的步骤①按从小到大排列原始数据.②计算00inp=.③若i不是整数而大于i的比邻整数j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i
项与第1i+项数据的平均数.【变式训练】1.(2022·广东东莞·高三期末)气象意义上从春季进入夏季的标志为“当且仅当连续5天每天日平均温度不低于22C”.现有甲、乙、丙三地连续5天日平均温度的记录数据(数据均为正整数
,单位C)且满足以下条件:甲地:5个数据的中位数是24,众数是22;乙地:5个数据的中位数是27,平均数是24;丙地:5个数据有1个是30,平均数是24,方差是9.6;根据以上数据,下列统计结论正确的是()A
.甲地进入了夏季B.乙地进入了夏季C.不能确定丙地进入了夏季D.恰有2地确定进入了夏季【答案】AC【详解】甲地:5个数据由小到大排,则22,22,24,a,b,其中24ab,满足进入夏季的标志;乙地:将5个数据由小到大排,则a,b,27,c,d,
其中27abcd,则2781cd++,而27120abcd++++=,故39ab+,其中必有一个小于22,故不满足一定进入夏季的标志;丙地:设5个数据为a,b,c,d,30,且,,,abcdZ,由方差公式可知:()()(
)()()222222424242430249.6548abcd−+−+−+−+−==,则()()()()222224242424129111abcd−+−+−+−==+++,不妨设243a−=,261b−=,26261cd−=−=,
则b,c,d均大于22,但a不确定是否大于22,故不能确定丙地进入夏天.故选:AC.2.如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是()A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近200
0万件B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎
来喷涨有关【答案】B【解析】从图(1)的柱形图可得2019年1~4月份快递业务量3月份最高,2月份最低,3月份比2月份高4397-2411=1986,差值接近2000万件,故A正确.从1~4月份来看,业务量与业务收入
有波动,结合图(1)(2)中的柱形图可得业务量与业务收入在2月份和4月份均下降,故B错误.从两图中柱状图可得业务量与业务收入变化高度一致,但业务量2月份同比增长53%,而业务收入2月份同比增长30%,因此增量与增长速度
并不完全一致,故C正确.从图(1)中可得2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,这的确和春节后网购迎来喷涨有关,故D正确.故选:B.3.(2022·广东清远·高三期末)某学校组织了一次劳动技能大赛,共有100名学生参赛,经过评判,这100名参赛者的得
分都在[40,90]内,得分60分以下为不及格,其得分的频率分布直方图如图所示(按得分分成[40,50),[50,60),[60,70),[70,80),[80,90]这五组),则下列结论正确的是()A.直方图中0.005a=B.此次比赛得分不及格
的共有40人C.以频率为概率,从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5D.这100名参赛者得分的中位数为65【答案】ABC【详解】因为(0.010.020.030.035)101++++
=a,所以0.005a=,所以A正确;因为不及格的人数为100(0.0050.035)1040+=,所以B正确;因为得分在[60,80)的频率为(0.030.02)100.5+=,所以从这100名参赛者中随机选取1人,其得分在[60,80)
的概率为0.5,所以C正确;这100名参赛者得分的中位数为0.160650.03+,所以D错误.故选:ABC.4.(2022·广东汕头·一模)在党史学习教育动员大会上,习近平总书记强调全党同志要做到学史明理、学史增信、学史崇德,学史力行.某单位对200
名党员进行党史知识测试,将成绩分成6组:)70,75,)75,80,)80,85,)85,90,)90,95,95,100,得到如图所示的频率分布直方图,则=a______.【答案】0.050【详解】由(0.0200.0250.0300.0350
.040)51a+++++=,解得0.050a=,故答案为:0.0505.(2022·广东广东·一模)(多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图
(如图):根据此频率分布直方图,下面结论中正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入的中位数约为7.5万元C.估计该地有一半以上的农户,其家庭年收入介于4.5万元至
8.5万元之间D.估计该地农户家庭年收入的平均值不超过6.5万元【答案】.ABC【详解】解:对于A,该地农户家庭年收入低于4.5万元的农户得频率为0.020.040.066%+==,所以比率估计为6%,故A正确;对于B,因为0.020.040.100.140
.200.5++++=,所以该地农户家庭年收入的中位数约为7.5万元,故B正确;对于C,家庭年收入介于4.5万元至8.5万元之间频率为0.100.140.200.200.640.5+++=,所以估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故C正
确;对于D,该地农户家庭年收入的平均值为30.0240.0450.160.1470.280.290.1++++++100.1110.04120.02130.02140.027.686.5+++++=,所以估
计该地农户家庭年收入的平均值超过6.5万元,故D错误.故选:ABC.6.(2022·广东韶关·一模)(多选)在一次演讲比赛中,以下表格数据是5位评委给甲、乙两名选手评出的成绩,则下列说法正确的是()甲乙869
09592879188938895A.甲选手成绩的极差大于乙选手成绩的极差B.甲选手成绩的中位数小于乙选手成绩的中位数C.甲选手成绩的方差小于乙选手成绩的方差D.甲选手成绩的平均数小于乙选手成绩的平均数【答案】AB
D【详解】对于A:根据极差的概念,可知甲选手成绩的极差为9,乙选手成绩的极差为7.故A正确;对于B:易知甲成绩的中位数是90,乙成绩的中位数是91.故B正确;对于C:甲选手成绩的平均数为()18687909295905
++++=,方差为22222154(8690)(9090)(9590)(9290)(8790)55−+−+−+−+−=乙选手成绩的平均数为()18888919395915++++=,方差为22222138(8891)(8891)(9191)(9391)(95
91)55−+−+−+−+−=.故C错误;对于D:由于甲选手成绩的平均数为90,乙选手成绩的为91.故D正确.故选:ABD.7.某市政府为了节约生活用水,实施居民生活用水定额管理政策,即确定一个居民月用水量标准x(单位:吨),用水量不超过x的部分按平价收费,超出x
的部分按议价收费,并随机抽取部分居民进行调查,抽取的居民月均用水量的频率分布直方图如图所示.(同一组中的数据以该组区间的中点值为代表)(1)求频率分布直方图中a的值;(2)试估计该市居民月均用水量的众数、平均数;(3)如果希望85%的居民月均
用水量不超过标准x,那么标准x定为多少比较合理?【解析】(1)由频率分布直方图中所有矩形的面积之和为1,可得()0.0820.1620.40.520.120.040.51a++++++=,解得0.3a=.(2)由频率分布直方图可
知,该市居民月均用水量的众数约为22.52.252+=(吨),由频率分布直方图可知,平均数约为0.250.040.750.081.250.15++1.750.22.250.262.750.153.250.06++++3.750.044
.250.022.035++=(吨).(3)由频率分布直方图可知,月均用水量低于2.5吨的居民人数所占的百分比为()0.50.080.160.30.40.52100%73%++++=,月均用水量低于3吨的居民人数所占的百分比为73%0.50.3100%88%
+=,所以()2.5,3x,由题意可得()0.732.50.30.85x+−=,解得2.9x=.所以如果希望85%的居民月均用水量不超过标准x,那么x定为2.9吨比较合理.8.随着新冠肺炎疫情的稳定,各地的经济均呈现缓慢的恢复趋势,为了更进一步做好疫情的防控工作,避免疫情的再度爆发,
A地区规定居民出行或者出席公共场合均需佩戴口罩,现将A地区20000个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在6以上(含6)的有14000人.口罩使用数量[2,4)[4,6)[6,8)[8,10)[10,12]频率0.2m0.3n0.1(1)求m,n的值;(2)根据
表中数据,完善上面的频率分布直方图;(3)计算A地区居民一周口罩使用个数的平均数以及方差.【解析】(1)由已知140000.30.10.320000n=−−=,60000.20.120000m=−=;(2)频率分布直方图
如下:(3)由频率分布直方图得一周内使用口罩的平均数为30.250.170.390.3110.17x=++++=,方差为2s=222220.2(37)0.1(57)0.3(77)0.3(97)0.1(117)6.4−+
−+−+−+−=.考点二:回归分析【典例例题】例1.(2022·广东汕尾·高三期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源汽车的年销售量与年价的统计
表年份20162017201820192020年销售量(万台)812152025根据上表,利用最小二乘法,新能源汽车的年销售量y万台关于年份x的线性回归方程为______.参考数据:51()()(2)(8)(1)(4)142942,iiixxyy=−−=−−+−−++=521()4114
10,42201784714,42201884756.iixx=−=+++===附:对于一组数据1122(,),(,),,(,)nnxyxyxy,其回归直线ˆˆybxa=+的斜率和截距的最小二乘估计分别为:121()(),()niiiniixxyyba
ybxxx==−−==−−.【答案】.4.259.6ˆ84yx=−【详解】2016201720182019202020185x++++==,812152025165y++++==故()()()5152142ˆ4.210iiiiixxyybxx==−−=
==−,ˆˆ164.220188459.6aybx=−=−=−,所以线性回归方程为4.259.6ˆ84yx=−故答案为:4.259.6ˆ84yx=−例2.(2022·广东·铁一中学高三期末)2020年1月底,为严
防新型冠状病毒疫情扩散,有效切断病毒传播途径,坚决遏制疫情蔓延势头,确保人民群众生命安全和身体健康,多地相继做出了封城决定.某地在1月23日至29日累计确诊人数如下表:日期(1月)23日24日25日26
日27日28日29日人数(人)611213466101196由上述表格得到如散点图(1月23日为封城第一天).(1)根据散点图判断yabx=+与xycd=(c,d均为大于0的常数)哪一个适宜作为累计确诊人数y与封城后的天数x的回归方程类型(给出判断即可,不必说明
理由);并根据上表中的数据求出回归方程;(2)随着更多的医护人员投入疫情的研究,2月20日武汉影像科医生提出存在大量核酸检测呈阴性(阳性则确诊),但观其CT肺片具有明显病变,这一提议引起了广泛的关注,2月20日武汉疾控中心接收了1000份血液样本,假设每份样本的
检验结果是阳性还是阴性都是相互独立的,且每份样本是阳性样本的概率为0.7,核酸试剂能把阳性样本检测出阳性结果的概率是0.99(核酸检测存在阳性样本检测不出来的情况,但不会把阴性检测呈阳性),求这1000份样本中检测呈阳性的份数的期望.参考数据:yw71iiixy=71iiixw=0.5
41062.141.54253550.123.47其中lgiiwy=,7117iiww==,参考公式:对于一组数据()11,uw,()22,uw,…,(),nnuw,其回归直线wu=+的斜率和截距的
最小二乘估计公式分别为1221niiiniiuwnuwunu==−=−,wu=−.【答案】(1)由散点图可知选择xycd=,由xycd=两边同时取常用对数得lglglgycdx=+,设lgyw=,lglgwcdx=+.计算4x=,1.54w
=,721140iix==,7172221750.12741.547ˆlg0.2514074287iiiiixwxwdxx==−−====−−,把样本中心点()4,1.54代入lglgwcdx=+得lg0.54c=.0.540.25wx=+,y
关于x的回归方程为0.253.4710xy=;(2)这1000份样本中检测呈阳性的份数为X,则每份检测出阳性的概率0.70.990.693P==,由题意可知()1000,0.693XB,()10000.693693EX==(人),故这100
0份样本中检测呈阳性份数的期望为693人.【方法技巧与总结】1.线性回归方程的求法;2.非线性回归方程要通过换元换成线性回归方程.【变式训练】1.(2022·广东深圳·一模)某人工智能公司近5年的利润情况如下表所示:第x年12345利润y
/亿元23457已知变量y与x之间具有线性相关关系,设用最小二乘法建立的回归直线方程为1.2yxa=+,则下列说法正确的是()A.ˆ0.6a=B.变量y与x之间的线性相关系数0rC.预测该人工智能公司第6年的利润约为7.8亿元D.该人工智能公司这5年的利润的方差小于2【答
案】.AC【详解】解:依题意()11234535x=++++=,()1212345755y=++++=,因为回归直线方程为1.2yxa=+必过样本中心点(),xy,即211.235a=+,解得0.6a=,故A正确;则回归直线方程为1.20.6yx=+,则x与y成正相关,即相关系
数0r,故B错误,当6x=时1.260.67.8y=+=,即该人工智能公司第6年的利润约为7.8亿元,故C正确,该人工智能公司这5年的利润的方差为22222121212121217423457255555525−+−+−+−+−=
,故D错误;故选:AC2.(2022·广东惠州·二模)某地建立了农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:年份2016201720182019
2020年份代码x12345年借阅量y/万册4.95.15.55.75.8根据上表,可得y关于x的线性回归方程为ˆˆ0.24yxa=+,则()A.ˆ4.68a=B.估计近5年借阅量以0.24万册/年的速度增长C.
y与x的样本相关系数0rD.2021年的借阅量一定不少于6.12万册26.(2022·广东汕头·二模)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是()A.相关系数r变大B.残差平方和变大C.相关指数R2变小D.解释变量x与预报变量y
的相关性变强【答案】AD【详解】由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,所以相关系数r的值变大,相关指数R2的值变大,残差平方和变小.故选:AD.3.(2022·广东·金山中学高三期末)20
21年,我国脱贫攻坚战取得了全面胜利.为了巩固拓展脱贫攻坚成果,不断提高群众的幸福感,某县继续推进山羊养殖项目.为了建设相应的配套项目,该县主管部门对该县近年来山羊养殖业的规模进行了跟踪调查,得到了该县每年售卖山羊数量y(单位:万只)与相应年份代码x的数据如下表:年份2
01520162017201820192020年份代码x123456售卖山羊数量y(万只)111316152021(1)由表可知y与x有较强的线性相关关系,求y关于x的线性回归方程;(2)已知该县养殖的山羊品种只
有甲、乙两种,且甲品种山羊与乙品种山羊的数量之比为2:3,甲品种山羊达到售卖标准后的出售价为2500元/只,乙品种山羊达到售卖标准后的出售价为2700元/只.为了解养殖山羊所需要的时间,该县主管部门随机抽取了甲品种山羊和乙品种山羊各100只进行调查,得到要达到售卖标准所需的养殖时间如下
表:养殖时间(月数)6789甲品种山羊(只)20353510乙品种山羊(只)10304020以上述样本统计的养殖山羊所需时间情况估计全县养殖山羊所需时间(即以各养殖时间的频率作为各养殖时间的概率),且每月每只山羊的养殖成本为300元,结合(1)中所求回归方程,试求2022年
该县养殖山羊所获利润的期望(假设山羊达到售卖标准后全部及时卖完).(利润=卖山羊的收入一山羊的养殖成本)参考公式及数据:回归直线方程为ybxa=+$$$,其中()()()1122211nniiiiiinniiiixxyyxynxybxxxnx====−−−==−−,ˆa
ybx=−.【答案】.(1)ˆ29yx=+;(2)8800万元.【详解】(1)因为1234563.56x+++++==,111316152021166y+++++==,所以()()()()()()()()2222222.551.530.500.511.542.5535ˆ217.52.51.50.
50.51.52.5b−−+−−+−+−++===−+−+−+++,可得ˆ1623.59a=−=.所以y与x之间的线性回归方程为ˆ29yx=+.(2)由()1可知,当8x=时,可得ˆ25y=,其中甲品种山羊有2251
05=万只,乙品种山羊有325155=万只.由频率估计概率,可得甲品种山羊达到售卖标准需要的养殖时间为6个月,7个月,8个月和9个月的概率分别为0.2,0.35,0.35和0.1,所以甲品种山羊要达到售卖标准需要养殖时间的期望为60.270.3580.359
0.17.35+++=(月).由频率估计概率,可得乙品种山羊达到售卖标准需要的养殖时间为6个月,7个月,8个月和9个月的概率分别为0.1,0.3,0.4和0.2,所以乙品种山羊要达到售卖标准需要养殖时间的期望为60.170.38
0.490.27.7+++=(月).养殖每只甲品种山羊利润的期望为25007.3530025002205295−=−=(元),养殖每只乙品种山羊利润的期望为27007.730027002310390−=−=
(元),故2022年该县售卖的山羊所获利润的期望为10295153908800+=(万元).4.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出
决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.月份x12345销售量y(万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:2ˆˆˆyuxv=+.(1)根据所给数据与回归模型,求y关于x的回归方程(ˆu的值精确
到0.1);(2)已知该公司的月利润z(单位:万元)与x,y的关系为5224yzxx+=−,根据(1)的结果,问该公司哪一个月的月利润预报值最大?参考公式:对于一组数据()()()1122,,,,,,nnxyxyxy,其回
归直线ˆˆˆybxa=+的斜率和截距的最小二乘估计公式分别为()()()121ˆniiiniixxyybxx==−−=−,ˆˆaybx=−.【答案】.(1)20.25yx=+;(2)第9个月的月利润预报值最大(1)令2wx=,则1491625115w++++==,4.95.86.88
.310.27.25y++++==,()()()()()()()()()()()()()1522221522102.371.420.451.114381.10.237411141191116112511
iiiiiwyyuwww==−−−−+−−+−−++===−+−+−+−+−−,ˆ7.20.2115vybw=−=−=,所以y关于x的回归方程为20.25yx=+;(2)由(1)知:20.25yx=+,()23250.25
25227242424xyzxxxxxxx+++=−=−=−−,令()()3227240hxxxxx=−−,()()()()322391327123242702222xxxxxxxxxxxxhx−−−+−++=−+=
=令()0hx得:09x,令()0hx得:9x,令()0hx=得:9x=,所以()()3227240hxxxxx=−−在9x=处取得极大值,也是最大值,()()max97279362hxh=−−==
所以第9个月的月利润预报值最大.5.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y(单位:千万吨标准煤)的数据表格:年份20162017201820192020年份代号x12345能源消费总量近似值y(单位:千万
吨标准煤)442456472488498以x为解释变量,y为预报变量,若以11ˆybxa=+为回归方程,则相关指数210.9946R,若以22ˆlnyabx=+为回归方程,则相关指数220.9568R.(1)
判断11ˆybxa=+与22ˆlnyabx=+哪一个更适宜作为能源消费总量近似值y关于年份代号x的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程.参考数据:512356iiy==,517212iiixy==.参考公式:回归
方程ˆˆˆybxa=+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆnniiiiiinniiiixxyyxynxybxxxnx====−−−==−−,ˆˆaybx=−.【答案
】.(1)11ˆybxa=+更适宜作为y关于x的回归方程,答案见解析;(2)ˆ14.4428yx=+.(1)因为2212RR,所以11ˆybxa=+更适宜作为y关于x的回归方程.(2)1234535x++++==,522222211234555iix==++++=.511522123565
721253514.455595iiiiixyxybxx==−−===−−,1235614.434285a=−=,所以以x为解释变量,y为预报变量的回归方程为ˆ14.4428yx=+.6.(2022·广东潮州·二模)我
国在芯片领域的短板有光刻机和光刻胶,某风险投资公司准备投资芯片领域,若投资光刻机项目,据预期,每年的收益率为30%的概率为p,收益率为10−%的概率为1p−;若投资光刻胶项目,据预期,每年的收益率为30%的概率为0.4,收益率为20−
%的概率为0.1,收益率为零的概率为0.5.(1)已知投资以上两个项目,获利的期望是一样的,请你从风险角度考虑为该公司选择一个较稳妥的项目;(2)若该风险投资公司准备对以上你认为较稳妥的项目进行投资,4年累计投资数据如下表:年份x2018201
9202020211234累计投资金额y(单位:亿元)2356请根据上表提供的数据,用最小二乘法求出y关于的线性回归方程ˆˆˆyba=+,并预测到哪一年年末,该公司在芯片领域的投资收益预期能达到0.75亿元.附:收益=投入的资金×获利的期望
;线性回归ˆˆˆybxa=+中,()()()1122211ˆnniiiiiinniiiixxyyxynxybxxxnx====−−−==−−,ˆˆaybx=−.【答案】.(1)该风投公司投资光刻胶项目;(2)ˆ1.40.5y=+;2022年年末.(1)若
投资光刻机项目,设收益率为1,则1的分布列为10.30.1−Pp1p−所以()()()10.30.110.40.1Eppp=+−−=−.若投资光刻胶项目,设收益率为2,则2的分布列为20.30.
2−0P0.40.10.5所以()()20.30.40.20.100.50.1E=+−+=.因为投资以上两个项目,获利的期望是一样的,所以0.40.10.1p−=,所以12p=.因为()()()221110.30.10.10.10
.0422D=−+−−=,()()()()22220.30.10.40.20.10.100.10.50.03D=−+−−+−=,所以()()12EE=,()()12DD,这说明光刻机项目和光刻胶项目获利
相等,但光刻胶项目更稳妥.综上所述,建议该风投公司投资光刻胶项目.(2)12342.54+++==,235644y+++==,411223354647iiiy==+++=,4222221123430ii==+++=,则
414222144742.541.43042ˆ.54iiiiiyyb==−−===−−,41.42.5ˆ0.5ˆayb=−=−=,故线性回归方程为ˆ1.40.5y=+.设该公司在芯片领域的投资收益为Y,则()0.11.40.50.75Y=+,解得5,故在20
22年年末该投资公司在芯片领域的投资收益可以超过0.75亿元.7.在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面
是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:旅游类别城市展馆科技游乡村特色游齐鲁红色游登山套票游园套票观海套票套票价格x(元)394958677786购买数量y(万人)16.718.720.622.524
.125.6在分析数据、描点绘图中,发现散点()()ω16iivi,集中在一条直线附近,其中lnωlniiiivxy==,附:①可能用到的数据:666621111ω75.324.6ω18.3101.4iiiiiiiiivvv========,,,.②对于一组数据
()()()1122ωωωnnvvv,,,,,,,其回归直线ˆˆˆbva=+的斜率和截距的最小二乘估计值分别为2121ˆˆˆniniiiivnvbabvvnv==−==−−,(1)根据所给数据,求y关于x的回归方程;(2)按照文旅部
门的指标测定,当购买数量y与套票价格x的比在区间ee97,上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.【解析】(1)散点()()ω16iivi
,集中在一条直线附近,设回归直线方程为ˆˆˆbva=+由6611114.13.0566iiiivv======,,则1122275.364.13.051101.46412ˆniiiiinvnvbvnv==−−===−−.,1ˆˆ3.054.112abv=−
=−=,变量ω关于v的回归方程为1ω12v=+,lnωlniiiivxy==,,1lnln12yx=+,12eyx=,综上,y关于x的回归方程为12eyx=;(2)由1212eeee97yxxxx==,,解得4981x剟,49586777x=,,,,乡村特色游,齐
鲁红色游,登山套票,游园套票为“热门套票”,则三人中购买“热门套票”的人数X服从超几何分布,X的可能取值为123,,,1221342424333666CCCCC131(1)(2)(3)C5C5C5PXPXPX=========,,
X的分布列为:X123P153515131()1232555EX=++=.考点三:独立性检验【典例例题】例1.(2022·广东揭阳·高三期末)每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:公司
文史男文史女理工男理工女甲10102010乙1520105分析毕业生的选择意愿与性别的关联关系时,已知对应的2K的观测值11.010k;分析毕业生的选择意愿与专业关联的2K的观测值29.090k,则下列说法正确的是()()20PKk
…0.40.050.0250.010.0050.0010k0.7083.8415.0246.6357.87910.828A.有99.9%的把握认为毕业生的选择意愿与专业相关联B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些C.理科专业的学生更倾向于选
择乙公司D.女性毕业生更倾向于选择甲公司【答案】B【详解】解:与专业关联的2K的观测值29.090k,明显大于7.879,明显小于10.828,所以有10.00599.5%−=的把握认为毕业生的选择意愿与专业相关联,所以A不正确;因为21kk,故B正确;根据题中
的数据表列出专业与甲、乙公司的关联表可知,理科专业的学生更倾向于选择甲公司,列出性别与甲、乙公司的关联表可知,女性毕业生更倾向于选择乙公司,所以C,D均不正确.故选:B.例2.(2021·广东汕头·高三期末)某土特产超
市为预估2022年元旦期间游客购买土特产的情况,对2021年元旦期间的90位游客购买情况进行统计,得到如下人数分布表:购买金额(元)[0,150)[150,300)[300,450)[450,600)[600,750)[750,900]人数101520152010(1)根据以上数据完成22列联
表,并判断是否有95%的把握认为购买金额是否少于600元与性别有关.不少于600元少于600元合计男40女18合计(2)为吸引游客,该超市推出一种优惠方案:购买金额不少于600元可抽奖3次,每次中奖概率为P(每次抽奖互不影响,且P的值等于人数分布表中购买金额不少于600元的频率),中奖1次
减50元,中奖2次减100元,中奖3次减150元.若游客甲计划购买800元的土特产,请列出实际付款数X(元)的分布列并求其数学期望.附:参考公式和数据:22(),.()()()()nadbcKnabcdabcdacbd−==+++++++附表:0k2.0722
.7063.8416.6357.87920()PKk0.1500.1000.0500.0100.005【答案】.(1)填表见解析;有(2)分布列见解析;期望为750(1)22列联表如下:不少于600元少于600元合计男
124052女182038合计306090()22901220401830605238K−=14405.8303.841247=,因此有95%的把握认为购买金额是否少于600元与性别有关.(2)X可能取值为650
,700,750,800,且10201903p+==,()33311650()327PXC===,()223122700()339PXC===,()123124750()339PXC===,()03328800()327PXC===,所以X的分布列为X6507007
50800P12729498271248()650700750800750279927EX=+++=.【方法技巧与总结】独立性检验独立性【变式训练】1.(2022·广东潮州·高三期末)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、
厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气日落云里走下雨不下雨临界值表20()PKk
0.100.050.0100.001出现255不出现25450k2.7063.8416.63510.828并计算得到219.05K=,下列小明对地区A天气判断正确的是()A.夜晚下雨的概率约为15B.未出现“日落云里走”,但夜晚下雨的概率约为514C.出现“日落云里走”,
有99.9%的把握认为夜晚会下雨D.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关【答案】BD【详解】由题意,把频率看作概率可得夜晚下雨的概率252511002+=,A错误;未出现“日落云里走”,但夜晚下雨的概率约为255254514=+,B正确;
由219.0510.828K=,所以可知有99.9%的把握认为“日落云里走’是否出现”与“当晚是否下雨”有关,故D正确,C错误.故选:BD2.(2022·广东湛江·一模)某市为了研究该市空气中的PM2.5浓度和2S
O浓度之间的关系,环境监测部门对该市空气质量进行调研,随机抽查了100天空气中的PM2.5浓度和2SO浓度(单位:3g/m),得到如下所示的2×2列联表:2SOPM2.5[0,150](150,475][0,75]6416(75,1
15]1010经计算2100(64101610)7.484480207426k−=,则可以推断出()附:22()()()()()nadbcKabcdacbd−=++++()20PKk0
.0500.0100.0010k3.8416.63510.828A.该市一天空气中PM2.5浓度不超过375μg/m,且2SO浓度不超过3150μg/m的概率估计值是0.64B.若2×2列联表中的天数都扩大到原来的10倍,2K的观测值不会发生变化
C.有超过99%的把握认为该市一天空气中PM2.5浓度与2SO浓度有关D.在犯错的概率不超过1%的条件下,认为该市一天空气中PM2.5浓度与2SO浓度有关【答案】.ACD【详解】补充完整列联表如下:2SOPM2.5[0,150](
150,475]合计[0,75]641680(75,115]101020合计7426100对于A选项,该市一天中,空气中PM2.5浓度不超过375g/m,且2SO浓度不超过3150g/m的概率估计值为640.64100=,故A正确;对于B选项,222()1000(640100160100)74
.8447.4844()()()()800200740260nadbcKabcdacbd−−==++++,故B不正确;因为7.4844>6.635,根据临界值表可知,在犯错的概率不超过1%的条件下,即有超过99%的把握认为该市一天空气中PM2
.5浓度与2SO浓度有关,故C,D均正确.故选:ACD.3.(2022·广东清远·高三期末)某市为积极响应上级部门的号召,通过沿街电子屏、微信公众号等各种渠道对抗疫进行了深入的宣传,帮助全体市民深入了解新型冠状病毒,增强战胜疫情的信心.为了检验大家对新型冠状病
毒及防控知识的了解程度,该市推出了相关的问卷调查,随机抽取了年龄在18~99岁之间的200人进行调查,把年龄在[18,65]和[66,99]内的人分别称为“青年人”和“中老年人”.经统计,“青年人”和“中老年人”的人数之比为2∶3,其中“青年人”中有50%的人
对防控的相关知识了解全面,“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1.(1)根据已知条件,完成下面的22列联表,并根据统计结果判断是否有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识.
了解全面了解不全面合计青年人中老年人合计(2)用频率估计概率从该市18~99岁市民中随机抽取3位市民,记抽出的市民对防控相关知识了解全面的人数为X,求随机变量X的分布列与数学期望.附表及公式:22()()()()()nadbcKabcdacbd−=++++
,其中nabcd=+++.()2PKk0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828【答案】.(1)表格见解析,有(2)分布列见解析
,9()=5EX(1)解:(1)因为“青年人”和“中老年人”的人数之比为2∶3,所以“青年人”和“中老年人”的人数分别为80和120,因为“青年人”中有50%的人对防控的相关知识了解全面,所以“青年人”
中对防控的相关知识了解全面的有40人,了解不全面的有40人,因为“中老年人”中对防控的相关知识了解全面和了解不全面的人数之比是2∶1,所以“中老年人”中对防控的相关知识了解不全面的有80人,了解不全面的有40人,22列联表如下:了解全面了解不全面合计青年人
404080中老年人8040120合计12080200因为22200(40404080)505.5563.84112080801209−==K,所以有95%的把握认为“中老年人”比“青年人”更加了解防控的相关知识;(
2)解:用样本估计总体可知,从该市18~99岁市民中随机抽取1人,抽到的市民对防控相关知识了解全面的概率为35,所以随机变量33,5XB,随机变量X可取0,1,2,3,因为320133383336(0)1,(1)1512555125==−===
−=PXCPXC,2323333354327(2)1,(3)551255125==−====PXCPXC,所以X的分布列为X0123P812536125541252
71259()5==EXnp.4.(2022·广东茂名·一模)为了增强学生体质,茂名某中学的体育部计划开展乒乓球比赛,为了解学生对乒乓球运动的兴趣,从该校一年级学生中随机抽取了200人进行调查,男女人数相同,其中女生对乒乓球运
动有兴趣的占80%,而男生有15人表示对乒乓球运动没有兴趣.(1)完成2×2列联表,并回答能否有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”?有兴趣没兴趣合计男女合计(2)为了提高同学们对比赛的参与度,比赛分两个阶段进行.第
一阶段的比赛赛制采取单循环方式,每场比赛采取三局二胜制,然后由积分的多少选出进入第二阶段比赛的同学,每场积分规则如下:比赛中以2:0取胜的同学积3分,负的同学积0分;以2:1取胜的同学积2分,负的同学积1分.其中,小强同学和小明同学的比赛倍受关
注,设每局小强同学取胜的概率为23p=,记小强同学所得积分为X,求X的分布列和期望.附表:P(K2≥k0)0.500.400.250.1500.1000.050k00.4550.7801.3232.0722.7063.841()22()()()()()nadbcKnabcdabc
dacbd−==+++++++参考公式:【答案】.(1)表格见解析,没有;(2)分布列见解析,5627.(1)由题意得到如下的2×2列联表,有兴趣没兴趣合计男8515100女8020100合计16535200()22
200852080150.86616535100100K−=,由表格得到0.8662.706,所以没有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”.(2)由题意,知0,1,2,3X=,()221
0139PX==−=;()1222241(1)3327PxC==−=;()1222282(1)33327PXC==−=;()224339PX===,所以X的分布为X0123P1942782749所以
期望()1484560123=92727927EX=+++.5.(2022·广东茂名·二模)某水果经营户对出售的苹果按大小和色泽两项指标进行分类,最大横切面直径不小于70毫米则大小达标,着色度不低于90%则色泽达标,大
小和色泽均达标的苹果为一级果;大小和色泽有一项达标另一项不达标的苹果为二级果;两项均不达标的苹果为三级果.已知该经营户购进一批苹果,从中随机抽取100个进行检验,得到如下统计表格:直径小于70毫米直径不小于70毫米合计着色度低于90%101525着色度不低于90
%156075合计2575100(1)根据以上数据,判断是否有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关;(2)该经营户对三个等级的苹果按照分层抽样从样本中抽取10个苹果,再从中随机抽取3个,求抽到二级果个数X的概率分布列和数学期望.附:()
20PKk0.0500.0250.0100k3.8415.0246.635()()()()()22nadbcKabcdacbd−=++++,其中nabcd=+++.【答案】.(1)有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关(2)分布列见解析
,()910EX=(1)解:由于()221001060151543.84125757525K−==,所以有95%的把握认为该经营户购进的这批苹果的大小达标和色泽达标有关;(2)解:对三个等级的苹果按照分层抽样从样本中抽取10个,则一级果6个,二级果3个,三级果1个.由题意,二级果的
个数X的可能值为0,1,2,3,则()()312737331010CCC7210,1C24C40PXPX======,()()213373331010CCC712,3C40C120PXPX======.所以X的
分布列为:X0123P72421407401120所以X的数学期望()721719012324404012010EX=+++=.6.(2022·广东惠州·二模)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择
物理或历史与性别是否有关,统计了该校高三年级800名学生的选科情况,部分数据如下表:性别科目男生女生合计物理300历史150合计400800(1)根据所给数据完成上述表格,并判断是否有99.9%的把握认为该校学生选择物理或历史与性别有关;(2)该校为了提高选择历史科目学生的数学学习兴趣,用
分层抽样的方法从该类学生中抽取5人,组成数学学习小组.一段时间后,从该小组中抽取3人汇报数学学习心得.记3人中男生人数为X,求X的分布列和数学期望()EX.附:22()()()()()nadbcKabcdacbd−=++++
()2PKk…0.0500.0100.001k3.8416.63510.828【答案】(1)补全列联表,计算出2K后可得结论;(2)由分层抽样得抽取男生2人,女生3人,随机变量X的所有可能取值为0,1,2.,计算出概率得分布列,由分布列计算期望.【详解】(1)性别科目男生女生
合计物理300250550历史100150250合计400400800因为222800(300150250100)(450250)16010.8285502504004005525211K−−===
,所以有99.9%的把握认为该校学生选择物理或历史与性别有关.(2)按照分层抽样的方法,抽取男生2人,女生3人.随机变量X的所有可能取值为0,1,2.所以0323351(0)10CCPXC===,1233253(1)5CCPXC===,5122333(2)10CCPXC===.
所以X的分布列为X012P11035310所以1336()012105105EX=++=.答:x的数学期望为65.【巩固练习】一、单选题1.(2022·山东·汶上县第一中学高三开学考试)某市为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度.为了
确定一个比较合理的标准,通过简单随机抽样,获得了100户居民的月均用水量数据(单位:吨),得到如图所示的频率分布直方图.估计该市居民月均用水量的中位数为()A.8.25B.8.45C.8.65D.8.85【答案】B【解析】由频率分布直方图,得
月均用水量在5.2吨以下的居民用户所占的比例为40.060.24=,月均用水量在9.2吨以下的居民用户所占的比例为()40.060.080.560.5+=,故中位数落在区间()5.2,9.2内.设样本的中位数为x,则()0.245.20.080.5x+−=,所以0.50.2
45.28.450.08x−=+=,即样本的中位数为8.45,由样本估计总体的思想,估计该市居民月均用水量的中位数为8.45,故选:B.2.(2022·黑龙江·佳木斯一中三模(文))新冠肺炎疫情防控中,测量体温是最简便、最快捷,也是筛
查成本比较低、性价比很高的筛查方式,是更适用于大众的普通筛查手段.某班级体温检测员对某一周内甲、乙两名同学的体温进行了统计,其结果如图所示,则下列结论不.正确的是()A.甲同学的体温的极差为0.5℃B.甲同学的体温的众数为36.3℃
C.乙同学的体温的中位数与平均数不相等D.乙同学的体温比甲同学的体温稳定【答案】C【解析】对于A:甲同学的体温的极差为36.636.10.5−=℃,故A选项正确;对于B:甲同学的体温从低到高依次为36.1℃,36.1℃,36.3℃,36.3℃,36.3℃,36.5℃,3
6.6℃,故众数为36.3℃,故B选项正确;对于C:乙同学的体温从低到高依次为36.2℃,36.3℃,36.3℃,36.4℃,36.5℃,36.5℃,36.6℃,故中位数为36.4℃,而平均数也是36.4℃,故C选项错误;对于D:从折线图上可
以看出,乙同学的体温比甲同学的体温稳定,故D选项正确.故选:C3.(2022·广西·模拟预测(文))2022年6月6日是第27个“全国爱眼日”,为普及科学用眼知识,提高群众健康水平,预防眼疾,某区残联在残疾人综合服务中心开展“全国爱眼日”有奖答题竞赛活动
.已知5位评委老师按百分制(只打整数分)分别给出某参赛小队评分,可以判断出一定有评委打满分的是()A.平均数为98,中位数为98B.中位数为96,众数为99C.中位数为97,极差为9D.平均数为98,极差为6【答案】D【解析】选项A:当打分结果为98,98
,98,98,98时,满足平均数为98,中位数为98,所以A错误;选项B:当打分结果为99,99,96,95,94时,满足中位数为96,众数为99,所以B错误;选项C:当打分结果为89,97,97,97,98时,满足
中位数为97,极差为9,所以C错误;选项D:假设没有评委打满分,结合极差为6可得总成绩()996994489S−+=,则平均数48997.8985x=,与选项不符,故假设不成立,所以平均数为98,极差为6时,一定有评委打满分,故选:D.4.(2022·黑龙
江·佳木斯一中三模(文))下列说法正确的序号是()①在回归直线方程ˆ0.812yx=−中,当解释变量x每增加一个单位时,预报变量ˆy平均增加0.8个单位;②利用最小二乘法求回归直线方程,就是使得12()iiinybxa=−−最小的原理;③已知X,
Y是两个分类变量,若它们的随机变量2K的观测值k越大,则“X与Y有关系”的把握程度越小;④在一组样本数据()11,xy,()22,xy,…,(),nnxy(2n,1x,2x,…,nx不全相等)的散点图中,若所有样本(),(1,2,)iixyin=
都在直线112yx=−+上,则这组样本数据的线性相关系数为12−.A.①③B.①②C.②④D.③④【答案】B【解析】对于①,在回归直线方程ˆ0.812yx=−中,当解释变量x每增加一个单位时,预报变量ˆy平均增加0.8个单位,
故①正确;对于②,用离差的平方和,即:()()2211ˆnniiiiiiQyyyabx===−=−−作为总离差,并使之达到最小;这样回归直线就是所有直线中Q取最小值的那一条。由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫
做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得12()iiinybxa=−−最小的原理;故②正确;对于③,对分类变量X与Y,对它们的随机变量2K的观测值k来说,k越小,则“X与Y有关系”的把握程度越小,故③错误;对于④,相关系数反映的是两变量之间线性相关
程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为1−,故④错误.故选:B.5.(2022·四川省仁寿县文宫中学高三阶段练习(理))某医疗研究所为了检查新研发的疫苗对某种病毒的预防作用,把1000只已注射疫苗的小白鼠与另外1000只未注射疫苗的小白鼠的感染记录作比较,提出原假设
0H:“这种疫苗不能起到预防该病毒传染的作用.”并计算得()26.6350.01P,则下列说法正确的是()A.这种疫苗对预防该病毒传染的有效率为1%B.若某人未使用疫苗,则他有99%的可能性传染该病毒C.有99%的把握认为“这种疫苗能起到预防该病毒传染的作用”D.有1%的把握认为“这
种疫苗能起到预防该病毒传染的作用”【答案】C【解析】由已知,()26.6350.01P,说明假设不合理的程度为99%,即这种疫苗不能起到防范病毒的作用不合理的程度约为99%,所以有99%的把握认为这
种疫苗能起到预防病毒的作用.故选:C.二、多选题6.(2022·全国·模拟预测)最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两
名同学的体温进行了统计,其结果如图所示,则下列结论正确的是()A.甲同学体温的极差为0.4℃B.乙同学体温的众数为36.4℃,中位数与平均数相等C.乙同学的体温比甲同学的体温稳定D.甲同学体温的第60百分位数为36.4℃【答案】ABC【解析】观察折线图知,甲同学体温的极差为36.636
.2−=0.4℃,A正确;乙同学体温从小到大排成一列:36.3℃,36.3℃,36.4℃,36.4℃,36.4℃,36.5℃,36.5℃,乙同学体温的众数为36.4℃,中位数为36.4℃,平均数()136.3236.4336.5246.47x=++=℃,B正确;乙同学的体温波动较甲同学的小
,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,C正确;将甲同学的体温从小到大排成一列:36.2℃,36.2℃,36.4℃,36.4℃,36.5℃,36.5℃,36.6℃,因760%4.2=,则甲同学体
温的第60百分位数为36.5℃,D不正确.故选:ABC7.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年的借阅数据如下表:年份20162017201820192020年份代码x12345年借阅量
y(万册)4.95.15.55.75.8根据上表,可得y关于x的经验回归方程为ˆˆ0.24yxa=+,则()A.ˆ4.68a=B.借阅量4.9,5.1,5.5,5.7,5.8的上四分位数为5.7C.y与x的线性相关系数0rD.2021年的借阅量一定
不少于6.12万册【答案】ABC【解析】对于A,因为1(12345)35x=++++=,1(4.95.15.55.75.8)5.45y=++++=,所以5.40.243a=+,得4.68a=,所以A正确,对于B,因为575%3.75=,所以借阅量4.9,5.1,5.5,5.7,5.8的上四
分位数为5.7,所以B正确,对于C,因为0.240,所以y与x的线性相关系数0r,所以C正确,对于D,由选项A可知线性回归方程为0.244.68yx=+,当6x=时,0.2464.686.12y=+=,所以20
21年的借阅量约为6.12万册,所以D错误,故选:ABC三、填空题8.(2022·云南·高三阶段练习)某市某次高中数学统测学生测试成绩频率分布直方图如图所示.现按测试成绩由高到低分成A,B,C,D四个等级,其中A等占25%,
B等占40%,C等占30%,D等占5%的比例,规定达到C等级及以上才能通过考试,则要通过本次考试的学生分数至少为___________.【答案】24【解析】由图可知,分数在20分以下的比例为0.001200.02=,在40分以下的比例为()0.0010.007520
0.17+=,因此5%分位数位于)20,40内,由0.050.022020240.15−+=,所以通过本次考试分数至少为24.故答案为:24.9.(2022·全国·高三专题练习)为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对
“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男女生人数相同,得到如图所示的等高条形统计图,则下列说法中正确的有________.①被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多②被调查的女生中喜欢登山
的人数比不喜欢登山的人数多③若被调查的男女生均为100人,则可以认为喜欢登山和性别有关④无论被调查的男女生人数为多少,都可以认为喜欢登山和性别有关【答案】①③【解析】因为被调查的男女生人数相同,由等高堆积
条形统计图可知,喜欢登山的男生占80%,喜欢登山的女生占30%,所以A正确,B错误;设被调查的男女生人数均为n,则由等高堆积条形统计图可得列联表如下男女合计喜欢0.8n0.3n1.1n不喜欢0.2n0.7n0.9n合计nn2n由公式可得:
222(0.80.70.30.2)501.ln0.999nnnnnnnnn−==.当100n=时,25050100509999n==,可以判断喜欢登山和性别有关,故C正确;而25099n=,所以2
的值与n的取值有关.故D错误.故答案为:①③.四、解答题10.某企业在举行的安全知识竞答活动中,随机抽取了50名员工,统计了他们的成绩,全部介于70到95之间,将成绩按如下方式分成五组:第一组)70,75,第二组)75,
80,,第五组90,95,如图是按上述分组方法得到的频率分布直方图(1)请根据频率分布直方图,求样本数据的平均数和中位数(所有结果均保留两位小数);(2)从第一组和第五组的员工中,随机抽取4名员工,记这4名员工中来自第五组的员工的人数为
X,求随机变量X的分布列及数学期望.【解析】(1)样本数据的平均数72.50.0677.50.1682.50.3887.50.3292.50.0883.50x=++++=第一二组的频率为0.060.160.220.5+=第一二三组的频率为0.060.160.380.60.5++=所
以中位数一定落在第三组,设中位数为x,则()0.060.16800.0760.5x++−=解得83.68x(2)据题意,第一组有0.06503=人,第五组有0.08504=人,随机变量X的可能取值为1,2,3,4()1447C41C35PX===()223447CC1
82C35PX===()133447CC123C35PX===()4447C14C35PX===所以X的分布列是X1234P43518351235135所以X的数学期望()167EX=11.某学校为了解高三尖子班数学成绩,随机抽查了60名尖子生的期中数学成绩,得到如下数据统计
表:期中数学成绩(单位:分)频数频率(120,12530.05(125,130xp(130,13590.15(135,140150.25(140,145180.30(145,150yq合计601.00若数学成绩超过135分的学生为“特别
优秀”,超过120分而不超过135分的学生为“优秀”,已知数学成绩“优秀”的学生与“特别优秀”的学生人数比恰好为2:3.(1)求x,y,p,q的值;(2)学校教务为进一步了解这60名学生的学习方法,从数学成绩“优秀”、“特别优秀”的学生中
用分层抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查.设X为抽取的3人中数学成绩“优秀”的人数,求X的分布列和数学期望.【解析】(1)根据题意,得3915186039215183xyxy+++++=++=++,解得123x
y==,所以1230.2,0.0560606060xypq======,故12,3xy==,0.2,0.05pq==(2)用分层抽样的方法选取5人,则数学成绩“特别优秀”的有3535=人,“优秀”的有2525=人,故X的可能取值为0,1,2,则33351(0)10CPXC===,122
335CC3(1)C5PX===,212335CC3(2)C10PX===,所以X的分布列为:X012P11035310故1336012105105EX=++=.12.在实施“乡村振兴”的进程中,某地政府
引领广大农户发展特色农业,种植优良品种柑橘.现在实验基地中种植了相同数量的A、B两种柑橘.为了比较A、B两个柑橘品种的优劣,在柑橘成熟后随机选取A、B两种柑橘各100株,并根据株产量X(单位:kg)绘制了如图所示的频率分布直方图(数据分组为:)
65,70、)70,75、)75,80、)80,85、)85,90、90,95):(1)求a、b的值;(2)将频率当做概率,在所有柑橘中随机抽取一株,求其株产量不低于80kg的概率;(3)求两种柑橘株产量平均数的估计值(
同一组数据中的平均数用该组区间的中点值代表),并从产量角度分析,哪个品种的柑橘更好?说明理由.【解析】(1)由频率分布直方图可得()0.0120.030.050.0651a++++=,解得0.04a=,()0.0120.030.050.0651b++++=,解得0.04b=.(2)A品种
柑橘株产量不低于80kg的频率为()0.040.050.0650.75++=,B品种柑橘株产量不低于80kg的频率为()0.030.010.0150.25++=,故200株柑橘中产量不低于80kg的频率为0.751000.251000.5100100+=+,所以在所
有柑橘中随机抽取一株,其株产量不低于80kg的概率为0.5.(3)A品种柑橘株产量平均数的估计值为AM,()0.0167.50.0172.50.0377.50.0482.50.0592.50.0687.5584.5AM=+++++
=,设B品种柑橘株产量平均数的估计值为BM,()0.0192.50.0187.50.0382.50.0477.50.0567.50.0672.5575.5BM=+++++=,A品种的柑橘更好.理由如下:方法一:A的平均产量大于B的平均产量.方法二:由频率分布直方图可知
,A品种柑橘株产量在80kg及以上的占比为75%,B品种柑橘株产量在80kg及以上的占比为25%,故A品种的柑橘更好.13.某花圃为提高某品种花苗质量,开展技术创新活动,,AB在实验地分别用甲、乙方法培训该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株
进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80及以上的花苗为优质花苗.(1)求图中a的值,并求综合评分的中位数.(2)填写下面的列联表,并判断是否有99%的把握认为优质花苗与
培育方法有关.优质花苗非优质花苗合计甲培优法20乙培优法10合计附:下面的临界值表仅供参考.()2PKk0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:()()()()()22nad
bcKabcdacbd−=++++,其中nabca=+++)【解析】(1)由直方图的性质可知:0.005100.010100.02510100.020101a++++=,解得0.040a=,因为()0.020.04100.6
0.5+=,所以中位数位于)80,90之间,设中位数为x,则有()0.020100.040900.5x+−=,解得82.5x=,故综合评分的中位数为82.5;(2)根据第一问,优质花苗的频率为0.6,样本中优质花苗的数量为60,得如下列联表:优质花苗非优质花苗合计
甲培优法203050乙培优法401050合计6040100所以()221002010304016.6676.63560405050K−=,所以有99%得到把握任务优质花苗与培育方法有关;14.文旅部门统计了某网红景点在2022年3月至7月的旅游收入y(单位:万),得
到以下数据:月份x34567旅游收入y1012111220(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由;(2)为调查游客对该景点的评价情况,随机抽查了200名游
客,得到如下列联表,请填写下面的22列联表,依据0.001=的独立性检验,能否认为“游客是否喜欢该网红景点与性别有关联”.喜欢不喜欢总计男100女60总计110参考公式:相关系数()()()()12211niiinni
iiixxyyrxxyy===−−=−−,参考数据:103.162.线性回归方程:ˆˆˆybxa=+,其中()()()1122211ˆˆˆ,nniiiiiinniiiixxyyxynxybaybxxxxnx====−−−===
−−−,()()()()22()nadbcabcdacbd−=++++.临界值表:0.0100.0050.001x6.6357.87910.828【解析】(1)由已知得:()()5522115
,13,10,64iiiixyxxyy====−=−=,()()5120iiixxyy=−−=205100.79141064210r===,因为0.7910.75,1r,说明y与x的线性相关关系很强.,可用线性回归模型拟合y与x的关系,20ˆˆˆ2,1310310bayb
x===−=−=,则y关于x的线性回归方程为:ˆ23yx=+.(2)22列联表如下所示:喜欢不喜欢总计男7030100女4060100总计11090200零假设0H:游客是否喜欢该网红景点与性别无关联,根据列联表中数据,220.001200(70604030)18.1
8210.82810010011090x−==,依据小概率值0.001=的独立性检验,我们推断0H不成立,即游客是否喜欢该网红景点与性别有关联.15.随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2
022年2月公布的近六年我国新能源乘用车的年销售量数据:年份201620172018201920202021年份代码x123456新能源乘用车年销售y(万辆)5078126121137352(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)(2)若用enxym=模型拟合y
与x的关系,可得回归方程为3.630.33exy+=,经计算该模型和第(1)问中模型的2R(2R为相关指数)分别为0.87和0.71,请分别用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明
理由.参考数据:设lnuy=,其中lniiuy=.yu()()61iiixxyy=−−()()61iiixxuu=−−5.94e6.27e1444.788415.70380528参考公式:对于一组具有线性相关关系的数
据()(),1,2,3,,iixyin=,其回归直线ybxa=+$$$的斜率和截距的最小二乘估计公式分别为()()()121niiiniixxyybxx==−−=−,aybx=−$$.【解析】(1)1234563.506x+++++==,()62117.5iixx=−=,()()()
61612841ˆ4817.5iiiiixxyybxx==−−==−,144y=又,ˆˆ144483.524aybx=−=−=−,y关于x的线性回归方程为4824ˆyx=−;(2)若利用线性回归模型,可得2022年我
国新能源乘用车的年销售量的预测值为487ˆ24312y=−=(万辆)若利用模型3.630.33ˆexy+=,可得2022年我国新能源乘用车的年销售量的预测值为3.630.3375.94ˆee380y+===(万辆);(3)0.710.87,且2R越大,反映残差平方和越小
,模型的拟合效果越好,用模型3.630.33ˆexy+=得到的预测值更可靠.16.一工厂为了提高生产效率,对某型号生产设备进行了技术改造,为了对比改造前后的效果,采集了20台该种型号的设备技术改造前后连续正常运行的时间长度(单位:天)数据,整理如下表:设备编号12345678
91011121314151617181920改造前2226321728273427182320362624344025212524改造后2833392625353834432440352933353731413133(1)根据所给
数据,完成下面的22列联表,并判断能否有99%的把握认为技术改造前与技术改造后的连续正常运行时间有差异?设备连续正常运行天数超过30天设备连续正常运行天数未超过30天合计改造前改造后合计(2)若某台设
备出现故障,则立即停工并申报维修,根据长期生产经验,每台设备停工n天的总损失额记为y(单位:元)满足()2100200015001,2,3,4ynnn=++=,现有两种维修方案(一天完成维修)可供选择:方案一:加急维修单,维修人员会在设备出现故障的当天上门维修,维修费用为4000元;方案二:
常规维修单,维修人员会在设备出现故障当天或者之后3天中的任意一天上门维修,维修费用为1000元.现统计该工厂最近100份常规维修单,获得每台设备在第()1,2,3,4nn=天得到维修的数据如下:n1234频数1030
4020将频率视为概率,若某台设备出现故障,以该设备维修所需费用与停工总损失额的和的期望值为决策依据,应选择哪种维修方案?()()()()()22nadbcKabcdacbd−=++++,()2PKk0.0500.0250.0100.0050.001k
3.8415.0246.6357.87910.828【解析】(1)22列联表为:设备连续正常运行天数超过30天设备连续正常运行天数未超过30天合计改造前设备台数51520改造后设备台数15520合计202040易知()2240551515106.63520202020K
−==所以有99%的把握认为技术改造前与技术改造后的连续正常运行时间有差异.(2)当1n=时,设备的总损失额为3600y=元;当2n=时,设备的总损失额为5900y=元;当3n=时,设备的总损失
额为8400y=元;当4n=时,设备的总损失额为11100y=元;设选择方案一、方案二的设备维修所需费用与设备停工总损失额分别为X、Y元,选择方案一,则()360040007600EX=+=元,选择方案二,则Y的可能取值有:4600,6900,9400,12100,所以,(
)1460010PY==,()3690010PY==,()4940010PY==,()21210010PY==,所以,随机变量Y的分布列如下表所示:Y46006900940012100P110310410210所以,()134246006900940012100871010101010E
Y=+++=元,所以,()()EXEY,故选方案一.