【文档说明】《2022年新高考数学90天突破130分综合讲义》第33讲 统计(解析版).docx,共(38)页,1.871 MB,由管理员店铺上传
转载请保留链接:https://www.doc5u.com/view-36f0d40e453117469f4aabc8822089d5.html
以下为本文档部分文字说明:
第33讲统计方法总结:一、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa=+的求法为()()()
1122211nniiiiiinniiiixxyyxynxybxxxnxaybx====−−−==−−=−其中,11niixxn==,11niiyyn==,(x,y)称为样本点的中心。步骤:画散点图,如散点图中
的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,直线斜率k>0,称两个变量正相关;k<0,称两个变量负相关。二、独立性独立性检验是判断两个分类变量是否存在相关关系的案例分析方法。步骤为列出22列联表(如表13-8所示),求
出()()()()()22nadbcKabcdacbd−=++++,并判断:A1A2合计B1aca+cB2bdb+d合计a+bc+dn=a+b+c+d若K2>10.828,有99.9%把握称“A取A1或A2”对“B取B1,B2”有关系;若10.828K2>6.635,有99%把握
称“A取A1或A2”对“B取B1,B2”有关系;若6.635K2>3.841,有95%把握称“A取A1或A2”对“B取B1,B2”有关系;若K23.841,没有把握称A与B相关。典型例题:例1.(2022·全国·模拟预测)某高中高一
新生共有1500名,其中男生800名,女生700名,为全面推进学校素质教育,推动学校体育运动发展,引导学生积极参与体育锻炼,促进学生健康成长.学校准备调查高一新生每周日常运动情况,学校通过问卷调查,采用分层抽样的方法,收集了300名学生每周平均运动时间的样本数
据(单位:小时),并根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为0,2,(2,4,(4,6,(6,8,(8,10,(10,12.(1)求这300个样本数据中女生人数,并估计样本数据的85%分位数与方差;(2)
在调查的300名学生中按每周运动时间采用分层抽样法抽取20人参加校园“我运动我快乐”活动,再从这20人中选取2名志愿者担任主要负责人,记这2名志愿者中“每周运动时间超过8小时”的人数为X,求X的分布列及数学期望.【答案】(1)140
人,分位数为263,方差为6.16;(2)分布列见解析,25.【解析】【分析】(1)根据频率分布直方图及分层抽样,可求出样本数据中女生人数及样本数据的85%分位数与方差;(2)利用分层抽样可计算出“每周运动时间超过8小时”的有4人,“每周运动时间不超过8小
时”的有16人,所以X的可能的取值为0,1,2,利用超几何分布可求得X的分布列及数学期望.(1)依题意,样本数据中女生人数为7003001401500=.因为样本数据中在8小时以下的学生人数所占比例为0.050
.200.300.250.80+++=,则85%分位数为0.850.802680.0753−+=.平均数为10.0530.2050.3070.2590.15110.055.8+++++=,所以样本数据的方差为()()()()22
2215.80.0535.80.2055.80.3075.80.25−+−+−+−()()2295.80.15115.80.056.16+−+−=,所以样本数据中女生人数为140,样本数据的85%分位数为263,方差为6.16.(2)用分层抽样的方法,从中选取20人,则其中“每周运动
时间超过8小时”的有4人,“每周运动时间不超过8小时”的有16人.由题意知,X的可能取值为0,1,2,且()216220C120C19PX===;()11164220CC321C95PX===;()24220C32C95PX==
=,所以X的分布列为X012P12193295395所以()1232320121995955EX=++=.例2.(2022·河北唐山·高三期末)某统计部门依据《中国统计年鉴——2017》提供的数据,对我国1997-2016年的
国内生产总值(GDP)进行统计研究,作出了两张散点图:图1表示1997-2016年我国的国内生产总值(GDP),图2表示2007-2016年我国的国内生产总值(GDP).(1)用()1,2iri=表示第i张图中的年份与GDP的线性相关系数,0.9647,0.9980ir,依据散
点图的特征分别写出ir的结果;(2)分别用线性回归模型和指数回归模型对两张散点图进行回归拟合,分别计算出统计数据——相关指数2R的数值,部分结果如下表所示:年份1997-20162007-2016线性回归模型0.9306指
数回归模型0.98990.978①将上表中的数据补充完整(结果保留3位小数,直接写在答题卡上);②若估计2017年的GDP,结合数据说明采用哪张图中的哪种回归模型会更精准一些?若按此回归模型来估计,2020年的GDP能否突破100万亿元?事实上
,2020年的GDP刚好突破了100万亿元,估计与事实是否吻合?结合散点图解释说明.【答案】(1)10.9647r=,20.9980r=(2)①0.996,②不吻合,理由见解析.【解析】【分析】(1)观察两图,根据ir的范围,
我们只需要确定哪个图像关联系数更高,即选择较大的那个相关系数;(2)第一小问可根据第(1)问中确定的2r的值,通过222()Rr=来计算;第二小问可通过计算出来的数据跟已有的数据对比,选出最适合模拟最近
的年份的回归模型,并且按照这个回归模型来模拟,预测2020年是否能够突破100万亿,并且根据回归模型的增长趋势来判断.(1)由散点图可知,图2拟合效果更好、相关系数较大,所以10.9647r=,20.9980r=.(2)①0
.996②由图2中的线性回归模型得到的相关指数为0.996,是所有回归模型的相关指数中数值最大的,而且2017年是最近的年份,因此选择图2中的线性回归模型来估计2017年的GDP,是比较精准的.按照图2中的线性回归模型来估计(延长回归直线可发现),2020年不能突破
100万亿元.估计与事实不吻合.综合两张图来考虑,我国的GDP随年份的增长整体上呈现指数增长的趋势,而且2020年比2016年又多发展了4年,指数回归趋于明显,因此,按照线性回归模型得到的估计值与实际数据有偏差、不吻合,属于正常现象.例3.(2022·重庆八
中高三阶段练习)5G的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该创新公司在第1月份至6月份的5G经济收入y(单位:百万元)关于月份x的数据如表:时间(月份)123456收入(百万元)6.68.616.121.
633.041.0根据以上数据绘制散点图,如图.(1)根据散点图判断,yaxb=+与dxyce=(a,b,c,d均为常数)哪一个适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(
1)的结果及表中数据,求出y关于x的回归方程,并预测该公司8月份的5G经济收入;(3)从前6个月的收入中抽取3个,记月收入超过16百万的个数为X,求X的分布列和数学期望.参考数据:xyu()621iixx=−()()61iiixxyy=−−()()61iiixxuu
=−−3.5021.152.8517.50125.356.73其中设lnuy=,()ln1,2,3,4,5,6iiuyi==参考公式和数据:对于一组具有线性相关关系的数据()(),1,2,3,,iix
vin=,其回归直线vx=+的斜率和截距的最小二乘估计公式分别为:()()()121niiiniixxvvxx==−−=−,avx=−,4.5695.58e,4.5897.51e.【答案】(1)dxyce
=(2)回归方程为1.520.38e+=xy,8月份的5G经济收入95.58百万元.(3)答案见解析【解析】【分析】(1)根据散点图判断可得答案;(2)根据(1)的结果lnlnycdx=+,然后根据参考
数据求出方程,进而求得y关于x的回归方程,再将8x=代入方程可得答案;(3)求出X的可能取值及概率,可得分布列和数学期望.(1)dxyce=,散点图中点的分布不是一条直线,相邻两点在y轴上差距是增大的趋势,故用dxyce=表示更合适.(2)由dxyce=得lnlneln==+dxy
ccdx,设lnuy=,所以lnucdx=+,因为3.50=x,()62117.50=−=iixx,()()616.73=−−=iiixxuu,2.85=u,所以()()()1216.730.3817
.50==−−==−niiiniixxvvdxx,2.850.383.501.52=−=−=avx,ln0.382.580.383.501.52=−=−=cux,所以ln1.520.38yx=+,即1.520.38e+=xy,则回归方程为1.520.38e+
=xy,预测该公司8月份的5G经济收入1.520.3884.56eee95.58==y百万元.(3)月收入超过16百万的个数为X的可能取值为1,2,3,则()212436411205====CCPXC,()1224361232205====CCPXC
,()032436413205====CCPXC,则X的分布列为X123P153515所以()1311232555EX=++=.例4.(2022·河北·模拟预测)主播代言、优惠促销、限时“秒杀”……目前
,各类直播带货激起人们的消费热情,但也存在不少问题.日前,中国消费者协会发布了网络直播销售侵害消费者权益案例分析,归纳出虚假宣传、退换货难、诱导交易等七大类问题.某相关部门为不断净化直播带货环境,保护消费者合法权益,进行了调查问卷,随机抽取了200人的样本进行分析,得到列
联表如下:参加过直播带货未参加过直播带货总计女性9030120男性503080总计14060200(1)根据以上数据,判断是否有90%的把握认为是否参加直播带货与性别有关?(2)将频率视为概率,从样本
的女性中用随机抽样的方法每次抽取1人,共抽取3次.记抽取的3人中“未参加过直播带货”的人数为X,若每次抽取的结果是相互独立的,求随机变量X的分布列和均值()EX.附:22()()()()()nadbcKabcdacbd−=++++,其中nabcd=+
++.()20Pkk0.150.100.050.0250k2.0722.7063.8415.024【答案】(1)有90%的把握认为是否参加直播带货与性别有关(2)分布列答案见解析,数学期望:34【解析】【分析】(1)直接根据列联表计算观测值2K,再根据独立性检验
思想判断即可;(2)由题意,可得13,4XB,再根据二项分布概率公式求解即可.(1)解:根据以上数据,得观测值22200(90305030)253.5712.70614060120807K−==,所以有90%的把握认为是否参加直播带货与性别有关.(2)解:由题意,女生
未参加过直播带货的频率为3011204=,所以频率视为概率,每个女生未参加过直播带货的概率为14,因为每次抽取的结果是相互独立的,所以13,4XB,所以3311()144kkkPXkC−==−,0,
1,2,3k=,所以27(0)64PX==,27(1)64PX==,9(2)64PX==,1(3)64PX==.所以随机变量X的分布列为X0123P27642764964164所以随机变量的均值13()344EX==.例5.(2022·全国·高三专题练习)2021年6月17日9时22分,我国酒泉
卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广
泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号123456789101112x2346810132122232425y15222740
48546068.56867.56665当017x时,建立了y与x的两个回归模型:模型①:4.1109ˆ.yx=+,模型②:ˆ21.314.4yx=−;当17x时,确定y与x满足的线性回归方程为ˆˆ0.7yxa=−+
.(1)根据下列表格中的数据,比较当017x时模型①,②的相关指数2R的大小,并选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益;回归模型模型①模型②回归方程4.1109ˆ.yx=+ˆ21.314.4yx=−()721ˆiiiyy=−7
9.1320.2(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附:刻画回归效果的相
关指数()()22121ˆ1niiiniiyyRyy==−=−−,且当2R越大时,回归方程的拟合效果越好,174.1【答案】(1)模型②拟合精度更高、更可靠,72.93亿(2)投入17亿元比投入20亿元时收益小【解析】【分析】(1)根据公式计算相关指数,再根据大小选择合适的模型,根据所
得模型可求直接受益.(2)根据(1)中的公式结合利润计算方法可求公司收益,从而可得两者的大小关系.(1)对于模型①,对应的15222740485460=387y++++++=,故对应的()722211771750==−=−
=iiiiyyyy,故对应的相关指数2179.1310.9551750R=−,对于模型②,同理对应的相关指数2220.210.9881750R=−,故模型②拟合精度更高、更可靠.故对A型材料进行应用改造的投入为17亿元
时的直接收益为ˆ21.31714.472.93=−y.(2)当17x时,后五组的2122232425235x++++==,68.56867.5+66+65675y++==,由最小二乘法可得()ˆ670.72383.1a=−−=,故当投入20亿元时公
司收益(直接收益+国家补贴)的大小为:0.72083.1+574.172.93−+=,故投入17亿元比投入20亿元时收益小.例6.(2022·陕西·高新一中高三阶段练习(文))2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F遥十二运载火箭,成功将神舟十二号载
人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材
料进行应用改造.根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下表:建立了y与x的两个回归模型:模型①:4.1109ˆ.yx=+,模型②:ˆ21.314.4yx=−;序号1234567x234681013y1522274048
5460(1)根据表格中的数据,比较模型①,②的相关指数2R的大小;(2)据(2)选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益.附:刻画回归效果的相关指数()()22121ˆ1niiiniiyyRyy==−=−−,且当2R越大时,回归方程的拟
合效果越好.174.1.回归模型模型①模型②()721ˆiiiyy=−79.3120.2【答案】(1)2221RR(2)收益为72.93【解析】【分析】(1)对于模型①模型②,计算出y,()1221=−
iiyy,对应的相关指数21R,22R可得答案;(2)故模型②拟合精度更高、更可靠,可计算出对A型材料进行应用改造的投入为17亿元时的直接收益.(1)对于模型①,对应的152227404854603
87y++++++==,故对应的()12222111271750iiiiyyyy==−=−=,故对应的相关指数2179.1310.9551750R=−,对于模型②,同理对应的相关指数2220.210.9881750
R=−,2221RR.(2)故模型②拟合精度更高、更可靠.故对A型材料进行应用改造的投入为17亿元时的直接收益为ˆ21.31714.472.93=−y.过关练习:1.(2022·四川泸州·二模(理))某县种植的脆红李在2021年获得大丰收,依据扶贫政策,所有脆红李由经销
商统一收购.为了更好的实现效益,质监部门从今年收获的脆红李中随机选取100千克,进行质量检测,根据检测结果制成如图所示的频率分布直方图.下表是脆红李的分级标准,其中一级品、二级品统称为优质品.等级四级品三级品二级品一级品脆红李横径/mm)20,25)25,30)30,
3535,40经销商与某农户签订了脆红李收购协议,规定如下:从一箱脆红李中任取4个进行检测,若4个均为优质品,则该箱脆红李定为A类;若4个中仅有3个优质品,则再从该箱中任意取出1个,若这一个为优质品,则该箱脆红李也定为A类;若4个中至多有
一个优质品,则该箱脆红李定为C类;其他情况均定为B类.已知每箱脆红李重量为10千克,A类、B类、C类的脆红李价格分别为每千克10元、8元、6元.现有两种装箱方案:方案一:将脆红李采用随机混装的方式装箱;方案二:将脆红李按一、二、三、四等级分别装箱,每箱的分拣成本为1元.以频率代替概率
解决下面的问题.(1)如果该农户采用方案一装箱,求一箱脆红李被定为A类的概率;(2)根据统计学知识判断,该农户采用哪种方案装箱收入更多,并说明理由.【答案】(1)316(2)采用方案二时收入更多,理由见解析【解析】【分析】(1)由频率分布直方图可得任取一只脆红李,其为优质品的概率,利用二项分布可求
概率.(2)利用独立事件和二项分布可求该农户采用方案一时每箱收入为1Y的分布列和期望,再算出该农户采用方案二时每箱的平均收入后可得最优方案.(1)由频率分布直方图可得任取一只脆红李,其为优质品的概率为()0.040.0650.5+=,设
事件1A为“该农户采用方案一装箱,一箱脆红李被定为A类”,则()4331430.50.50.50.516PAC=+=.(2)设该农户采用方案一时每箱收入为1Y,则1Y可取60,80,100,而()131
0016PY==,()04141445600.50.516PYCC==+=,()135180116162PY==−−=,故()1310056088077.516EY++==(元)该农户采用方案二时,每箱的平均收入为10010060601794+++−=,因为77.579,故采
用方案二时收入更多.2.(2022·山西·临县第一中学高三开学考试(文))某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:利率上升百分点0.10.20.30.40.5日均存款总额y(
亿元)0.20.350.50.650.8(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa=+;(3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)的线性回归方程,预测日存款
总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①11221niiniixynxybxnx==−=−,aybx=−$$,②510.9iiixy==,5210.55iix==.【答案】(1)作图见解析(
2)1.50.05yx=+(3)利率需上升0.8个百分【解析】【分析】(1)进行数据分析,作出散点图;(2)由表格数据可得0.3x=,0.5y=,套公式求出b和a,即可求出回归方程;(3)根据回归方程列方程,即可求解.(1)如图所示;(2
)由表格数据可得()10.10.20.30.40.50.35x=++++=,()10.20.350.50.650.80.55y=++++=,所以112210.950.30.51.50.5550.30.3
niiniixynxybxnx==−−===−−,0.51.50.30.05aybx−=−==,故1.50.05yx=+.(3)利率需上升x个百分点,由(2)得:0.62521.50.05x=+,解得0.8x=,所以利
率需上升0.8个百分.3.(2022·北京·北师大实验中学模拟预测)某企业生产流水线检测员每天随机从流水线上抽取100件新生产的产品进行检测.若每件产品的生产成本为1200元,每件一级品可卖1700元,每件二级品可卖1000元,三级品禁止出厂且销毁.某日检测抽取的100件产品的柱状图如图所示
.(1)根据样本估计总体的思想,以事件发生的频率作为相应事件发生的概率.若从生产的所有产品中随机取出2件,求至少有一件产品是一级品的概率;(2)现从样本产品中利用分层抽样的方法随机抽取10件产品,再从这1
0件中任意抽取3件,设取到二级品的件数为,求随机变量的分布列和数学期望;(3)已知该生产线原先的年产量为80万件,为提高企业利润,计划明年对该生产线进行升级,预计升级需一次性投入2000万元,升级后该生产线年产量降为70万件,但产品质量显著提
升,不会再有三级品,且一级品与二级品的产量比会提高到8:2,若以该生产线今年利润与明年预计利润为决策依据,请判断该次升级是否合理.【答案】(1)91100;(2)分布列答案见解析,数学期望是35;(3)升级方案合理.【解析】【分析】(1)根据给定条件求出抽
一件是一级品的概率,再利用对立事件、独立事件的概率公式计算作答.(2)求出10件产品中二级品的数目,再求出的可能值及各个取值的概率,列出分布列,计算期望.(3)由给定数据求出今年的利润,明年预计的利润,再比较大小作答.(1)抽取的100件产品是一级品的频率是70710010=
,则从生产的所有产品中任取1件,是一级品的概率是710,设从生产的所有产品中随机选2件,至少有一件是一级品的事件为A,则()27911(1)10100PA=−−=,所以至少有一件产品是一级品的概率是91100.(2)依题意,10件产品中一级品7件
,二级品2件,三级品1件,的可能值是0,1,2,()383107015CPC===,()12283107115CCPC===,()21283101215CCPC===,所以的分布列为:012P715715115()77130121515155E=++
=.(3)今年利润为:70201080(5002001200)15200100100100−−=(万元),明年预计利润为:8270(500200)2000232001010−−=(万元),显然有2320015200,所以该次升级方案合理.4.(2022·湖
北武汉·高三阶段练习)迎接冬季奥运会期间,某市对全体高中学生举行了一次关于冬季奥运会相关知识的测试.统计人员从全市高中学生中随机抽取200名学生的成绩作为样本进行统计,测试满分为100分,统计后发现所有学生的测试成绩都在区间40,100内,并制成如图所示的频率分布直方
图.(1)估计这200名学生的平均成绩;(2)用样本频率估计总体,从全市高中学生中随机抽取2名学生,记成绩在区间80,100内的人数为X,成绩在区间70,100内的人数为Y,记ZXY=+,比较()()EXEY+与()EZ的大
小关系.【答案】(1)69.5(2)()()()EXEYEZ+=【解析】【分析】(1)直接根据频率分布直方图估计平均数即可;(2)由题知12,5XB,12,2YB,进而Z可能的取值为0,1,2,3,4,进
而根据二项分布与独立事件的乘法原理求解即可.(1)解:平均成绩为:()10450.005550.02650.025750.03850.015950.00569.5+++++=.(2)解:成绩落在区间80,100内的概率为()11
00.0150.0055+=,故12,5XB.成绩落在区间70,100内的概率为()1100.030.0150.0052++=,故12,2YB,()()17225125EXEY+=+=,由题意,Z可能的取值为0,1,2,3,4,()()2
1100,01;24PZPXY=====−=()()1211110,11;252103PZPXYC=====−−=()()()21211112920,21,1125
25100PZPXYPXYC====+===−+−=()()12111331,225525PZPXYC=====−=()()21142,2.525PZPXY======
()32911701234410310252055EZ=++++=.故有()()()EXEYEZ+=.5.(2022·河南·高三阶段练习(文))某地随着经济的发展,农民收入逐年增长,下表是该地一农商行连续五年的储蓄存款(年底余额):年份x201720182019202020
21储蓄存款y(百亿元)67.589.511为了研究计算的方便,工作人员将上表的数据进行了处理,2016,6txzy=−=−,得到下表:时间代号t12345z01.523.55(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到20
24年年底,该地储蓄存款额可达多少?附:对于线性回归方程ˆˆˆybxa=+,其中1221ˆˆˆ,niiiniixynxybaybxxnx==−==−−.【答案】(1)6655ˆzt=−(2)ˆ61207255yx=−(3)14.4百亿元【解析】【
分析】(1)根据已知公式,结合已知数据计算即可得回归方程;(2)结合(1),根据已知关系代入整理即可得答案;(3)将2024x=代入(2)中方程即可得答案.(1)解:依题意,123,5tz==,515221125036142553483665ˆ14916255331055iiiiitztzbtt
==−++++−−====++++−−,1266ˆˆ3555azbt=−=−=−所以6655ˆzt=−;(2)解:由(1)可知:6655ˆzt=−,因为2016,6txzy=−=−,所以()666201655yx−=−−整理得ˆ61207255yx=−(3)解:当2024x=,
有7214.45ˆy==,因此,预测到2024年底,该地储蓄存款额可达到14.4百亿元.6.(2022·山东临沂·一模)2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会
已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有
20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时1720线上销售时间不足8小时合计45(1)请完成上面的22列联表,并依据0.01
=的独立性检验,能否认为赞助企业每天的销售额与每天线上销售时间有关;(2)①按销售额进行分层抽样,在上述赞助企业中抽取5家企业,求销售额不少于30万元和销售额不足30万元的企业数;②在①条件下,抽取销售
额不足30万元的企业时,设抽到每天线上销售时间不少于8小时的企业数是X,求X的分布列及期望值.附:0.10.050.010.0050.001nx2.7063.8416.6357.87910.828参考公式:()()()()()22nadbcabcdacbd−=++++,其中nabcd=+++
.【答案】(1)22列联表见解析,能认为赞助企业每天的销售额与每天线上销售时间有关;(2)①应从销售额不少于30万元的企业抽取3家;从销售额不足30万元的企业抽取2家;②解答见解析.【解析】【分析】(1)由题意分析数据,完成22列联表,计算2,对着参数判断下结论;(2)①利用分层抽样即可求
解;②判断出X的可能取值为0,1,2.,分别求概率,写出分布列,求出数学期望.(1)由题意分析可得:签约企业共45家,线上销售时间不少于8小时的企业有20家,那么线上销售时间少于8小时的企业有25家,每天的销售额不足30万元的企业占35,共有32518
5=.完成22列联表如下:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时17320线上销售时间不足8小时101525合计271845所以()()()()()()2224517153109.37527182025nadbcabc
dacbd−−===++++.0.01=对应的参数为6.635.而9.3756.635,所以可判断赞助企业每天的销售额与每天线上销售时间有关;(2)①由题意可知销售额不少于30万元有27家,销售额不足30万元有18家.按销售额进行分层抽样,在上述赞助企业中
抽取5家企业,抽样比为51459=,所以应从销售额不少于30万元的企业抽取12739=(家);从销售额不足30万元的企业抽取11829=(家);②由题意进行数据分析可知:每天的销售额不足30万元,每天线上销售时间不少于8小
时的企业有3家,线上销售时间少于8小时的企业有15家.由①可知,从销售额不足30万元的企业抽取2家.所以X的可能取值为0,1,2.则()2152181514350181751CPXC====;()11315218153151
18175121CCPXC====;()2321831218175121CPXC====.所以X的分布列如下:X012P35511551151所以()3515110125151513EX=++=.所
以X的期望值为13.7.(2022·全国·模拟预测)2021年4月份以来新冠病毒变种“德尔塔”在全球肆虐,该病毒特征是传染性更强、更快、发病率高,某传染病研究所为研究新冠疫苗对新冠病毒变种“德尔塔”的有效性,在某疫区随机抽取100名居民,对其新冠疫苗接
种情况和新冠病毒“德尔塔”感染情况进行调查与检测,对调查数据进行统计与分析得到22列联表如下.没有感染德尔塔病毒感染德尔塔病毒合计未完成疫苗接种1563完成疫苗接种2合计50100(1)根据题意补充上述22列联表,并判定是否有99%的把握认为
完成新冠疫苗接种对应对新冠变种“德尔塔”有效;(2)从样本中没有感染新冠德尔塔病毒样本中按是否完成疫苗接种分层,用分层抽样方法抽取10个样本,再从这10个样本中随机抽取3人,这3人没有完成疫苗接种的人数为X,求X的分布列与数学期望.附:()()()()()22na
dbcKabcdbcad−=++++.()2PKk0.050.0250.0100.0050.001k3.8415.0246.6357.87910.828【答案】(1)表格见解析,有(2)分布列见解析,910【解析】【分析】(1)根据题意补全22列联表,根据公式计算2K的值,根据表中的
数值,进行判断即可;(2)求出随机变量X的可能取值为0,1,2,3,根据概率的计算公式求出每个取值所对应的概率,列出分布列,求出数学期望值.(1)由题知,22列联表为没有感染德尔塔病毒感染德尔塔病毒合计未完成疫苗接种154863完成疫苗接种35237合计5050100∴()221001524
83546.71863375050K−=.∵246.7186.635K,∴有99%的把握认为完成新冠疫苗接种对应对新冠变种“德尔塔”有效.(2)由题知,从样本中没有感染新冠德尔塔病毒样本中按是否完成疫苗接种分层抽取的10人中,完成新冠疫苗接种的为7人,没有
完成新冠疫苗接种的为3人,∴X的可能取值为0,1,2,3,∴()37310C70C24PX===,()2173310CC211C40PX===,()1273310CC72C40PX===,()33310C13C120PX===,∴X
的分布列为X0123P72421407401120∴()721719012324404012010EX=+++=.8.(2022·四川·眉山市彭山区第一中学模拟预测(文))某中学对高一年级学生进行体质测试(简称体测),随机抽取了120名学生的体测结果等级(“良
好以下”或“良好及以上”)进行统计,并制成如图所示的列联表.良好以下良好及以上合计男40女10合计90120(1)将列联表补充完整;计算并判断是否有95%的把握认为本次体测结果等级与性别有关系;(2)事先在本次体测等级为“
良好及以上”的学生中按照性别采用分层抽样的方式随机抽取了6人.若从这6人中随机抽取2人对其体测指标进行进一步研究,求抽到的2人中至少有1名女生的概率.附表及公式:()20PKk0.150.100.050.0250.0100.0050.0
010k2.0722.7063.8415.0246.6357.87910.828其中()()()()()22nadbcKabcdacbd−=++++,nabcd=+++.【答案】(1)有(2)35【解析】【分析】(1)按照独立检验的公式填入
相应的数据即可;(2)古典概率问题可以用计数原理,也可以用枚举的方法求出基本事件即可.(1)由题中的数据补充列联表可得:良好以下良好及以上合计男402060女501060合计9030120()2212040102050404.4443.841903060609
K−==,故有95%的把握认为本次体测结果等级与性别有关系.(2)所抽取的6名学生中女生2人,记为1A,2A,男生4人,记为1B,2B,3B,4B.从这6人中选取2人的所有基本事件有:()12A,A,()11A,B,()12A,B,()13A,B,()14A,B,
()21A,B,()22A,B,()23A,B,()24A,B,()21,BB,()31,BB,()14B,B,()32,BB,()24B,B,()34B,B,共15个.其中至少有一名女生的基本事件有9个.所以,抽到的2人中至少有1名女生的概率93155P==;9.(2022·
重庆·高三开学考试)数字人民币是由央行发行的法定数字货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.数字人民币(试点版)App已上架各大安卓应用商店和苹果AppStore.在数字人民币APP(试点版)上线后,消费者体验的热情高涨.数据显示,数字人民币个
人钱包开立速度明显加快.交易规模正在迅速扩大.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构对数字人民币的体验者进行了满意度评分调查(满分为100分),最后该公司共收回400份评分表,然后从中随机抽取40份(男女各20份)作为样本,绘制了如下茎叶图:
(1)求40个样本数据的中位数m,并说明男性与女性谁对数字人民币体验的满意度更高;(2)如果评分不小于m的为“满意”,评分小于m的为“不满意”,根据所给数据,完成下面的22列联表,判断是否有95%的把握认为“满意度”与“性别”有关?是否满意性别满意不满意合计女性男性合计(3)若从样本中的
男性体验者中,按对数字人民币满意度用分层抽样的方法抽取10人,然后从这10人中抽取3人进行进一步调查,求被选中的3人中至少有2人对数字人民币不满意的概率.附:()()()()()22nadbcKabcdacbd−=
++++.()2PKk0.0500.0100.001k3.8416.63510.828【答案】(1)中位数81,女性满意度更高(2)列联表见解析,有95%的把握认为“满意度”与“性别”有关(3)4960【解析】【分析】(1)根据茎叶图求得中位数
,并分析男性和女性的满意度.(2)填写22列联表,计算2K的值并作出判断.(3)利用古典概型概率计算公式计算出所求概率.(1)根据茎叶图可知,中位数为8082812+=.根据茎叶图可知,女性评分大都在80,90分,男性评分大都在70,8
0分,所以女性满意度更高.(2)22列联表如下:是否满意性别满意不满意合计女性14620男性61420合计202040所以()2222401466.43.84120202020K−==,所以有95%的把握认为“满意
度”与“性别”有关.(3)抽取的10人中,有610320=人满意、1410720=人不满意,所以从这10人中抽取3人中至少有2人对数字人民币不满意的概率为21307373310984912060CCCCC+==.10.(2022·全国·高三专题练习(理))小明在某物流派送公司找到了一份
派送员的工作,该公司给出了两种日薪薪酬方案.甲方案:底薪100元,每派送一单奖励1元;乙方案:底薪140元,每日前54单没有奖励,超过54单的部分每单奖励20元.(1)请分别求出甲、乙两种薪酬方案中日薪y(单位:元)与送货单数n的函数关系式;
(2)根据该公司所有派送员100天的派送记录,发现派送员的日平均派送单数满足以下条件:在这100天中的派送量指标满足如图所示的直方图,其中当某天的派送量指标在1(,](1,2,3,4,5)55nnn−=时,日平均派送量为24xy+=单.若将频率视为概率,回答下列问题:①估
计这100天中的派送量指标的平均数(同一组中的数据用该组区间的中点值作代表);②根据以上数据,设每名派送员的日薪为X(单位:元),试分别求出甲、乙两种方案的日薪X的分布列及数学期望.请利用数学期望帮助小明分析他选择哪种薪酬方案比较合
适?并说明你的理由.【答案】(1)100Nynn=+,,140,054N20940,54Nnnynnn=−,,(2)①0.44,②答案见解析【解析】【分析】(1)由已知可得出所求的函数关
系式;(2)①根据频率直方图可求得派送量指标的平均数;②先由频率直方图求出甲、乙两种方案的日薪X的分布列,根据期望公式求得其数学期望,比较可得结论.(1)解:甲:100Nynn=+,,乙:140,054N140(54)20,54Nnnynnn=
+−,,,故为100Nynn=+,,140,054N20940,54Nnnynnn=−,,;(2)解:①读图可知,20个0.1,30个0.3,20个0.5,20个0.7,10个0.9,故平均数200.1300.3200.5200.7100.90.4410
0x++++==;②甲方案:X的分布列为:X(日薪)152154156158160P(概率)0.20.30.20.20.10.21520.31540.21560.21580.1160155.4EX=++++=(),乙方案:X的分布列为:X
(日薪)140140180220260P(概率)0.20.30.20.20.1()0.21400.31400.21800.22200.1260176EX=++++=,乙的期望更高,故选择乙方
案.11.(2022·北京八中高三开学考试)某地区期末进行了统一考试,为做好本次考试的评价工作,将本次成绩转化为百分制,现从中随机抽取了50名学生的成绩,经统计,这批学生的成绩全部介于40至100之间,将数据按照)40,50,)50,60,)60,70,)70,80,
)80,90,90,100分成6组,制成了如图所示的频率分布直方图.(1)求频率分布直方图中m的值;(2)在这50名学生中用分层抽样的方法从成绩在)70,80,)80,90,90,100的三组中抽取了11
人,再从这11人中随机抽取3人,记为3人中成绩在)80,90的人数,求的分布列和数学期望;(3)转化为百分制后,规定成绩在90,100的为A等级,成绩在)70,90的为B等级,其它为C等级
.以样本估计总体,用频率代替概率.从以下两个条件中任选一个作答:当k为何值时P的值最大?(直接写出答案,不用写出解答过程.若选择多个条件作答,以第一个为准.)①从所有参加考试的同学中随机抽取()3kk人,其中获得B等级的人数恰为3人的概率为P;②从所有参加考试的同学
中随机抽取10人,其中获得B等级的人数恰为()10kk人的概率为P.【答案】(1)0.012m=(2)分布列见解析,9()11E=;(3)选①7k=;选②4k=;【解析】【分析】(1)根据已知条件,结合频率分布直方图的性质计算可得;(2)由题意可推得,所有可能取值为0,1
,2,3,分别求出对应的概率,即可求得分布列,再结合期望公式,即可求解.(3)若选①则()3330.410.4kkPC−=−,当3k=时直接求出概率,当3k时,由()()()()31333331313333310.410.40.410.40.410.40.41
0.4kkkkkkkkCCCC−−−−−+−+−−−−,解出不等式,即可求出k的值;若选②则()10,0.4kB,再根据()()()()11PkPkPkPk−+得到不等式组
,即可求出k的值;(1)解:由频率分布直方图的性质可得,(0.0040.0220.030.0280.004)101m+++++=,解得0.012m=;(2)解:)70,80,)80,90,90,100的三组频率之比为0.28:0.12:0.047:3:1=,从)70,80
,)80,90,90,100中分别抽取7人,3人,1人,所有可能取值为0,1,2,3,则3831156(0)165CPC===,218331128(1)55CCPC===,12833118(2)55CCPC===,333111(3)165CPC=
==,故的分布列为:0123P5616528558551165故5628819)012316555551651(1E=+++=.(3)解:依题意B等级的概率为(0.0280.012)100.4+=,若选①,则()3330.410.4kkPC−=−,当3k=时30.40.064P=
=,当3k时则()()()()31333331313333310.410.40.410.40.410.40.410.4kkkkkkkkCCCC−−−−−+−+−−−−,即()0.6320.61kkkk−−+,解得1315
22k,因为*kN,所以7k=,即当7k=时,()733370.410.40.2903040.064PC−=−=取得最大值;若选②,依题意()10,0.4kB,所以()()10100.410.4kkkPkC−=−,所以()()()()1
1PkPkPkPk−+,即()()()()10101111010101011110100.410.40.410.40.410.40.410.4kkkkkkkkkkkkCCCC−−+−−−−−++−−−−,即()1010.40.61011
0.60.41kkkk−+−+++,解得172255k,因为*kN,所以4k=;12.(2022·贵州贵阳·高三期末(文))为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,教育部开展了招
生改革工作一一强基计划.现某机构对某高中学校学生对强基课程学习的情况进行调查,在参加数学和物理的强基计划课程学习的学生中,某机构为研究考生物理成绩与数学成绩之间的关系,从一次考试中随机抽取11名考生的数据,统计如下表:数学
成绩x4665798999109116120123134140物理成绩y505460636668700737680(1)由表中数据可知,有一位考生因物理缺考导致数据出现异常,剔除该组数据后发现,考生物理成绩y与数学成绩x之间具有线性相关关系,请根据这10组数据
建立y关于x的回归直线方程,并估计缺考考生如果参加物理考试可能取得的成绩;(2)在这次物理强基课程的测试中,剔除缺考考生的物理成绩后,剩余这10名学生物理成绩的统计数据如茎叶图所示.若采用分层抽样的方法从男
生和女生中抽取5人,再从这5人中抽取3人参加学校组织的关于强基计划的访谈调查,求抽出的学生中恰好有一名女生的概率.附:参考公式:对于一组数据()()()1122,,,,,,nnxyxyxy其回归直线ˆˆˆybxa=+的斜率和截距的最小二乘估计分别为:()()()112221
1ˆˆˆ,nniiiiiinniiiixxyyxynxybaybxxxxnx====−−−===−−−参考数据:(剔除零分前)111iix=111iiy=111iiixy=1121iix=2586832611206606858612272
60.31上表中的ix表示样本中第i名考生的数学成绩,iy表示样本中第i名考生的物理成绩.【答案】(1)ˆ0.3135yx=+;72.2;(2)0.6.【解析】【分析】(1)根据给定数据求出剔除异常数据后的,xy及101iix=,利用最小二乘法计算
并求出回归直线方程,并估计物理成绩.(2)利用分层抽样求出被抽6人中男女生人数,再用列举法求解概率作答.(1)令出现异常数据的考生为第11名,剔除异常数据后的数学平均分为111011120111201
20100101010iiiixxx==−−====,剔除异常数据后的物理平均分为11101101660066101010iiiiyyy==−−====,又因为10112221112012272614400108326iiiixx
===−=−=,10111168586iiiiiixyxy====,设根据剔除后数据建立的y关于x的回归直线方程为ˆˆˆybxa=+,则有26858610661002586ˆˆ0.31,660.3110035108326101008326ba−===−=−,因此所求回归直线方程为
ˆ0.3135yx=+,又物理缺考考生的数学成绩为120,所以估计其可能取得的物理成绩为ˆ0.311203572.2y=+=.(2)由茎叶图可知,男生有6人,女生有4人,采用分层抽样的方法抽取5人,则男生应抽取3人,记这3
名男生为123,,aaa;女生应抽取2人,记这2名女生为12,bb,从这5人中随机抽取3人一共有10种,它们为:()()()()()()()123121122131132112231,,,,,,,,,,,,,,,,,,,,aaaaabaabaabaababbaab,()()(
)232212312,,,,,,,,aababbabb,其中抽出的学生中恰好有一名女生包括6种情况,所以所求事件的概率为60.610=.13.(2022·江西九江·一模(文))COMS温度传感器(集成温度传感器)是
一种采用大规模数字集成电路技术的温度传感器,集成了温度传感电路和信号处理电路,可检测芯片温度和环境温度,具有低成本、低功耗、高精度和线性度强的优点,广泛用于环境、医疗、制造业、化工、能源、气象、仓储、冷
藏、冰柜、恒温恒湿生产车间、办工场所等领域.下表是通过对某型号COMS高精度温度传感器IC的芯片温度与输出电压进行初步统计得出的相关数据:芯片温度()tCo20−204080100输出电压测量值()UV2.492.071.881.451.31(1
)已知输出电压U与芯片温度t之间存在线性相关关系,求出其线性回归方程;(精确到小数点后两位)(2)已知输出电压实际观察值为iU,估计值(拟合值)为iU,以上述数据和(1)中的线性回归方程为依据,()211niiiUUn==−.若满足3iiUU−,则可判断
该COMS高精度温度传感器IC工作正常;若不满足,则可判断工作不正常.现某该型号温度传感器在芯片温度为60C时,其输出电压为1.6V,判断该温度传感器工作是否正常.参考数据:51313.8iiitU==,52118800iit==.附:对于一组数据()11,t
U、()22,tU、L、(),nntU,其回归直线Uabt=+的斜率和截距的最小二乘估计分别为1221niiiniitUntUbtnt==−=−,aUbt=−.【答案】(1)0.012.28Ut=−+;(2)工作不正常,理由见解析.【解
析】【分析】(1)求出t、U的值,利用最小二乘法公式结合参考数据求出b、a的值,可得出回归直线方程;(2)计算出的值,以及当温度为60C时,输出电压的估计值U,结合题中条件进行验证即可得结论.(1)解:由表得20204080100445t−++++==
,2.492.071.881.451.311.845U++++==,51522215313.85441.840.01188005445iiiiitUtUntt==−−==−−−,()1.840.
01442.28a=−−=,所以,输出电压U与芯片温度t之间线性回归方程为0.012.28Ut=−+.(2)解:由(1)可得:20tC=−时,12.48U=,110.01UU−=,20tC=时,22.08U=,220.01UU−=−,40tC=时,31.88U=,
330UU−=,80tC=时,41.48U=,440.03UU−=−,100tC=时,51.28U=,540.03UU−=,所以,()()521110.00010.000100.00090.00090.0255iiiUU==−=++++=,当60tC=时,0.01602.281
.68U=−+=,1.601.680.0830.020.06UU−=−==,因此,该温度传感器工作不正常.14.(2022·安徽合肥·高三期末(理))某地积极响应“大众创业,万众创新”的号召,规划建设创新小镇,吸引人
才投资兴业.下表是自创新小镇建设以来,各年新增企业数量的有关数据:年份(年)20162017201820192020年份代码(x)12345新增企业数量(y)817292442(1)为了解这些企业在2
021年被认定的企业类型,随机调查了10家企业,其中被认定为小微企业的有8家,试估计这些企业在2021年被认定为小微企业的数量;(2)利用最小二乘法建立y关于x的线性回归方程,并预测2022年这个创新小镇新增企业的数量.参考公式:回归方程yabx=+中,斜率和截距最小二乘法估计公式分别为()()(
)121niiiniixxyybxx==−−=−,aybx=−$$.【答案】(1)96家;(2)1.57.5yx=+,估计2022年这个创新小镇新增企业的数量约为54家.【解析】【分析】(1)由题可知估计总体中被认定为小微企业的概率为0.8,即求;(2)利用线性回归直线公式即求.(1)在
抽取的样本中,被认定为小微企业的频率为0.8,以此估计总体中被认定为小微企业的概率为0.8,∵2016-2020年该创新小镇新增企业数共有120家,∴估计2021年被认定为小微企业的共有1200.896=家.(2)由表中数据计算得123453
5x++++==,817292442245y++++==,()()()()()()52222221132333435310iixx=−=−+−+−+−+−=,()()()()()()()()()()()()151382423172433292443242453422475iiixxyy=−
−=−−+−−+−−+−−+−−=,757.510b==,1.2475.53aybx=−−==,所以1.57.5yx=+,2022年,即当7x=时,由线性回归方程可得1.57.5754y=+=,所以,估计2022年这个创新小镇新增企业的数量约为54家.15.(2022·全国·高
三专题练习)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表:x1234y12284256(Ⅰ)在图中画出表中数据的散点图;(Ⅱ)根据(Ⅰ)中的散点图拟合y与x的回归
模型,并用相关系数甲乙说明;(Ⅲ)建立y关于x的回归方程,预测第5年的销售量约为多少?.附注:参考数据:421()32.6iiyy=−,52.24,41418iiixy==.参考公式:相关系数122
11()()()()niiinniiiixxyyrxxyy===−−=−−,回归方程yabx=+中斜率和截距的最小二乘法估计公式分别为:1122211()()()ˆnniiiiiinniiiixxyyxynxybxxxnx===
=−−−==−−,aybx=−.【答案】(1)见解析(2)可以用线性回归模型拟合y与x的关系.(3)第5年的销售量约为71万件.【解析】【详解】【试题分析】(1)依据题设条件中的表格中的数据作为坐标在平面直角坐标系中将点画出即为散点图;(2)先借助问题(1)
中的散点图推断这些点位于一条直线的周围,再运用平均数公式求纵横坐标的平均数,进而运用公式()()()()12211niiinniiiixxyyrxxyy===−−=−−求相关系数r;(3)先借助(2)的结论求出线性回归方程中的ˆˆba,,得到回归方程73
25ˆyx=−,再运用回归方程7325ˆyx=−进行分析求解:解:(Ⅰ)作出散点图如图:(Ⅱ)由(Ⅰ)散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据得:52x=,692y=,41418ii
ixy==,()42132.6iiyy=−,42130iix==,()()4441115418138732iiiiiiiixxyyxyxy===−−=−=−=,()24422211530452.242iiiixxx
nx==−=−=−=,()()()()41442211730.99962.2432.6iiiiiiixxyyrxxyy===−−==−−.∵y与x的相关系数近似为0.9996,说明y与x的
线性相关程度相当大,∴可以用线性回归模型拟合y与x的关系.(Ⅲ)由(Ⅱ)知:52x=,692y=,41418iiixy==,42130ix==,421()5iixx=−=,1221735ˆniiiniixynxybxnx==−==−,69735225ˆ2ˆaybx=−=−=−,故y
关于x的回归直线方程为7325ˆyx=−,当5x=时,7352715ˆy=−=,所以第5年的销售量约为71万件.