【文档说明】第59讲、统计-解析版-2023届高考数学二轮复习经典结论微专题.docx,共(13)页,636.725 KB,由envi的店铺上传
转载请保留链接:https://www.doc5u.com/view-38fc298074d0a25607d8cc24e3ceb5c5.html
以下为本文档部分文字说明:
第59讲、统计通过一、抽样方法1.简单随机抽样:从元素个数为N的总体中不放回地抽取容量为()nnN的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫作简单随机抽样.简单随机抽样必须具备以
下特点:(1)简单随机抽样要求被抽取的样本的总体个数N是有限的;(2)简单随机样本数n小于等于样本总体的个数N;(3)简单随机样本是从总体中逐个抽取的;(4)简单随机抽样是一种不放回的抽样;(5)简单随机抽样的每个个体呗
抽取的可能性均为.nN2.系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样。(1)当总体容
量N较大时,采用系统抽样.(2)将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等。因此,系统抽样又称等距抽样,分段的间隔一般为.nkN=(3)预先制定的规则指的是在第一段内采用简单随机抽样确定一个起始编号,在此编号的基础上加上分段间隔的整数倍
即为抽样编号.3.分层抽样:当总体由明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的部分,每一部分叫作层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫作分层抽样.=nN样本容量该层抽取的个体数(1);总体的个数该层
的个体数(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比。通关二、频率分布直方图与茎叶图1.画出频率分布直方图的步骤(1)计算极差:找出数据的最大值与最小值,计算它们的差;(2)决定组距与组教;取组距,用极差组距决定组数;(3)决
定分点:决定起点,进行分组;(4)列频率分布表:对落入各小组的数据累计,算出各小组的频数,除以样本容量,得到各小组的频率;(5)绘制频率分布直方围:以教据的值为横坐标,以频率组距的值为纵坐标绘制直方图
.小长方形的面积=组距×频率组距=频率.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连结频率分布直方图中各小长方形上端的中点,即得频率分布折线图.(2)总体密度曲线:随着样本容量的增加,图时所分组数增加,组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,即总体密度曲线.
3.制作茎叶图的步骤(1)将数据分为“茎”“叶”两部分;(2)将最大茎与最小茎之间的数宇按大小顺序排成一列,并画上竖线作为分隔线;(3)将各个数据的“叶”在分界线的一侧对应茎处按一定次序同行列出.通关三、独立性检验1.独立性
检验的有关概念②分类变量:可以利用不同“值”表示个体所属的不同类别的变量称为分类变量.②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为|x1,x2|和|y1,y2|,其样本频数列联表称为2×2列联表,如下表所示:y1y2总计
x1aba+bx2cdc+d总计a+cb+da+b+c+d2.𝐾2统计量:为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量,𝐾2=𝑛(𝑎𝑑−𝑏𝑐)2(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑏
+𝑑)(其中n=a+b+c+d为样本容量).3.两个分类变量A和B是否有关系的判断方法①当𝐾2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联;③当22.706K时,有90%的把握判定变量A,B有关联;④当2
3.841K时,有95%的把握判定变量A,B有关联;⑤当26.635K时,有99%的把握判定变量A,B有关联;⑥当210.828K时,有99.9%的把握判定变量A,B有关联;通关四、回归分析1.n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为ˆˆˆybxa=+,其中()
()()1122211ˆˆˆnniiiiiinniiiixxyyxynxybxxxnxaybx====−−−==−−=−.2.我们将这个方程叫作回归直线方程,ˆb,ˆa叫作回归系数,相应的直线叫作回归直线.要点诠释:其中11niixxn==,11
niiyyn==,(),xy称为样本点的中心.结论一、抽样方法中的计算问题的求法1.系统抽样中的计算问题:系统抽样中被抽取的两个样本编号的间距相等,据此,若有n个总体,希望抽取m个体,确定抽样间距时,若𝑛𝑚为整数,则抽样间距
为𝑛𝑚;否则,一般先剔除几个个体,使得𝑛𝑚为整数,抽样间距一般为不大于𝑛𝑚的最大整数.2.分层抽样中的计算问题:分层抽样满足“每层中抽取的个体数量本层的总个体数量=样本容量总体数量”即1212nnnN
NN===“或1212:::::nnnNNN=”,据此在已知每层间的个体数量或数量比、样本容量、总体数量中的两个时,就可以求出第三个.【例1】交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调
查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为().A.101B.808C.1212D.2012【答案】B【
解析】因为甲社区有驾驶员96人,在甲社区中抽取驾驶员的人数为12,所以每个个体被拍到的概率为品18,样本容量为12+21+25+43=101,所以这四个社区驾驶员的总人数N为10180818=.故选B.【变式】某学校为了解100
0名新生的身体素质,将这些学生编号1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是().A.8号学生B.200号学生C.616号学生D.815号学生【答案】
C【解析】因为要从1000名学生中抽取一个容量为100的样本,所以系统抽样的分段间隔为1000=10100.因为46号学生被抽到,则根据系统拍样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,设其数列为na,
则()610114=0.nann+−=−当n=62时,62=616a,即在第62组抽到的是616号学生.故选C.结论二、频率分布直方图的理解1.纵轴表示频率组距,即小长方形的高=频率组距;2.小长方形的面积=组距×频率组距=频率;3.数据落在各小组内的频率用各小长方形的面积表示,
各小长方形的面积总和等于1.【例2】某高校调查了200名学生每周的自习时间(单位:时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,
27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是().A.56B.60C.120D.140【答案】D【解析】自习时间不少于22.5小时的频率为:(0.16
+0.08+0.04)×2.5=0.7,故自习时间不少于22.5小时的频数为:0.7×200=140故选D【变式】某电子商务公司对10000名网络购物者2019年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内其频率分布直方图
如图所示.(1)直方图中的a=_______.(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.【答案】(1)3(2)6000【解析】(1)由题意,根据直方图的性质得(1.5+2.5+a+2.0+0.8+0.2)×0.1=1解得a=3.(2)由直方图得(
3+2.0+0.8+0.2)×0.1×10000=6000.结论三、茎叶图1.茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.2对于样本数据较少,但较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个
位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶,样本数据为小数时做类似处理.3茎叶图通常用来记录两值教的数据,它可以用来分析单组数据,也可以对两组数据进行比较,通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,是否关于该茎对称,是否分布
均匀等.【例3】从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则().甲乙8650884001028752202337800312448314238A.xxmm
甲乙甲乙,B.xxmm甲乙甲乙,C.xx甲乙,m甲>m乙D.xx甲乙,m甲<m乙【答案】B【解析】甲的平均数5+6+8+10+10+14+18+18+22+25+27+30+30+38+41+43345==1616x甲,乙的
平均数10+12+18+20+22+23+23+27+31+32+34+34+38+42+43+48457==1616x乙,所以xx甲乙.甲的中位数为20,乙的中位数为29,所以m甲<m乙,故选B.【变式】如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位
数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7【答案】A【解析】由已知中甲组数据的中位数为65,故乙组数据的中位数也为65,即5y=,则乙组数据的平均数为:66,故3x=,故选A.结论四、用样本的数字特征估计总体的数字特征1.平均数、中
位数、众数数字特征样本数据平均数样本数据的算术平均数中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)众数出现次数最多的数据2.样本方差与标准差3.平均数、方差的有关性质【例4】如图所示,样本A和B分别取自
两个不同的总体,它们的样本平均数分别为AX、BX,样本标准差分别为AS,BS,则()A.ABXX,ABSSB.ABXX,ABSSC.ABXX,ABSSD.ABXX,ABSS【答案】B【解析】样本A
的数据均不大于10,而样本B的数据均不小于10,显然ABXX,由图可知A中数据波动程度较大,B中数据较稳定,ABss.故选:B.【变式】为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:)kg分别是1x,2x,,nx,下面给出的指标中可以用来评估这种农作物亩
产量稳定程度的是()A.1x,2x,,nx的平均数B.1x,2x,,nx的标准差C.1x,2x,,nx的最大值D.1x,2x,,nx的中位数【答案】B【解析】在A中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,故不可以用来评估这种农作物亩产
量稳定程度;在B中,标准差能反映一个数据集的离散程度,故可以用来评估这种农作物亩产量稳定程度;在C中,最大值是一组数据最大的量,故不可以用来评估这种农作物亩产量稳定程度;在D中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,故不可以用来评估这
种农作物亩产量稳定程度.故选:B.结论五、独立性检验1.独立性检验原理只能解决两个对象,且每个对象有两类属性的问题,所以对于一个实际问题,我们首先要确定能否用独立性检验的思想加以解决;2.如果确实属于这类问题,要科学地抽取样本,样本容量要适当
,不可太小,根据数据列出22列联表;3.提出假设H0:所研究的两类对象(X,Y)无关;4.根据公式计算22()=()()()()nadbcKabcdacbd−++++的值;5.比较观测值k与临界值表中相应的检验水平,
根据小概率原理肯定或者否定假设,即判断X,Y是否相关.【例5】某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)
能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()=()()()()nadbcKabcdacbd−++++.20()PKk0.0500.0100.0010k3.8416.63510.828【解析】(1)由题中数据可知,男顾客对
该商场服务满意的概率404505P==,女顾客对该商场服务满意的概率303505P==;(2)由题意可知,22100(40203010)1004.7623.8417030505021K−==,故有95%的把握认为男、女顾客对该商场服务的评价有差异.【变式】某工
厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)min绘制了如下茎叶图
:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表
,能否有99%的把握认为两种生产方式的效率有差异?附:22()=()()()()nadbcKabcdacbd−++++,20()PKk0.0500.0100.0010k3.8416.63510.828【解析】(1)根据茎叶图中的数据知,第一种生产方式的工作时间主要
集中在72~92之间,第二种生产方式的工作时间主要集中在65~85之间,所以第二种生产方式的工作时间较少些,效率更高;(2)这40名工人完成生产任务所需时间按从小到大的顺序排列后,排在中间的两个数据是79和81,计算它们的中位数为7981802m+==;由此填写列联表如下;超过m不超过m总计
第一种生产方式15520第二种生产方式51520总计202040(3)根据(2)中的列联表,计算222()40(151555)106.635()()()()20202020nadbcKabcdacbd−−===++++,
能有99%的把握认为两种生产方式的效率有差异.结论六、回归直线方程要点诠释:线性回归直线一定经过样本点的中心(,xy),据此性质可以解决有关的计算问题、判断结论的正确性。【例6】为了解某社区居民的家庭年收入与年支出的关系,随机调查了该
社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程ˆˆˆybxa=+,其中ˆˆˆ0.76,baybx==−,据此估计,该社区
一户收入为15万元家庭年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元【答案】B【解析】由题意可得1(8.28.610.011.311.9)105x=++++=,1(6.27.58.08.59.8)85y=+
+++=,代入回归方程可得ˆ80.76100.4a=−=,所以回归方程为ˆ0.760.4yx=+,把15x=代入方程可得ˆ0.76150.411.8y=+=,故选B.【变式】为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数
据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为ˆˆˆybxa=+,已知101225iix==,1011600iiy==,ˆ4b=,该班某学生的脚长为24厘米,据此估计其身高为()厘米。A.160B.163C.166D.170【解析】由线性回归方程为
ˆˆ4yxa=+,则101122.510iixx===,101116010iiyy===,则数据的样本中心点(22.5,160),由回归直线方程样本中心点,则ˆ4160422.570ayx=−=−=,所以回归直线方程为ˆ470yx=+,当24x=时,ˆ4247016
6y=+=,则估计其身高为166,故选C.