【文档说明】备战2024年高考数学易错题(新高考专用)专题13 统计 Word版含解析.docx,共(75)页,4.841 MB,由小赞的店铺上传
转载请保留链接:https://www.doc5u.com/view-04366e5536c5dd31f59303f5442e75a5.html
以下为本文档部分文字说明:
专题13统计易错点一:统计用表中概念不清、识图不准致误(频率分布直方图、总体取值规律)频率分布直方图作频率分布直方图的步骤①求极差:极差为一组数据中最大值与最小值的差.②决定组距与组数将数据分组时,一般取等长组距,并且组距应力求“取整”,组
数应力求合适,以使数据的分布规律能较清楚地呈现出来.③将数据分组④列频率分布表各小组的频率=小组频数样本容量.⑤画频率分布直方图纵轴表示频率组距,频率组距实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×频率组距=频率.频率分布直方图的性质①因为小矩形的面积=组距×频率组距=频率
,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.②在频率分布直方图中,各小矩形的面积之和等于1.③频数相应的频率=样本容量.④频率分布直方图反映了样本在各个范围内取值的可能性,由抽样
的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.易错提醒:频率分布条形图和频率分布直方图是两个完全不同的概念,考生应注意两者之间的区别.虽然它们的横轴表示的内容是相同的,但是频率分布条形图的纵轴表示频率;频率分布直方图的纵轴表示频率
与组距的比值,其各小组的频率等于该小组上的矩形的面积.例:如图所示是某公司(共有员工300人)2021年员工年薪情况的频率分布直方图,由此可知,员工中年薪在1.4万元~1.6万元之间的共有______人.易错分析:解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4
万元~1.6万元之间的频率为()10.020.080.1020.60−++=,从而得到员工中年薪在1.4万元~1.6万元之间的共有3000.60180=(人)的错误结论.正解:由所给图形,可知员工中年薪
在1.4万元~1.6万元之间的频率为()10.020.080.080.100.1020.24−++++=,所以员工中年薪在1.4万元~1.6万元之间的共有3000.2472=(人).故72.易错警
示:考生误认为频率分布直方图中纵轴表示的是频率,这是错误的,而是“频率/组距”,所以频率对应的是各矩形的面积.变式1:某大学有男生2000名.为了解该校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这100名男生的体
重(单位:kg)分成以下六组:)54,58、)58,62、)62,66、)66,70、)70,74、74,78,绘制成如下的频率分布直方图:该校体重(单位:kg)在区间70,78上的男生大约有人.【详解】
由频率分布直方图可知,该校体重(单位:kg)在区间70,78上的男生的人数为()20000.020.014240+=.故答案为:240.变式2:现对某类文物进行某种物性指标检测,从1000件中随机抽取了200件
,测量物性指标值,得到如下频率分布直方图,据此估计这1000件文物中物性指标值不小于95的件数为.【详解】抽取的200件文物中,物性指标值不小于95的频率为()0.0330.0240.0080.002100.67+++=,由此估
计出1000件文物中,物性指标值不小于95的频率约为0.67,∴估计这1000件文物中物性指标值不小于95的有10000.67670=件.故答案为:670.变式3:如图是根据我国部分城市某年6月份的平均气温数据
得到的样本频率分布直方图,其中平均气温的范围是[20,26],样本数据的分组为[20,21),[21,22),[22,23),[23,24),[24,25),[25,26].已知样本中平均气温低于22°C的城市个数为11,样本中平均气温不低于25°C的城市
个数是.【详解】由题意可得:平均气温低于22°C的频率为0.1010.1210.22+=,平均气温不低于25°C的频率为0.1810.18=,∴样本中平均气温低于22°C的城市个数为11,则样本容量为11500.22=,故样本中平均气温不低于25°C的城市的个数
为0.18509=.故答案为:9.1.已知某班全体学生在某次数学考试中的成绩(单位:分)的频率分布直方图如图所示,则图中a所代表的数值是.【答案】0.015【分析】根据频率分布直方图结合频率和为1运算求解.【详解】由
频率分布直方图可知每组频率依次为:0.1,10,0.35,0.3.0.1a,则0.1100.350.30.11++++=a,解得0.015a=.故答案为:0.015.2.某校共有400名学生参加了趣味知识竞赛(满分:150
分),且每位学生的竞赛成绩均不低于90分.将这400名学生的竞赛成绩分组如下:[90,100),[100,110),[110,120),[120,130),[130,140),[140,150],得到的频率分布直方图如图所示,则这400名学生中竞赛成绩不低于120
分的人数为.【答案】220【分析】由频率分布直方图的面积和为1求出a,再计算出结果即可.【详解】由频率分布直方图可知()0.0100.0100.0250.0150.005101a+++++=,解得0.035a=,这400名学生中竞赛成绩不低于120分的人数为()4000.0350.0150.0
0510220?+?,故答案为:2203.从某小学所有学生中随机抽取100名学生,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图),其中样本数据分组[100,110),[110,120),[120,130),[130,140),[1
40,150),则a=.【答案】0.020【分析】根据频率和为1,结合图表中数据,列式计算即可.【详解】根据图表数据可得:()100.0050.0350.0300.0101a++++=,即0.0800.1a+=,0.020a=.故答案为:0.020.4.某工厂抽取100件产品测其重量(单位
:kg).其中每件产品的重量范围是[40,42].数据的分组依次为40,40.5),40.5,41),41,41.5),41.5[[[[,42],据此绘制出如图所示的频率分布直方图,则重量在[40,41)内的产品
件数为.【答案】40【分析】根据直方图确定各组的频率,进而求出[40,41)的频率,最后估算出对应的产品件数.【详解】由题设40,40.5),40.5,41),41,41.5),41.5[[[[,42]对应频率依
次为0.05,0.35,0.4,0.2,所以[40,41)的频率为0.4,故重量在[40,41)内的产品件数为0.410040=.故答案为:405.某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差
异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为()pc;误诊率是将未患病者判定为阳性的概率,记为()qc.假设数据在
组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数()()()fcpcqc=+,则函数()fc在区间[95,105]取得最小值时c=.【答案】100【分析】根据题意结合频率分布直方图求出函数()fc的解析式,然后利用函数的性质求出最小值时的自变量c的值即可
.【详解】当[95,100]c时,()()()fcpcqc=+()()950.0021000.0150.0020.0080.82ccc=−+−+=−+,有函数()fc在[95,100]c单调递减,所以()()()()100950.020.06ffcffc,当
(100,105c时,()()()fcpcqc=+()()50.0021000.0121050.0020.010.98ccc=+−+−=−,有函数()fc在(100,105c单调递增,所以()()()()100105
0.020.07ffcffc,所以()0.0080.82,951000.010.98,100105ccfccc−+=−,所以()fc在95,105上有最小值0.02,当100c=时取到最小值.故答案为:100.6.某大学有男生10000名.为了解该
校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这100名男生的体重(单位:kg)分成以下六组:)54,58、)58,62、)62,66、)66,70、)70,74、74,78,绘制成如图所示的频率分布直方图,该校体重(
单位:kg)在区间70,78上的男生大约有人.【答案】1200【分析】由频率分布直方图求得体重在区间70,78上男生的频率,由此求得正确答案.【详解】体重在区间70,78上男生的频率为()4
0.020.010.12+=,所以在区间70,78上的男生大约有100000.121200=人.故答案为:12007.某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:秒),将数据按照)11.5,12,)12,12.5,…,15
.5,16分成9组,制成了如图所示的频率分布直方图.由直方图估计本校高三男生100米体能测试成绩大于13.25秒的频率是.【答案】0.63/63100【分析】根据频率分布直方图中各矩形面积之和为1,可求得a的值,再结合频率分布直方图即可求得答案.【详
解】由频率分布直方图中各矩形面积之和为1,可得0.5(0.0820.160.3020.520.120.04)1a++++++=,解得0.40a=,故体能测试成绩大于13.25秒的频率是10.5(0.
400.520.300.120.080.04)0.632+++++=,故答案为:0.638.某工厂对一批产品的长度(单位:mm)进行检验,将抽查的产品所得数据分为五组,整理后得到的频率分布直方图如图所示,若长度在20mm以下的产品有30个,则长度在区间)20,30内的产品个数为.【答
案】55【分析】先根据频率分布直方图求出长度在区间)20,30内的频率,根据频率分布直方图求出长度在20mm以下的频率,后用比例相等即可得答案.【详解】由频率分布直方图可知,长度在区间)20,30内的频率为5(0.080.03)0.55?=,长度在20mm以下的频率
为5(0.020.04)0.3?=则长度在区间)20,30内的产品个数为300.55550.3=,故答案为:55.9.某中学为了解学生的数学学习情况,在全体学生中随机抽取200名,统计这200名学生某次数学考试的成绩,将所得的数据分为7组:)30,40,)40,50,…,)80,90,
90,100,并整理得到如下频率分布直方图,则在被抽取的学生中,该次数学考试成绩不低于80分的人数为.【答案】56【分析】由频率分布直方图求出在被抽取的学生中,该次数学考试成绩不低于80分的频率,再由频率与频数的关系数学考试成绩不低于80分的人数.【详解】由频率分布直方图可得在被
抽取的学生中,该次数学考试成绩不低于80分的频率为()0.0200.008100.28+=,所以在被抽取的学生中,该次数学考试成绩不低于80分的人数为0.2820056=,故答案为:56.10.某
区为了解全区12000名高二学生的体能素质情况,在全区高二学生中随机抽取了1000名学生进行体能测试,并将这1000名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,这1000名学生平均成绩的估计值为.【答案】80.5【分析】根据所有矩形面积
之和为1求出a的值,将每个矩形底边的中点值乘以对应矩形的面积,相加可得这1000名学生平均成绩.【详解】由于频率分布直方图中所有矩形面积之和为1,可得()0.0050.0220.04101a+++=,解得
0.015a=,由频率分布直方图可知,这1000名学生平均成绩的估计值为550.05650.15750.2850.4950.280.5++++=分.故答案为:80.5.11.将一个容量为100的样本数据,按照从小到大的顺序分为8个组,如下表:组号1234567
8频数10161815119若第6组的频率是第3组频率的2倍,则第6组的频率是.【答案】0.14/750【分析】求出第6组的频数即得解.【详解】由题得第3组和第6组的频数和为1001016181511921−−−−−−=,所以第6组的频数为221143=.所以第6组的频
率是1414%0.14100==.故答案为:0.1412.节约用水是中华民族的传统美德,某市政府希望在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(吨),用水量不超过x的部分按平价收费,超过x的部分按议价收费.为此希望已经学习过统计的小明,来
给出建议.为了了解全市居民用水量的分布情况,小明通过随机走访,获得了100位居民某年的月均用水量(单位:吨),将数据按照))0,0.5,0.5,1,,4,4.5分成9组,制成了如图所示的频率分布直方图.若该市政府希望使85%的居民每月的用水量不
超过标准x(吨),如果你是小明,你觉得x的估计值为(精确到小数点后1位)【答案】2.9【分析】由频率分布直方图解得a值,估计85%的居民每月的用水量所在区间后可计算x的.【详解】由频率分布直方图知,()0.160.400.520.120.080.040.51aa+++++++=,
解得0.34a=;计算月均用水量小于2.5吨的居民人数所占的百分比为()0.50.160.340.400.520.71+++=,即71%的居民月均用水量小于2.5吨;计算月均用水量小于3吨的居民人数所占的百分比为()0.50.160.340.400.520.340.88++++=,
即88%的居民月均用水量小于3吨;故2.53x,假设月均用水量平均分布,则()0.850.730.52.50.52.90.3x−=+=(吨),即85%的居民每月用水量不超过标准为2.9吨.故答案为:2.9.易错点二:统计中的数字特征的实际意义理解不清楚致误(频率分布直方图
特征数考查)众数、中位数、平均数①众数:一组数据中出现次数最多的数.②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.③平均数:如果n个数x1,x2,…,xn,那么()==+++=niinxnxxxnx12111叫做这n个
数的平均数.总体集中趋势的估计①平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.②一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述
,可以用众数.频率分布直方图中平均数、中位数、众数的求法①样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.②在频率分布直方图中,中位数左边和右边的直方图的面积应相等.③将最高小矩形所在的区间中点作为众数的估计值.易错提醒
:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长
方形底边中点的横坐标之和.例.某班50名学生期中考试数学成绩的频率分布直方图如图所示.根据频率分布直方图,估计该班本次测试众数为.解:由题意,因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,∴众
数为1101301202+=.故答案为:120.变式1:为响应自己城市倡导的低碳出行,小李上班可以选择自行车,他记录了100次骑车所用时间(单位:分钟),得到频率分布直方图,则骑车时间的众数的估计值是分钟【详解】由频率分布直方图可知,骑车时间的众数的估计值是2022212+=分钟.故答
案为:21.变式2:数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰子出现的点数,四名同学的部分统计结果如下:甲同学:中位数为3,方差为2.8;乙同学:平均数为3.4,方差为1.04;丙同学:中位数为
3,众数为3;丁同学:平均数为3,中位数为2.根据统计结果,数据中肯定没有出现点数6的是同学.【详解】对于甲同学,当投掷骰子出现结果为1,2,3,3,6时,满足中位数为3,平均数为:()11233635x=++++=,方差为()()()()()222222113233
333632.85S−+−+−+−+−==,可以出现点数6;对于乙同学,若平均数为3.4,且出现点数6,则方差221(63.4)1.3521.045S−=,所以当平均数为3.4,方差为1.04时,一定不会出现点数6;对于丙同学,当掷骰子出现的结果为1,2,
3,3,6时,满足中位数为3,众数为3,可以出现点数6;对于丁同学,当投掷骰子出现的结果为2,2,2,3,6时,满足平均数为3,中位数为2,可以出现点数6.综上,根据统计结果,数据中肯定没有出现点数6的是乙同学.故答案为:乙变式3:以下5个命题中真命题的序号有.①样本
数据的数字特征中,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息;②若数据1x,2x,3x,…,nx的标准差为S,则数据1axb+,2axb+,3axb+,…,naxb+的标准差为aS;③将二进制数(2)11001000转化成十进制数是20
0;④x是区间[0,5]内任意一个整数,则满足“3x”的概率是35.【详解】对于命题①,平均数与每一个样本的数据有关,任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质,故与众数、中位数比较起来,平均数可以反映出更多的关
于样本数据全体的信息,命题①是真命题;对于命题②,数据1x,2x,3x,…,nx的平均数11niixxn==,2211()niiSxxn==−,而数据1axb+,2axb+,3axb+,…,naxb+的平均数为()'111n
niiiiaxaxbxbaxbnn===+=+=+,方差为()()()2222'2211111nnniiiiiiaSaxbxaxbaxbxxaSnnn====+−=+−−=−=,所以SaS=
,命题②是真命题;对于命题③,7(632)11212122100100000=++=,命题③是真命题;对于命题④,x是区间[0,5]内任意一个整数,则x可取0、1、2、3、4、5共6种结果,满足“3x”的有0、1、2共
3种结果,故概率为3162=,命题④不是真命题.故答案为:①②③.1.2022年11月卡塔尔世界杯如期举行,这是世界足球的一场盛宴.为了了解全民对足球的热爱程度,组委会在某场比赛结束后,随机抽取了1000名观众进行对足球“喜爱度”的调查评分,将得到的分数分成6段:
)70,75,)75,80,)80,85,)85,90,)90,95,95,100,得到如图所示的频率分布直方图.图中部分数据丢失,若已知这1000名观众评分的中位数估计值为87.5,则m=.【答案】0.02/150【分析】根据
中位数之前的矩形面积之和对于0.5列方程求解即可.【详解】由题可知,()()50.0250.0387.5850.050.5m+++−=,解得0.02m=.故答案为:0.022.为了普及环保知识,增强环保意识,某中学随机抽取30
名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为em,众数为om,平均数为x,则,,eommx的大小关系是.【答案】oemmx【分析】根据题意求中位数、众数和平均数,进而可对结果.【详解】
由条形统计图可知,30名学生的得分为得分345678910频数231063222因为中位数为第15,16个数(分别为5,6)的平均数,所以565.52em+==,且5出现次数最多,故5om=,平均数233410566
3728292101795.973030x+++++++==,因为55.55.97,即oemmx.故答案为:oemmx.3.《中国居民膳食指南(2022)》数据显示,6岁至17岁儿童青少年
超重肥胖率高达19.0%.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取100名学生,测量他们的体重(单位:千克),根据测量数据,按)40,45,)45,50,)50,55,)55,60,)60,65,65,70分成六组,得到的频率分布直方图如图所示.根
据调查的数据,估计该地中学生体重的中位数是.【答案】53.75【分析】根据频率分布直方图估计中位数的方法直接计算即可.【详解】()0.010.0350.20.5+=,0.20.0850.60.5+=,
该地中学生体重的中位数位于)50,55内,设中位数为m,则()0.2500.080.5m+−=,解得:53.75m=.故答案为:53.75.4.为了解某校高三学生的数学成绩,随机地抽查了该校100名高
三学生的期中考试数学成绩,得到频率分布直方图如图所示.请根据以上信息,估计该校高三学生数学成绩的中位数为.(结果保留到小数点后两位)【答案】71.67【分析】依据频率分布直方图,计算0.5p=时对应的数值,即为中位数.【详解】解:()0.0050.04100.450.5+
=,()0.0050.040.03100.750.5++=,所以中位数在)70,80之间,设中位数为m,则有700.03100.50.4510m−=−,所以57071.673m=+故答案为:71.67.5.2021年某省
高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组)12,13,第二组)13,14,…,第六组17,18,得到如下频率分布直方图.则该100名考生
的成绩的中位数(保留一位小数)是.【答案】15.3【分析】由频率分布直方图估计样本的中位数时,可知中位数出现在概率为0.5的地方,即可求解.【详解】因为前三组频率直方图面积和为0.100.150.150.4++=,前四组频率直方图面积和为0.100.1
50.150.30.7+++=,所以中位数位于第四组内,设中位数为a,则()150.300.1a−=,解得15.3a,故答案为:15.3.6.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为.【答案】65,62.5
.【分析】根据矩形的高确定众数,先计算面积确定中位数所在的区间,再利用公式求出中位数.【详解】解:∵最高的矩形为第三个矩形,∴时速的众数的估计值为6070652+=.前两个矩形的面积为(0.01+0.03)×10=
0.4<0.5,前三个矩形的面积为(0.01+0.03+0.04)×10=0.8>0.5,所以中位数在区间(60,70),设中位数为x,由题得0.4(60)0.040.5x+−=,解之得62.5x=.∴中位数的估计值为62.5.故答案为:6
5,62.5.7.某快递驿站统计了近期每天代收快件的数量,并制成如下图所示的频率分布直方图.则该快递驿站每天代收包裹数量的中位数为.【答案】260【分析】先确定中位数在区间(200,300)内,设其为x,解方程0.10.1+(200)x+−0.0050.5=即得解.【详
解】解:左边第一个矩形的面积为1000.0010.1=,左边第二个矩形的面积为1000.0010.1=,左边第三个矩形的面积为1000.0050.5=,因为0.10.10.5,0.10.10.50.5+++,所以中位数在区间(200,300)内,设其为x,
所以0.10.1(200)0.0050.5x++−=,所以260x=.故答案为:2608.某质检部门对某新产品的质量指标随机抽取100件检测,由检测结果得到如图所示的频率分布直方图.由频率分布直方图可以认为,该产品的质量指
标值Z服从正态分布()2,N,其中近似为样本平均数2,x近似为样本方差2s.设X表示从该种产品中随机抽取10件,其质量指标值位于()11.6,35.4的件数,则X的数学期望=.(精确到0.01
)注:①同一组数据用该区间的中点值作代表,计算得样本标准差11.9s;②若()2~,ZN,则()0.6826PZ−+=,(22)0.9544PZ−+=.【答案】6.83【分析】先
求出的近似值即样本平均数x,然后结合条件以及注释即可求解.【详解】计算得50.15150.25250.3350.2450.123.5x=++++=,由条件()2~23.5,11.9ZN,从而(11.635.4)0.6826PZ=.故从该种产品中随机抽取1件,其质量指标
值位于()11.6,35.4的概率是0.6826,所以抽取10件的期望值为()100.68266.8266.83EX==.故答案为:6.839.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A地区200家实
体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m,中位数为n,则mn−=.【答案】360【解析】先计算第一块小矩形的面积10.3S=,第二块小矩形的面积20.4S=,,面积和超过0.5,所以中位数在第二块求解,然后再求得平均数作差即可.【详解】第一块小矩形的面积
10.3S=,第二块小矩形的面积20.4S=,故0.50.3200030000.0002n−=+=;而10000.330000.450000.18(70009000)0.063360m=++++=,故360mn−=.故答案为:360.【点睛】本题考查频率分布直方图、
样本的数字特征,考查运算求解能力以及数形结合思想,属于基础题.10.某大学天文台随机调查了该校100位天文爱好者的年龄,得到如下样本数据频率分布直方图,则估计该校100名天文爱好者的平均岁数为.【答案】21.4【分析】根据频率分布直方图的平均数的计算公式,准确计算,
即求解.【详解】根据频率分布直方图的平均数的计算公式,可得估计该校100名天文爱好者的平均岁数为:50.16150.36250.28350.1450.08550.0221.4+++++=.故答案为:21.4.11.众数、平均数和中位数都描述了
数据的集中趋势,它们的大小关系和数据分布的形态有关.在如图的分布形态中,mnp、、分别表示众数、平均数、中位数,则mnp、、中最小值为.【答案】n【分析】将所给的直方图近似看作为一个梯形,再根据众数,平均数和中位
数的定义求解.【详解】将所给的直方图近似看作为一个梯形,则众数m出现在最大的矩形(即从左边数第6个矩形)内,平均数n出现在从左边数第4个矩形内,中位数p必须保证中位数p两边矩形面积相等,所以出现在从左边数第5个矩形内,所以n最小;故答案为:n.
12.如图为某工厂工人生产能力频率分布直方图,则估计此工厂工人生产能力的平均值为.【答案】133.8/6695【分析】先根据面积之和为1求x,然后根据直方图估计平均值的计算方法求解即可.【详解】由10(0.0080.020.04
8)1x+++=解得0.024x=,所以1150.008101250.02101350.048101450.02410133.8x=+++=.故答案为:133.8易错点三:运用数字特征作评价时
考虑不周(方差、标准差的求算)方差、标准差①假设一组数据为nxxxx,,,321,则这组数据的平均数()==+++=niinxnxxxnx12111,方差为()()()()−=−=−+−+−==2221222212111niiniinxnxnxxnxxxxx
xns,标准差()211=−=niixxns②若假设一组数据为nxxxx,,,321,它的平均数为x,方差为2s,则一组数据为baxbaxbaxbaxn++++,,,321,的平均数为bxa+,
方差为22sa。③标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.易错提醒:方差(标准差)越大,说明数据的离散性越大;方差(标准差)越小,说明数据的离散性越小,数据越集中、稳定.用样
本的数字特征估计总体的数字特征时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的.虽然样本的数字特征并不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本的数字
特征稳定于总体的数字特征.例、若甲、乙两台机床同时加工直径为100mm的零件,为了检验产品的质量,从产品中随机抽取6件进行测量,测得数据如下:(单位:mm):甲:99,100,98,100,103;乙:9
9,100,102,99,100,100.通过计算,请你说明哪一台机床加工的零件更符合要求.【错解】x甲==100,乙x==100,因为两个机床所加工零件的平均数相等,平均数描绘了数据的平均水平,所以两台机床加工的零件都符合要求.【错因】平均数x对数据有“取
齐”作用,它描述了一组数据的平均水平,定量地反映了数据的集中趋势,因此平均数是与样本数据最接近、最理想的近似值,但由于样本选取的随机性,有时用平均数衡量总体的特征会失之偏颇,因此应进一步计算方差或标准差来
比较它们的波动大小.【正解】x甲==100,乙x==100,s=×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]=,s=×[2×(99-100)2+3×(100-10
0)2+(102-100)2]=1.s>s,说明甲机床加工的零件波动比较大.故乙机床加工的零件更符合要求.变式1:泉州,作为古代海上丝绸之路的起点,具有深厚的历史文化底蕴,是全国同时拥有联合国三大类非遗项目的唯一城市.为高效统筹整合优质文旅资源,文旅
局在“五一”假期精心策划文旅活动,使得来泉旅游人数突破了305.85万人次.某数学兴趣小组为了解来泉游客的旅游体验满意度,用问卷的方式随机调查了500名来泉旅游的游客,被抽到的游客根据旅游体验给出满意度分值T(满分100分),该兴趣小组将收集到的数据分成五段:[45,
55),[55,65),[65,75),[75,85),[85,95],处理后绘制了如下频率分布直方图.(1)求图中a的值并估计500名游客满意度分值T的中位数(结果用分数表示);(2)已知T在[45,65)的平均数为57,方差为
104,T在[65,95]的平均数为77,方差为564,试求被调查的500名游客的满意度分值T的平均数及方差.【详解】(1)由频率分布直方图可得:(0.0050.02520.01)101a+++=,解得0.035a=由频率分布直
方图,(0.0050.025)100.30.5+=(0.0050.0250.035)100.650.5++=因此,中位数落在区间[65,75)内,0.50.349565100.357−+=可以估计500名游客满意度分值T的中位数为4957(2)把T在[45,65)的平均数记为x
,方差记为2xs;T在[65,95]的平均数记为y,方差记为2ys;T在[45,95]的平均数记为z,方差记为2s由题得,57x=,2104xs=,77y=,2564ys=,T在[45,65)的频率为(0.0050.025)100.3+=,T在[6
5,95]的频率为(0.0350.0250.1)100.7++=则0.30.70.3570.77771zxy=+=+=由222220.3[()]0.7[()]xyssxzsyz=+−++−可得2220.3[104(5771)]0.7[564(7771
)]510s=+−++−=即被调查的500名游客的满意度分值T的方差为510变式2:拔尖创新人才是21世纪社会经济发展的巨大动力,培养拔尖创新人才也成为世界各国教育的主要任务.某市为了解市民对拔尖人才培养理念的关注程度,举办了“拔尖人才素养必备”知识
普及竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:))40,50,50,60,,90,100,得到如图所示的频率分布直方图.(1)求频率分布直方图
中a的值,并估计该市这次竞赛成绩的众数;(2)已知落在)50,60的平均成绩156z=,方差219s=,落在)70,80的平均成绩276z=,方差225s=,求这两组成绩的总平均数z和总方差2s.【详解】(1)由频率分布直方图可知,()10.050.10.20.250.1
0.0310a−++++==,该市这次竞赛成绩的众数为75分.(2)落在)50,60与)70,80的人数比为0.01:0.031:3=.所以123563767144zzz++===,()()2222
221122239(5671)35(7671)8144szzzszs+−++−+−++−===.变式3:为了研究网民的上网习惯,某机构随机抽取了年龄在10岁到60岁的网民进行问卷调查,按年龄分为5组,即)10,20,)20,30,)30
,40,)40,50,50,60,并绘制出频率分布直方图,如图所示.(1)若按分层抽样的方法,从上述网民中抽取n人做采访,其中年龄在)30,40中被抽取的人数为7,求n;(2)若各区间的值以该区间的中点值作代表,求上述网民年龄的方差的估计值.【详解
】(1)由题意得,()100.0200.0250.0150.0051a++++=,解得0.035a=,年龄在)30,40中人数所占比例为0.035100.35=则7200.35n==.(2))10,20,)20,30,)30,40,)40,
50,50,60五组的频率分别为0.2,0.25,0.35,0.15,0.05,若各区间的值以该区间的中点值作代表,则上述网民年龄的平均值的估计值为150.2250.25350.35450.15550.0531++++=
(岁)方差的估计值为()()()()()222220.215310.2525310.3535310.1545310.055531124−+−+−+−+−=1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布
如图所示:令x甲,x乙分别表示甲、乙射中环数的均值;2s甲,2s乙分别表示甲、乙射中环数的方差,则()A.xx甲乙,22ss乙甲B.xx甲乙,22ss甲乙C.xx=甲乙,22ss乙甲D.xx=甲乙,22ss甲乙【
答案】D【分析】根据频率分布图分别计算,xx甲乙,22,ss乙甲,比较大小可得.【详解】由图可知,70.380.490.38,x=++=甲70.480.290.48,x=++=乙()()()2222780.3880.4980.30.6s=−+−+−=甲,()()
()2222780.4880.2980.40.8s=−+−+−=乙,所以xx=甲乙,22ss甲乙.故选:D.2.某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为)))60,70,70,80
,80,90,90,100.若不低于80分的人数是35人,且同一组中的数据用该组区间的中点值代表,则下列说法中正确的是()A.该班的学生人数是50B.成绩在)80,90的学生人数是12C.估计该班成绩的众数是95分D.估计该班成绩的方差为100【答案】ACD【
分析】根据频率与总数关系、频率和为1、频率分布直方图估计众数、平均数和方差的方法依次判断各个选项即可.【详解】对于A,不低于80分对应的频率为()10.010.02100.7−+=,该班的学生人数为35500.7=,A正确;对于B,()0.010.020.04101a+++=,
0.03a=,成绩在)80,90的学生人数为501015a=,B错误;对于C,成绩在90,100对应的矩形面积最大,估计该班成绩的众数为95分,C正确;对于D,估计该班成绩的平均数为650.
0110750.0210850.0310950.041085+++=,方差为()()()()22220.011065850.021075850.031085850.04109585−+−+−+−100=,D正确.故选:ACD.3.
从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得频率分布直方图,则这500件产品质量指标值的样本方差2s是(同一组中的数据用该组区间的中点值作代表).【答案】110【分析】
由频率分布直方图可得数据的平均值,再由方差的公式运算即可得解.【详解】由频率分布直方图得抽取产品的质量指标值的样本平均值为:()1000.0101100.0201200.0351300.0301400.00510120++++
=,∴样本方差()()()22221001200.0101101200.0201201200.035s=−+−+−()()221301200.0301401200.00510110+−+−=.
故答案为:110.【点睛】本题考查了利用频率分布直方图求数据的方差,考查了运算求解能力,属于基础题.4.在一次区域统考中,为了了解各学科的成绩情况,从所有考生成绩中随机抽出20位考生的成绩进行统计分析,其中数学学科的频率分布直方图如图
所示,据此估计,在本次考试中数学成绩的方差为.(同一组中的数据用该组区间的中点值作代表)【答案】110【解析】根据频率分布直方图,直接利用平均数与方差的公式,即可得到本题答案.【详解】由题,得550.01010650.02010750.03510x=+
+850.03010950.0051075++=,方差2222(7555)0.1(7565)0.2(7575)0.35s=−+−+−22(7585)0.3(7595)0.05110+−
+−=.故答案为:110【点睛】本题主要考查利用频率分布图求数据平均数与方差的问题.5.为了解本市居民的生活成本,甲、乙、丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得的数据
分别绘制成频率分布直方图(如图所示),记甲、乙、丙所调查数据的标准差分别为1s,2s,3s,则它们的大小关系为.【答案】132sss【解析】第二组数据是单峰的每一个小长方形的差别比较小,数字数据较分散,各个段内分布均匀,第一组数据的两端数字较多,绝大部分数字都处在两端
最分散,而第三组数据绝大部分数字都在平均数左右,是集中,由此得到结果.【详解】解:根据三个频率分步直方图知,第一组数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差最大;第二组数据绝大部分
数字都在平均数左右,数据最集中,故其方差最小,而第三组数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏离平均数大,方差比第一组中数据中的方差小,总上可知132sss,故答案为:132sss,【点睛
】本题考查频率分步直方图,考查三组数据的标准差,考查标准差的意义,是比较几组数据的波动大小的量,属于基础题.6.某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果得到如下频率分布表:质量指
标分组[10,30)[30,50)[50,70]频率0.10.60.3据此可估计这批产品的此项质量指标的方差为.【答案】144【分析】由每组数据中点值代替这组数据值,乘以频率相加得平均值,再由方差公式计算方差.【详解】由题
意得这批产品的此项质量指标的平均数为200.1400.6600.344++=,故方差为222(2044)0.1(4044)0.6(6044)0.3144−+−+−=.故答案为:144.7.2023年10月22
日,汉江生态城2023襄阳马拉松在湖北省襄阳市成功举行,志愿者的服务工作是马拉松成功举办的重要保障,襄阳市新时代文明实践中心承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组)45,55,第
二组)55,65,第三组)65,75,第四组)75,85,第五组)85,95,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.(1)估计这100名候选者面试成绩的平均数和第25百分位
数;(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.①现计划从第一组和第二组抽取的人中,再随机抽取2名作为组长.求选出的两人来自不同组的概率.②若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和7
0,据此估计这次第二组和第四组面试者所有人的方差.【答案】(1)平均数为69.5,第25百分位数为63(2)①13;②4003【分析】(1)由频率分布直方图列出方程组解出,ab,然后分别计算出平均数和百分位数即可;(2)①先利用分层抽样的方法计算样本,然后利用古典概型概率求解,然后根
据题意计算方差即可.【详解】(1)由题意可知:()10100.3100.0450.0200.7aba+=++=,解得0.0050.025ab==,可知每组的频率依次为:0.05,0.25,0.45,0.2,0.05,所以平均数
等于500.05600.25700.45800.2900.0569.5++++=,因为0.050.250.300.25+=,设第25百分位数为)55,65x,则()0.05550.0250.25x+−=,解得63x=,第25百分位数为63.(2)①根据分层抽样,)45
,55和)55,65的频率比为0.00510.0255=,故在)45,55和)55,65中分别选取1人和5人,分别编号为A和1,2,3,4,5,则在这6人中随机抽取两个的样本空间包含的样本点有:1A,2A,3A,4A,A5,12,13,14,1
5,23,24,25,34,35,45,共15个,即()10n=,记事件B“两人来自不同组”,则B包含的样本点有1A,2A,3A,4A,5A共5个,即()5nB=,所以()()()51153nBPBn===②设第
二组、第四组的平均数与方差分别为1x,2x,21s,22s,且两组频率之比为0.2550.204=,成绩在第二组、第四组的平均数562480709x+==成绩在第二组、第四组的方差()()2222211225499ssxxsxx=+−++−()(
)2254400406270708070993=+−++−=,故估计成绩在第二组、第四组的方差是4003.8.古人云“民以食为天”,某校为了了解学生食堂服务的整体情况,进一步提高食堂的服务质量,营造和谐的就餐环境,使同学们能够获得更好的饮食服务为此做了一次全校的问卷调查,问卷
所涉及的问题均量化成对应的分数(满分100分),从所有答卷中随机抽取100份分数作为样本,将样本的分数(成绩均为不低于40分的整数)分成六段:))40,5050,6090,0,,10,得到如图所示的频数分布表.样本分数
段)40,50)50,60)60,70)70,80)80,9090,100频数51020a2510频率0.050.10.2b0.250.1(1)求频数分布表中a和b的值,并求样本成绩的中位数和平均数;(2)已知落在)50,60的分数的平均值为5
6,方差是7;落在)60,70的分数的平均值为65,方差是4,求两组成绩的总平均数z和总方差2s.【答案】(1)30a=,0.3b=,75,74(2)两组市民成绩的总平均数是62,总方差是23【分析】(1)根据频率分布直方图的性质,求得0.15x=
,结合中位数、平均数的计算公式,即可求解;(2)根据分层抽样的分法,得到分数在)50,60和)60,70的人数,结合分层抽样的方差的计算方法,即可求解.【详解】(1)解:(1)由510202510100a++++
+=,解得30a=,则30b=,由0.050.10.20.5x+++=,所以0.15x=,由成绩在)70,80的频率为0.3,所以中位数为7080752+=,平均数为()10450.005550.010650.020750.030850.025950.010x=+++++
2.255.51322.521.259.574=+++++=.(2)解:由表可知,分数在)50,60的市民人数为10人,成绩在)60,70的市民人数为20人,故10566520621020z+==+,则
()()2221105662107206562204231020s=−++−+=+,所以两组市民成绩的总平均数是62,总方差是23.9.某电信运营公司为响应国家5G网络建设政策,拟实行5G网络流量阶梯定价,每人月用流量中不超过(kGB一种流
量计算单位)的部分按0.8元/GB收费,超过kGB的部分按2元/GB收费,从用户群中随机调查了10000位用户,获得了他们某月的流量使用数据,整理得到如下的频率分布直方图.已知用户月使用流量的中位数为31.(1)求表中的;n(2)若k为整数,依据本次调查为
使85%以上用户在该月的流量价格为0.8元/GB,则k至少定为多少?(3)为了进一步了解用户使用5G流量与年龄的相关关系,由频率分布直方图中流量在)20,30和)30,40两组用户中,按人数比例分配的分层抽样方法中抽取了100名用户,已知)20,30组用户平均年龄为
30,方差为36,流量在)30,40组用户的平均年龄为20,方差为16,求抽取的100名用户年龄的方差.【答案】(1)0.013n=(2)47k=(3)48【分析】(1)根据频率分布直方图的特征即可求解;(2)根据频率分布直方图,结合百分位数的求法即可求解;(3)根据频率分布直方
图,结合方差的计算公式即可求解.【详解】(1)0.10.17100.030.5m+++=,0.02m=,0.013.n=(2)通过直方图可知第85百分位数0x落在第)4050,组,()00.10.170.20.3400.0130
.85x++++−=,解得046.15x,Zk,47k=;(3)按分层抽样在)2030,组抽取40人记为1x,2x,L,40x,则()222124019003640xxx+++−=,222124093640xxx+++=,在)3040,组抽取60人,记为1y,260yy
,同理可得222126041660yyy+++=,平均值为4030602024100x+==,抽取的100名用户的方差()22193640416602462457648.100S=+−=−=10
.为建立健全国家学生体质健康监测评价机制,激励学生积极参加身体锻炼,教育部印发《国家学生体质健康标准》,要求各学校每学年开展覆盖本校各年级学生的《标准》测试工作.为做好全省的迎检工作,成都市在高三年级开展了一次体质健康模拟测试,并从
中随机抽取了200名学生的数据,根据他们的健康指数绘制了如图所示的频率分布直方图.(1)估计这200名学生健康指数的平均数x和样本方差2s(同一组数据用该组区间的中点值作代表);(2)从健康指数在[45,55),[55
,65)的两组中利用分层抽样抽出7人进行电话回访,并再随机抽出2人赠送奖品,求从7人中抽出的2人来自不同组的概率.【答案】(1)平均数为60,方差为86(2)47【分析】(1)根据频率分布直方图求各组频率,结合平均数、
方差公式运算求解;(2)根据分层抽样求分层人数,利用列举法结合古典概型运算求解.【详解】(1)由频率分布直方图可知分组的频率依次为:0.02,0.3,0.4,0.23,0.04,0.01,所以平均数400.02500.3600.4700.23800.04900.0160x=+++++
=,方差()()()()()()222222240600.0250600.360600.470600.2380600.0490600.01s=−+−+−+−+−+−4000.021000.300.41000.234000.049000.0186=+++++=,所以
这200名学生体重的平均数为60,方差为86.(2)由(1)可知健康指数在[45,55),[55,65)的两组的频率之比为0.3:0.43:4=,所以抽取的7人中,)55,65有47434=+人,记为1,2,3,4;)45,55有37334=+人,记为,,A
BC.随机试验的所有可能结果有:12,13,14,1A,1B,1C,23,24,2A,2B2C,34,3A,3B,3C,4A,4B,4C,AB,AC,BC,共21个基本事件,其中来自不同组的结果有:1A,1B,1C,2
A,2B,2C,3A,3B,3C,4A,4B,4C,共12个基本事件,所以所求概率为124217P==.11.2022年入冬以来,为进一步做好疫情防控工作,避免疫情的再度爆发,A地区规定居民出行或者出
席公共场合均需佩戴口罩,现将A地区20000个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在6以上(含6)的有14000人.口罩使用数量)2,4)4,6)6,8)8,1010,12频率0.2m0.3n0.1(1)求,mn的值,根据表中数据,完善上面的频率分布直方图;(只
画图,不要过程)(2)根据频率分布直方图估计A地区居民一周口罩使用个数的75%分位数和中位数;(四舍五入,精确到0.1)(3)根据频率分布直方图估计A地区居民一周口罩使用个数的平均数以及方差.(每组数据用每组中点值代替)【答案】(1)0.1m=,0.3n=;频率分布直
方图见解析(2)75%分位数为9个,中位数为7.3个(3)平均数为7个,方差为6.4.【分析】(1)根据频数与频率关系可构造方程求得,mn,由此可补全频率分布直方图;(2)由频率分布直方图估计百分位数和中位数的方法直接求解即可;(3)由频率分布直方图估计平均数和方差的方法直接求解即可.【详
解】(1)由每周的口罩使用个数在6以上(含6)的有14000人得:140000.30.10.720000n++==,解得:0.3n=,20000140000.20.120000m−=−=,则频率分布直方图如下:(2)0.20.10.30.
60.75++=,0.60.30.90.75+=,75%分位数位于)8,10,设其为x,则()0.680.150.75x+−=,解得:9x=,即估计75%分位数为9个;0.20.10.30.5+=,0.20.10.30.60.5+
+=,中位数位于)6,8,设其为y,则()0.360.150.5y+−=,解得:7.3y,即估计中位数为7.3个.(3)由频率分布直方图得一周内使用口罩的平均数为:30.250.170.390.3110.17+
+++=(个),方差为()()()()()2222220.2370.1570.3770.3970.11176.4s=−+−+−+−+−=,则所求平均数估计为7个,方差估计为6.4.12.某市为了制定合理
的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100户居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如下图所示的频率分布直方图.(1)求直方图中a的值;(2
)用每组区间的中点作为每组用水量的平均值,这9组居民每人的月均用水量前四组的方差都为0.3,后5组的方差都为0.4,求这100户居民月均用水量的方差.【答案】(1)0.30;(2)1.1136.【分析】(1)根据给定的频率分布直方图,利用各小矩形面
积和为1求出a值作答.(2)求出100户居民月均用水量的平均数,再列式计算方差作答.【详解】(1)由频率分布直方图知,数据在0,0.5),0.5,1),[1,1.5),[1.5,2),[2,2.5),[2.5,3),[3,3.5),[3.5,4),[4,4
.5][[的频率依次0.04,0.08,0.5,0.21,0.25,0.5,0.06,0.04,0.02aa,则由0.040.080.50.210.250.50.060.040.021aa+++++++
+=,解得0.30a=,所以直方图中a的值为0.30.(2)由频率分布直方图得100户居民月均用水量的平均数为:0.040.250.080.750.151.250.211.750.252.250.152.750.063.25x=++++
++0.043.750.024.252.03++=,所以这100户居民月均用水量的方差为:22220.04[0.3(0.252.03)]0.08[0.3(0.752.03)]0.15[0.3(1.252.03)]s
=+−++−++−2220.21[0.3(1.752.03)]0.25[0.4(2.252.03)]0.15[0.4(2.752.03)]++−++−++−2220.06[0.4(3.252.03)]0.04[0.4(3.752.03)]0.02[0.4(4.252.03)]1.11
36++−++−++−=.13.亚洲运动会简称亚运会,是亚洲规模最大的综合性运动会,由亚洲奥林匹克理事会的成员国轮流主办,每四年举办一届.1951年第1届亚运会在印度首都新德里举行,七十多年来亚洲运动员已成为世界体坛上一支不可忽视的力
量,而中国更是世界的体育大国和亚洲的体育霸主.第19届杭州2022年亚运会将于2023年9月23日至10月8日举办,为普及体育知识,增强群众体育锻炼意识,某地举办了亚运知识竞赛活动.活动分为男子组和女子组进行,最终决赛男女各有40名选手参加
,右图是其中男子组成绩的频率分布直方图(成绩介于85到145之间),(1)求图中缺失部分的直方图的高度,并估算男子组成绩排名第10的选手分数;(2)若计划从男子组中105分以下的选手中随机抽样调查2个同学的答题状况,则抽到的选手中至少有1位
是95分以下选手的概率是多少?(3)若女子组40位选手的平均分为117,标准差为12,试求所有选手的平均分和方差.【答案】(1)0.025,129(2)35(3)平均分为118,方差为3152【分析】(1)先求出所有矩形的面积,再用1减去这个面积可得缺失部分的面积,除以10可得其
高度,可求得第10名的成绩是第75百分位数,然后利用百分位数的定义可求得结果;(2)求得105以下合计6个人,对这6人编号后,利用列举法求解;(3)利用平均数和方差的定义求解即可.【详解】(1)因为已有矩形的面积和为10(0.005
20.0100.0200.030)0.75+++=,所以缺失的矩形面积为10.750.25−=,所以高度为0.25100.025=,由于100.2540=,所以第10名记为第75百分位数,设第10名的成绩为x,则x位于第5组,且()0.025135100.0100.25x−+=
,解得129x=,所以成绩排名第10的选手分数为129;(2)105以下合计6个人,将6人依次编号为1,2,3,4,5,6(95分以下的人编号为1,2),任选2个人的方法数,列举出所有样本点:12,13,14,15,1
6,23,24,25,26,34,35,36,45,46,56共计15种,包含1,2的有9种,故概率为93155=;(3)男子组选手的平均分900.051000.11100.21200.31300.251400.1119=+++++
=x,男子组得分的方差222(90119)0.05(100119)0.1(110119)0.2=−+−+−222(120119)0.3(130119)0.25(140119)0.1+−+−+−169=所有选手的平均得分为1191171182+=,所以所有选手得分的方差221131
5[144(117118)][169(119118)]222=+−++−=.14.某中学组织了数学知识竞赛,从参加考试的学生中抽出40名学生,将其成绩(均为整数)分成六组))40,50,50,60,,90
,100,其部分频率分布直方图如图所示.观察图形,回答下列问题.(1)求成绩在)70,80的频率,并补全这个频率分布直方图;(2)估计这次考试成绩的众数,平均分和方差.【答案】(1)0.3,直方图见解析(2)众数为75
,平均分为71分,方差194.【分析】(1)根据各组的频率和为1可求出)70,80的频率,从而可补全频率分布直方图;(2)根据众数,平均分和方差的定义结合频率分布直方图求解.【详解】(1)因为各组的频率之和等于1,所以成绩在)70
,80的频率为1(0.0250.01520.010.005)100.3−+++=补全频率分布直方图如图所示:(2)由频率分布直方图可得,这次考试成绩在区间)70,80内的最多,因此这次考试成绩的众数为75利用中值估算学生成绩的
平均分:450.1550.15650.15750.3850.25950.0571+++++=,方差:()()()()()()22222245710.155710.1565710.15757
10.385710.2595710.05194−+−+−+−+−+−=,所以本次考试的众数为75,平均分为71分,方差194.15.某学校为了了解高二年级学生数学运算能力,对高二年级的300名学生进行了一次
测试.已知参加此次测试的学生的分数()1,2,,300ixi=全部介于45分到95分之间,该校将所有分数分成5组:))45,55,55,65,,85,95,整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).(1)求m的值,并估计此次校内测试分数的平均值x;(2)学校要
求按照分数从高到低选拔前30名的学生进行培训,试估计这30名学生的最低分数;(3)试估计这300名学生的分数()1,2,,300ixi=的方差2s,并判断此次得分为52分和94分的两名同学的成绩是否进入到了[2,2]xsxs−+范围内?(参考公式:()22
11niiisfxxn==−,其中if为各组频数;参考数据:12911.4)【答案】(1)0.024m=,75分(2)90分(3)答案见解析【分析】(1)先由各组的频率和为1,求出m,然后利用平均数的定
义可求出x,(2)先求出这30名学生的最低分数就是该次校内测试分数的90%分位数,然后利用百分位的定义求解即可,(3)先利用方差公式求出方差后再判断即可【详解】(1)()0.0060.0140.0360.020101m++++=,所以0.024m=,所以该次校内考试测试
分数的平均数的估计值为:500.06600.14700.24800.36900.275++++=分.(2)因为3003090%300−=,所以这30名学生的最低分数就是该次校内测试分数的90%分位数.0.060.140.240.360.
80.9.0.060.140.240.360.210.9.+++=++++=该次校内考试测试分数的90%分位数为0.900.885109010.8−+=−这30名学生的最低分数的估计值为90分.(3)()2211
niiisfxxn==−222220.06(5075)0.14(6075)0.24(7075)0.36(8075)0.2(9075)=−+−+−+−+−129=,12911.4,252.82,297.SSSxx=−=
+=,得分为52分的同学的成绩没有进入到52.2,97.8内,得分为94分的同学的成绩进入到了52.2,97.8内.即:得分为52分的同学的成绩没有进入到[2,2]xsxs−+范围,得分为94分的同学的成绩进入到[2,2]xsxs−+范围了.易错点四:忽略百分位数两种情
况的选取(百分位数的考查)百分位数①百分位数定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.②常用的百分位数1.四分位数:第25百分位数,第5
0百分位数,第75百分位数.2.其它常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.③计算一组n个数据的第p百分位数的一般步骤如下:第一步:按从小到大排列原始数据;第二步:计算i=n×p%;第三步:若i不是整数,而
大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.易错提醒:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+
1)项数据的平均数.例.某高校承办了杭州亚运会志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组)45,55,第二组)55,65,第三组)65,75,第四组)75,85,第五组85,95,绘制成如图所示
的频率分布直方图.已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.(1)求a,b的值;(2)估计这100名候选者面试成绩的第65百分位数(分位数精确到0.1);(3)在第四,第五两组志愿者中,采
用分层抽样的方法从中抽取5人,然后再从这5人中选出2人,以确定组长人选,求选出的两人来自同一组的概率.【详解】(1)因为第三、四、五组的频率之和为0.7,所以()0.0450.020100.7b++=,解得0.005b=,所以前两组的频率之和为10.70.3−=,即()
100.3ab+=,所以0.025a=;(2)前两个分组频率之和为0.3,前三个分组频率之和为0.75,所以第65百分位数在65和75之间,即为0.650.3651072.80.45−+;(3)第四、第五两组志愿者分别有20人,5人,故按照分层抽样抽得的第四组志
愿者人数为4,分别设为a,b,c,d,第五组志愿者人数为1,设为e,这5人中选出2人,所有情况有(),ab,(),ac,(),ad,(),ae,(),bc,(),bd,(),be,(),cd,(),ce,(),de共有10种情况,其中选出的两人来自同一组的有(),ab,()
,ac,(),ad,(),bc,(),bd,(),cd,共6种情况,故选出的两人来自同一组的概率为63105=.变式1.某市政府为了倡议市民节约用电,计划对居民生活用电费用实施阶梯式电价制度,即确定一户居民月均用电量标准a,用电量不超过a的部分按照平价收费,超出部
分按议价收费.为了确定一个合理的标准,从某小区抽取了100户居民进行用电量调查(单位kW?h),并绘制了如图所示的频率分布直方图:(1)求x的值:(2)求被调查用户的月用电量平均值:(同一组数据用该区间的中点值作代表)(3)若使85%居民用户的水费支出不受影响,应确定
a值为多少?【详解】(1)()0.00240.00360.00600.00240.0012501x+++++=,解得0.0044x=;(2)750.0024501250.0036501750.0060502250.00445
0x=+++2750.0024503250.001250186++=;(3)()0.00240.00360.00600.0044500.820.85+++=;()0.00240.00360.00600.0044
0.0024500.940.85++++=;故85%分位数在250300之间,设为a,2500.0024500.0036500.0060500.0044500.0024500.8550a−++++
=,解得262.5a=.变式2.长沙市某中学近几年加大了对学生奥赛的培训,为了选择培训的对象,2023年5月该中学进行一次数学竞赛,从参加竞赛的同学中,选取50名同学将其成绩(百分制,均为整数)分成六组:第1组)40,50,第2组)50,60,第3组)60,70,第4组)70,
80,第5组)80,90,第6组90,100,得到频率分布直方图(如图),观察图中信息,回答下列问题:(1)根据频率分布直方图,估计本次考试成绩的平均数和第71百分位数(同一组中的数据用该组区间的中点值作代表);(2)已知学生成绩评定等级有优秀、良好、一般
三个等级,其中成绩不小于90分时为优秀等级,若从成绩在第5组和第6组的学生中,随机抽取2人,求所抽取的2人中至少有1人成绩优秀的概率.【详解】(1)450.1550.26650.2750.3850.08950.0666
.8x=+++++=,所以本次考试成绩的平均分约为66.8;因为成绩在)40,70的频率为()0.010.0260.02100.56++=,成绩在)40,80的频率为0.560.0310
0.86+=,所以第71百分位数位于)70,80,设其为x,则()0.56700.030.71x+−=,解得75x=,所以第71百分位数为75;(2)第5组的人数为:500.008104=人,可记为A,B,C,D;第6组的人数为:500.006103=人,可记为a,b,c;则
从中任取2人,有(),AB,(),AC,(),AD,(),Aa,(),Ab,(),Ac,(),BC,(),BD,(),Ba,(),Bb,(),Bc,(),CD,(),Ca,(),Cb,(),Cc,(),Da,(),Db,(),Dc,(),
ab,(),ac,(),bc,共21种情况,其中至少有1人成绩优秀的情况有(),Aa,(),Ab,(),Ac,(),Ba,(),Bb,(),Bc,(),Ca,(),Cb,(),Cc(),Da,(),Db,(),Dc,(
),ab,(),ac,(),bc,共15种情况.所以至少有1人成绩优秀的概率155217P==.变式3.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则
该组数据的第75百分位数为,第86百分位数为.【详解】%201575=,第75百分位数为141514.52+=;%2017.286=,第86百分位数为第18个数据17.故答案为:14.5;17.1.以下数据为某学校参加学科节数学竞赛
决赛的10人的成绩:(单位:分)72,78,79,80,81,83,84,86,88,90.这10人成绩的第p百分位数是85,则p=()A.65B.70C.75D.80【答案】B【分析】由样本数据第p百分位的定义求解即可得出答案.【详解】因为10人成绩的第p百分位数是85,而84868
52+=,即第7位与第8位的平均值,所以85是这10人成绩的第70百分为数.故选:B.2.某校排球社的同学为训练动作组织了垫排球比赛,以下为根据排球社50位同学的垫球个数画的频率分布直方图,所有同学垫球数都在540之间.估计垫球数的样本数据的第75百分位数是()A.175.B.18.75C.
27D.28【答案】D【分析】根据频率分布直方图可计算得到第75百分位数位于区间)25,30内,根据百分位数估算的方法可求得结果.【详解】垫球数在区间)5,25内的人数占总数的()0.010.010.040.065100%60%+++=;垫球数在区间)5,30内的人数占总数的()0.01
0.010.040.060.055100%85%++++=;第75百分位数位于区间)25,30内,且0.750.6255253280.850.6−+=+=−,估计垫球数的样本数据的第75百分位数是28.故选:D
.3.“幸福感指数”是指人们主观地评价自己目前生活状态的满意程度的指标,常用区间[0,10]内的一个数来表示,该数越接近10表示满意程度越高.现随机抽取10位某小区居民,他们的幸福感指数分别为3,4,5,5,6
,6,7,8,9,10,则这组数据的第80百分位数是()A.7.5B.8C.8.5D.9【答案】C【分析】计算得8i=,然后由第8个数据和第9个数据求平均数可得.【详解】因为1080%8=,所以第80百分位数是898.52+=.故选:C4.为了进一步学
习贯彻党的二十大精神,推进科普宣传教育,激发学生的学习热情,营造良好的学习氛围,不断提高学生对科学、法律、健康等知识的了解,某学校组织全校班级开展“红色百年路•科普万里行”知识竞赛.现抽取10个班级的平均成绩:70717376787881858990、、
、、、、、、、,据此估计该校各个班级平均成绩的第40百分位数为()A.77B.78C.76D.80【答案】A【分析】由第p百分位数计算公式可得答案.【详解】因共10个数据,则0010404i==,故该组数据的第40百分位数为从小到大排列第4个数据与第5个数据的平均数,即767877
2+=.故选:A5.某地一年之内12个月的月降水量分别为:46,51,48,53,56,53,56,64,58,56,66,71,则下列说法正确的是()A.该地区的月降水量20%分位数为51B.该地区的月降水量50%分位
数为53C.该地区的月降水量75%分位数为61D.该地区的月降水量80%分位数为64【答案】ACD【分析】把12个月的月降水量数据从小到大排列,利用百分位数的定义求解即得.【详解】12个月的月降水量数据从小到大排列为:46,48,51,
53,53,56,56,56,58,64,66,71,由1220%2.4=,该地区的月降水量20%分位数为51,A正确;由1250%6=,该地区的月降水量50%分位数为5656562+=,B错误;由1275%9=
,该地区的月降水量75%分位数为5864612+=,C正确;由1280%9.6=,该地区的月降水量80%分位数为64,D正确.故选:ACD6.习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一年级学
生每周在校体育锻炼时长(单位:小时)进行了统计,得到如下频率分布表:分组)2,3)3,4)4,55,6频率0.250.300.200.25则下列关于高一年级学生每周体育锻炼时长的说法中正确的是()A.众数约为2.5B.中位数约为3.83C.平均数为3.95D.第80
百分位数约为5.2【答案】BCD【分析】根据众数的定义,中位数的定义,平均数的定义,百分位数的定义即可求解.【详解】对A,因为最大频率的组的中点值为3.5,则众数大约为3.5,故A错误;对B,由表可知,中位数在第二组中,设其
为x,则(3)0.30.25−=x,解得3.83x,故B正确;对C,因为平均数为2.50.253.50.34.50.25.50.253.95+++=,故C正确;对D,因为前三组的频率和为0.75,则第80百分位数位于第4组
,设其为a,可得(5)0.250.05−=a,解得5.2a=,故D正确.故选:BCD.7.某公司为了解用户对其产品的满意度,随机调查了10个用户,得到用户对产品的满意度评分如表所示,评分用区间[0,10
]内的一个数来表示,该数越接近10表示满意度越高,则下列说法正确的()78975410947A.这组数据的平均数为0B.这组数据的众数为7C.这组数据的极差为6D.这组数据的第75百分位数为9【答案】BCD【分析】先将这组数据从小到大依次排列,然后根据平均数、众数、极差、p百
分位数的概念,计算求解,即可得出答案.【详解】将这组数据从小到大依次排列,为4,4,5,7,7,7,8,9,9,10.对于A项,这组数据的平均数为1(44577789910)710+++++++++=,选
项A错误;对于B项,这组数据的众数是7,选项B正确;对于C项,这组数据的极差是1046−=,选项C正确;对于D项,因为1075%7.5=,且第8个数是9,所以这组数据的第75百分位数为9,选项D正确.故选:BCD.8.人均国内生产总值是人们了解和把握一个国家或地区的宏观经济运行状况的有效
工具,即“人均GDP”,常作为发展经济学中衡量经济发展状况的指标,是最重要的宏观经济指标之一.在国家统计局的官网上可以查询到我国2013年至2022年人均国内生产总值(单位:元)的数据,如图所示,则()A.2013年至2022年人均国内生产总值逐年递增B.2013年
至2022年人均国内生产总值的极差为42201C.这10年的人均国内生产总值的80%分位数是71828D.这10年的人均国内生产总值的增长量最小的是2020年【答案】ABD【分析】根据图中数据和极差、百分位数、增长量的定义判断.【详解】由图可知,2013年至2022年人均国内生
产总值逐年递增,A正确;2013年至2022年人均国内生产总值的极差为85698-43497=42201,B正确;因为10×80%=8,所以这10年的人均国内生产总值的80%分位数是7182881378766032+=.C不正确;由图中数据分析可知,2020年人均同内生产总值的增长
为71828-70078=1750(元),是这10年中增长量最小的,D正确.故选:ABD.9.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,设剩下的28个样本数据的方差为21s,平均数为1x;去掉的两个数据的方差为22s,平均数为2x﹔原
样本数据的方差为2s,平均数为x,若x=2x,则下列说法正确的是()A.x1x=B.222121514sss=+C.剩下28个数据的中位数大于原样本数据的中位数D.剩下28个数据的22%分位数不等于原样本数据的22%分位数【答案】ABD【分析】对于A选项,求出剩下的28
个样本数据的和、去掉的两个数据和、原样本数据和,列出方程即可;对于B选项,写出21s和22s的表达式即可;对于C选项,根据中位数定义判断即可;对于D选项,根据分位数定义判断即可.【详解】A.剩下的28个样本数据的和为128x,去掉的两个数据和为22x,原样本数据和为30x,所以12282
30xxx+=,因为x=2x,所以x1x=,故A选项正确;B.设1232930xxxxx,2222121312911[()()()]28sxxxxxx=−+−++−,因为12xxx==,所以2222113011[()()]2sxxxx=−+−,所以()()()(
)()222222221211213129130128230ssxxxxxxxxxxs+=−+−+−++−+−=,所以222121514sss=+,故B选项正确;C.剩下28个数据的中位数等于原样本数据的中位数,故C选项错误;D.去掉2个数据,则剩下28个数据的22%分位数不等
于原样本数据的22%分位数,故D正确.故选:ABD.10.8名学生参加100m跑的成绩(单位:s)分别为13.10,12.99,13.01,13.20,13.01,13.20,12.91,13.01,则()A.极差为0.29B
.众数为13.01C.平均数近似为13.05D.第75百分位数为13.10【答案】ABC【分析】根据极差,众数,平均数,百分位数的概念逐项分析.【详解】将该组数据从小到大排列为:12.91,12.99,13.01,13.01,
13.01,13.10,13.20,13.20.对于A:极差为13.2012.910.29−=,故A正确;对于B:这组数据中13.01出现3次,众数为13.01,故B正确;对于C:平均数为113(0.090.010.010.010.010.10.20.2)13.0537513.058
+−−++++++=,故C正确;对于D:因为共有8个数据,所以80.756=,则第75百分位数为13.1013.2013.152+=.所以D错误.故选:ABC.11.党的二十大报告提出,要加快发展数字经济,促进数字经济与实体经济的深度融合,数字化构建社区服务新模式成为一种时
尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中3ba=.则下列结论正确的是()A.0.01a=B.满意度计分的众数为80
分C.满意度计分的75%分位数是85分D.满意度计分的平均分是76.5【答案】ACD【分析】根据频率之和为1即可求解A,根据众数,中位数以及平均数的计算即可分别求解BCD.【详解】由频率分布直方图可知()0.0150.035101a
ba++++=,即20.05ba+=,又3ba=,所以0.01a=,所以选项A正确;满意度计分的众数为75分,所以选项B错误;前三组的频率之和为0.10.150.350.6++=0.75,前四组的频率之和为0.60.30.90.75+=,则75%分位数[80,90)
m,故0.750.68010850.90.6m−=+=−,满意度计分的75%分位数为85,所以选项C正确;满意度计分的平均分为:550.1650.15750.35850.3950.176.5x=++++=分,所以选项D正确.故选:ACD.12.某校1500名学生参加数学竞赛,随机
抽取了40名学生的竞赛成绩(单位:分),成绩的频率分布直方图如图所示,则()A.频率分布直方图中a的值为0.005B.估计这40名学生的竞赛成绩的第60百分位数为75C.估计这40名学生的竞赛成绩的众数为80D.估计总体中成绩落在)60,70内的学
生人数为225【答案】AD【分析】先根据频率之和为1可得0.005a=,进而可求每组的频率,再结合统计相关知识逐项分析判断即可.【详解】由10(23762)1aaaaa++++=,可得0.005a=,故A正确;前三个矩形的面积和为10(237)0.6aaa++=,所以这40名学生的竞赛成绩
的第60百分位数为80,故B错误;由成绩的频率分布直方图易知,这40名学生的竞赛成绩的众数为75,故C错误;总体中成绩落在)60,70内的学生人数为3101500225a=,故D正确.故选:AD13.甘肃省2017到2022年常住人口变化图如图所示:则()A.甘肃省2017到20
20年这4年的常住人口呈递增趋势B.甘肃省2017到2022年这6年的常住人口的第40百分位数为2501.98万C.甘肃省2017到2022年这6年的常住人口的极差为156.41万D.从2017到2022年这6年中任选1年,则该年的甘肃省常
住人口大于2500万的概率为23【答案】BD【分析】A.由条形图判断;B.利用第百分位数的定义求解判断;C.利用极差的定义求解判断;D.利用古典概型的概率求解判断.【详解】由图可知,A错误.甘肃省2017到2022年这6年的常住人口(单位:万)按照从小到大的顺序排列为2490.02,249
2.42,2501.98,2625.71,2637.26,2647.43,因为640%2.4=,所以这6年的常住人口的第40百分位数为2501.98万,B正确.甘肃省2017到2022年这6年的常住人口的极差为26
47.432490.02157.41−=万,C错误.从2017到2022年这6年中任选1年,则该年的甘肃省常住人口大于2500万的概率为4263=,D正确.故选:BD14.下表是某公司的月固定工资统计表:总工程师工程师技术员A技术员B技术员C技术员D技术
员E见习技术员固定工资(元)90007000400032002600200015001000由该表能判断出该公司职工固定工资的75%分位数是元.【答案】5500【分析】利用百分位数的定义求解即可.【详解】由875%6=,所
以该公司职工固定工资的75%分位数为表中从右到左的第6个数与第7个数的平均数,即为4000700055002+=.故答案为:5500.15.某城市30天的空气质量指数如下:29,26,28,29,38,29,26,26,40,
31,35,44,33,28,80,86,65,53,70,34,36,4y,31,38,63,60,56,34,74,34.则这组数据的第75百分位数为.【答案】56【分析】把给定数据按由小到大的顺序排列,再根据第p百分位数的定义求解即得.【详解】显然40450y,30个数
据由小到大排列为:26,26,26,28,28,29,29,29,31,31,33,34,34,34,35,36,38,38,40,44,4y,53,56,60,63,65,70,74,80,86,或者26,26,26,28,28,29,29,29,31,
31,33,34,34,34,35,36,38,38,40,4y,44,53,56,60,63,65,70,74,80,86,由3075%22.5=,得这组数据的第75百分位数为上述排列后的从小到大的第2
3个数56.故答案为:56易错点五:忽略相关性检验而出错(统计案例)Ⅰ:变量间的相关关系1.变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作
用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但
相关关系不一定是因果关系,也可能是伴随关系.2.散点图将样本中的n个数据点(,)(1,2,,)iixyin=描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两
个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3.相关系数若相应于变量x的取值ix,变量y的观
测值为(1)iyin,则变量x与y的相关系数112222221111()()()()nniiiiiinnnniiiiiiiixxyyxynxyrxxyyxnxyny======−−−==−−−−,通常用r来衡量x与y之间的线性关系的强弱,r的范围为11r−.(1)当0
r时,表示两个变量正相关;当0r时,表示两个变量负相关.(2)r越接近1,表示两个变量的线性相关性越强;r越接近0,表示两个变量间几乎不存在线性相关关系.当||1r=时,所有数据点都在一条直线上.(3)通常当0.75r时,认为两个变量具有很强的线性相关关系.Ⅱ:线性回归1.
线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa=+的求法为1122211()()()nniiii
iinniiiixxyyxynxybxxxnxaybx====−−−==−−=−其中,11niixxn==,11niiyyn==,(x,y)称为样本点的中心.2.残差分析对于预报变量y,通过观测得到的数据称为观测
值iy,通过回归方程得到的y称为预测值,观测值减去预测值等于残差,ˆie称为相应于点(,)iixy的残差,即有ˆie=ˆiiyy−.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差
分析,残差点()ˆ,iixe比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和21ˆ()niiiQyy==−分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关
指数来刻画回归的效果,其计算公式是:22121ˆ()1()niiiniiyyRyy==−=−−.2R越接近于1,说明残差的平方和越小,也表示回归的效果越好.Ⅲ:非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟
悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1.建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画
出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数
模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存
在异常,则检查数据是否有误,或模型是否合适等.Ⅳ:独立性检验1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和
Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为1y2y总计1xabab+2xcdcd+总计ac+bd+abcd+++从22列表中,依据aab+与ccd+的值可直观得出结论:两个变量是否有关系.2.等高条形图(1)等高条形图和表格相比,更能直观
地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现aab+与ccd+相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用独立性假设、随机变量2K来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检
验.(2)公式:22()()()()()nadbcKabcdacbd−=++++,其中n=abcd+++为样本容量.(3)独立性检验的具体步骤如下:①计算随机变量2K的观测值k,查下表确定临界值0k:()20p
Kk0.50.400.250.150.100.050.0250.0100.0050.0010k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果0kk,就推断“
X与Y有关系”,这种推断犯错误的概率不超过()20pKk;否则,就认为在犯错误的概率不超过()20pKk的前提下不能推断“X与Y有关系”.【常用结论】常见的非线性回归模型(1)指数函数型xyca=(0a且1a,0c)两边取自然对数,()lnlnxyca=,即lnlnl
nycxa=+,令lnyyxx==,原方程变为lnlnycxa=+,然后按线性回归模型求出lna,lnc.(2)对数函数型lnybxa=+令lnyyxx==,原方程变为ybxa=+,然后按线性回归模型求出b,a.
(3)幂函数型nyax=两边取常用对数,()lglgnyax=,即lglglgynxa=+,令lglgyyxx==,原方程变为lgynxa=+,然后按线性回归模型求出n,lga.(4)二次
函数型2ybxa=+令2yyxx==,原方程变为ybxa=+,然后按线性回归模型求出b,a.(5)反比例函数型byax=+型令1yyxx==,原方程变为ybxa=+,然后按线性回归模型求出b
,a.易错提醒:已知数据求回归直线方程,应根据散点图分析变量之间是否满足线性关系,或求相关系数r进行线性相关性的检验,如是非线性的关系,应转化为线性关系,再求解.例.某乡政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的平均收入的统计数据:年份20182019
202020212022年份代码x12345平均收入y(千元)5961646873(1)根据表中数据,现有yabx=+与2ycdx=+两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,已知yabx
=+的残差平方和是3.5,请根据残差平方和说明上述两个方程哪一个拟合效果更好,并据此预测2023年该农户种植药材的平均收入.参考数据及公式:()()1217niiittyy=−−=,()21374niitt=−=,其中2=iitx.()()()21ˆiiniixxyybxx=−−=−,ˆˆ
aybx=−.【详解】(1)根据农户近5年种植药材的平均收入情况的统计数据可得:()11234535x=++++=,()15961646873655y=++++=,所以()()5135iiixxyy=−−=,()52110iixx=−=
,则()()()51521353.510iiiiixxyybxx==−−===−,653.5354.5aybx=−=−=.设2tx=,则2ycdxcdt=+=+,所以()22222112345115t=++++=,则()()
()515212170.6374iiiiittyydtt==−−==−,650.61158.4cydt=−=−=.所以,两种模型的回归方程分别为3.554.5yx=+,20.658.4yx=+.(2)回归方程为20.658.4yx=+时,将x值代入可得估计值分别为59,6
0.8,63.8,68,73.4,则残差平方和为()()()()()2222259596160.86463.868687373.40.24−+−+−+−+−=.而yabx=+的残差平方和是3.5,则0.243.5,所
以回归方程20.658.4yx=+拟合效果更好,应选择该方程进行拟合.当6x=时20.6658.480y=+=,故预测2023年该农户种植药材的平均收入为80千元,即8万元.变式1.国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》.某科技公司响应国家号召,加大了芯片研究投入
力度.从2022年起,芯片的经济收入逐月攀升,该公司在2022年的第一月份至第六月份的月经济收入y(单位:百万元)关于月份x的数据如下表所示:时间x(月份)123456月收入y(百万元)6915223347(1)请你根据提供数据,判断yaxb=+与dxyce=(abcd,,,
均为常数)哪一个适宜作为该公司月经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的结果及表中的数据,求出y关于x的回归方程;(3)从这6个月中抽取3个,记月收入超过16百万的个数为X
,求X的分布列和数学期望.参考数据:u()621iixx=−()()61iiixxyy=−−()()61iiixuux=−−2.8617.501427.29其中设()ln,ln1,2,3,4,5,6iiuyuyi===参考公式和数据:对于一组具有线性相关关系的数据()(),1,2,
3,,iixvin=,其回归直线vx=+的斜率和截距的最小二乘估计公式分别为:()()()121ˆˆˆ,niiiniixxvvvxxx==−−==−−.【详解】(1)根据数据判断知edxy
c=适宜作为该公司月经济收人y关于月份x的回归方程类型.(2)由edxyc=,得到lnlnycdx=+,令lnuy=,则lnucdx=+,所以()()()1217.290.4217.50niiiniixx
uudxx==−−==−,又1234563.506x+++++==,所以7.297.29ln2.863.501.4017.5017.50cux=−=−,故ln1.400.42yx=+,即1.400.42exy+=.(3)易知在前6个月的收入中,月收入
超过16佰万的有3个,故X服从6,3,3NMn===的超几何分布,又X的所有取值为0,1,2,3,又303336CC1(0)C20PX===,213336CC9(1)C20PX===,123336CC9(2)C20PX===,303336CC1
(3)C20PX===,所以X的分布列为X0123P120920920120则19913()0123202020202EX=+++=(或33()362EX==).变式2.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施发展新能源汽
车国家战略,推动中国新能源汽车产业高质量可持续发展,加快建设汽车强国.同时为了推广新能源替代传统非绿色能源,除了财政补贴、税收优惠等激励性政策外,可间接通过前期技术研发支持等政策引导能源发展方向.某企业多年前就开始进行新能源
汽车方面的研发,现对近10年的年技术创新投入ix和每件产品成本iy(1i=,2,3,…,10)的数据进行分析,得到如下散点图,并计算得:6.8x=,70y=,10113iix==,102111.6iix==,101350iiiyx==.(1)根据散点图可知,可用函
数模型byax=+拟合y与x的关系,试建立y关于x的回归方程;(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为22001003001010yymy=−+++−.该企业的年投入成本除了年技术创新投入,还要投入其他成本1
0千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?(注:年利润=年销售额−年投入成本)参考公式:对于一组数据()11,uv,()22,uv,…,(),nnuv,其回归直线vu=+的斜率和截距的最小二乘估计分别为:1221ˆniiiniiuvnuvunu==
−=−,ˆˆvu=−.【详解】(1)令1ux=,则y关于u的线性回归方程为ˆˆybua=+,101110.310iiux===由题意可得10110221103502102001.60.9ˆ10iiiiiuyuybuu==−−===−−,702000.310ˆˆaybx=−=−
=,则10200yu=+,所以,y关于x的回归方程为20010yx=+.(2)由20010yx=+可得20010xy=−,年利润22002001010010300101010yyMmxyy=−−=−+++−−−−()211590.75300y=−−+,当15y=时,年利润M取得最大值,此
时20020040101510xy===−−,所以,当年技术创新投入为40千万元时,年利润的预报值取最大值.变式3.台山市镇海湾蚝是台山市著名的特产,因镇海湾的生蚝田处于咸淡水交汇之地,所以这里的生蚝长得比其他地方肥大,味道更加鲜美.2023年镇海湾某养殖基地考虑增加人工
投入,根据市场调研与模拟,得到人工投入增量x人与年收益增量y万元的数据和散点图分别如下:x234681013y13223142505658根据散点图,建立了y与x的两个回归模型:模型①:4.111.8yx=+;模型②
:ybxa=+(1)求出模型②中y关于x的回归方程(精确到0.1);(2)比较模型①,②的决定系数2R的大小,说明哪个模型拟合效果更好,并用该模型预测,要使年收益增量超过80万元,人工投入增量至少需要多少人?(精确到1)线性回归方程ybxa=+$$$的系数:()()()1122211nniiii
iinniiiixynxyxxyybxnxxx====−−−==−−,aybx=−$$;模型的决定系数:()()221211niiiniiyyRyy==−=−−.参考数据:令tx=,则ybta=+
,且2.46t,38.86y,()()7180.97iiittyy=−−,()7213.78iitt=−;模型①中()721182.42iiiyy=−=;模型②中()72174.12iiiyy=−=.【详解】(1)令tx=,则模型②为
:ybta=+,由2.46t,38.86y,()()7180.97iiittyy=−−,()7213.78iitt=−,得()()()7172180.9721.43.78iiiiittyybtt==−−==−,38.8621.4
2.4613.8aybt=−=−−$$,所以模型②中y关于x的回归方程是21.413.8yx=−.(2)模型①中的决定系数()2271182.421iiRyy==−−,模型②的决定系数()227174.121iiRyy==−−,因为182.4274.12,所以模型①中的决
定系数小于模型②的决定系数,所以模型②的拟合效果更好.在模型②下,年收益增量超过80万元,则有21.413.880x−,所以293.8()19.221.4x,所以人工投入增量至少需要20人.1.为
帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量y(单位:3g/m)与样本对原点的距离x(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中1iiux=,9119iiuu==)xyu()921iixx=−()921iiuu=−()
921iiyy=−()()91iiixyxy=−−()()91iiiuuyy=−−697.900.21600.1414.1226.131.40−(1)利用样本相关系数的知识,判断yabx=+与dycx=+哪一个更适宜作为平均金属含量y关于样本对原点的距离x的回
归方程类型?(2)根据(1)的结果回答下列问题:①建立y关于x的回归方程;②样本对原点的距离20x=时,金属含量的预报值是多少?附:对于一组数据()()()1122,,,,,,nntststs,其线性相关系数()()()()
12211niiinniiiittssrttss===−−=−−,其回归直线st=+的斜率和截距的最小二乘估计分别为:()()()121niiiniittsstt==−−=−,st
=−.【答案】(1)dycx=+更适宜;(2)①10100yx=−;②()399.5g/m【分析】(1)分别求出yabx=+与dycx=+所对应的线性相关系数12,rr,然后比较大小即可判断.(2)根据数据和公式即可求得y关于x的回归方程,根据回归方程代入20x=,即可求出金属含量的预报值.【详
解】(1)由题yabx=+的线性相关系数()()()()11221126.30.8986014.12niiinniiiirxyxxyxyy===−−==−−,dycx=+的线性相关系数()()()()1222111.400.9960.1414
.12niiinniiiiuyryuyuuy===−−−==−−−,因为12rr所以dycx=+更适宜作为平均金属含量y关于样本对原点的距离x的回归方程类型.(2)①由(1)dycx=+,令1iiux=,9119iiuu==,则yduc=+
,所以()()()1211.40100.14niiiniiuyduuyu===−−−==−−,()97.9100.21100cydu=−=−−=,则1010010100yux=−=−,即10100yx=−.②当20x=时,金属含量的预报
值()31010099.520g/my=−=2.一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经
济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次为1~6.年份代码x123456中国夜间经济的市场发展规模/y万亿元20.522.926.430.936.442
.4(1)已知可用函数模型xyab=拟合y与x的关系,请建立y关于x的回归方程(,ab的值精确到0.01);(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,
若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:v61iiixv=2.848e0.148e71.163.36673.282
17.251.162.83其中lniivy=.参考公式:对于一组数据()()()1122,,,,,,nnuvuvuv,其回归直线ˆˆˆvu=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,niiinii
uuvvvuuu==−−==−−.【答案】(1)=17.256ˆ1.1xy;(2)是理想的【分析】(1)通过对所给的的函数模型取对数,转换为求回归直线方程即可,再结合题中所给的直线方程与数据即可得解.(2)利用(1)中求得的函数模型进行预测,结合回归方程理想的定义判断即可.【
详解】(1)将xyab=的等号左右两边同时取自然对数得()lnlnlnlnxyabaxb==+,所以lnlnvaxb=+.1234563.56x+++++==,而62222222112345691iix=
=+++++=,所以()()()6611662221166ˆiiiiiiiiiixxvvxvxvbxxxx====−−−===−−273.28263.53.3662.5960.1489163.517.5−=−,ln3.3660.1483.5ˆ2.848a−
=.所以2.8480.148vx=+,即ln2.8480.148ˆyx=+,所以2.8480.148e17.251.16xxy+==.(2)2023年对应的年份代码为7,当7x=时,717.251.1617.252.8348.8ˆ2y==,48
.8248.10.721−=,所以(1)中求得的回归方程17.251.16xy=是理想的.3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:C)关于时间x(单位:min)的回归方程模型,通过实验收集在25C室温,用同
一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.yw71()()iiixxyy=−−71()()iiixxww=−−73.53.8595−2.24−表中:ln(25)iiwy=−,7117iiww==(1)根据散点图判断,①ya
bx=+与②25xydc=+哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;(2)已知该茶水温度降至60C口感最佳,根
据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?附:(1)对于一组数据1122(,),(,)xyxy,…,(,)nnxy,其回归直线ˆˆyax=+的斜率和截距的最小二乘估计分别为211()()(ˆ)niniiiixxyyxx==−−=−,;
ˆˆyx=−(2)参考数据:0.08e0.92−,4.09e60,ln71.9,ln31.1,ln20.7【答案】(1)②更适宜,600.9225xy=+;(2)7.5min.【分析】(1)根据散点图选择②,取对数,再利用最小二乘法公式求出回归直线方程即可.(2
)利用(1)中回归方程,列出关于x的方程求解即得.【详解】(1)由散点图知,更适宜的回归方程为②,即25xydc=+.由25xydc=+,得25xydc−=,两边取自然对数,得()ln25lnlnydxc−=+,令()ln25wy=−,则lnlnwdxc=+,()2772112222201
23456(3)(2)(1)8213,37271iiiixxxx==++++++==−+−+−++=+=−=,结合表中数据,得717212.24ln0.08()()28()iiiiixxxwwcx==−==−=−−−,结合参考数据可得
0.08e0.92c−=,由lnln3.853(0.08)4.09dwxc=−=−−=,得4.09e60d=,所以茶水温度y关于时间x的回归方程为600.9225xy=+.(2)依题意,25C室温下,茶水温度降至60C口感最佳,即60600.9225x=+,整理得60
25ln0.92ln60x−=,于是ln0.92ln72ln2ln30.6x=−−−,解得0.67.50.08x−=−,所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳引用口感.
4.当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如下表:年份201720182019202020212022编号x123456企业总数量y(单位:百个)5078124121137352(1)
若用模型ebxya=拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:
①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为3
5,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:661128.5,106.05iiiiiuxu====,其中,lniiuy=参考公式:对于一组数据()(),1,2,3,,iixyin=,其经验回归直线
ˆˆˆybxa=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,niiiniixynxybaybxxnx==−==−−【答案】(1)0.363.49exy+=(2)310【分析】(1)令lnlnelnbxuyabxa===+,利用最小二乘法求出,lnba,即可得解;(2)由根据相互
独立事件概率的乘法公式计算即可得到答案.【详解】(1)令lnlnelnbxuyabxa===+,12345628.53.5,4.7566xu+++++====,则()6162222222221106.0563.54.75ˆ0.3612345663.
5iiiiixunxubxnx==−−===+++++−−,ˆln4.750.363.53.49a=−=,所以3.49ea=,所以3.490.360.363.49eeexxy+==;(2)设甲公司获得“优胜公司”为事件A,则()111231
12113232352253210PA=++=,所以甲公司获得“优胜公司”的概率为310.5.某出版社单册图书的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:x123571011202530y9.025.274
.063.032.592.282.211.891.801.75(1)根据以上数据画出散点图(可借助统计软件),并根据散点图判断:yaxb=+与aybx=+中哪一个适宜作为回归方程模型?(2)根据(1)的判断结果,试建立成本费y关于印刷册数x的回归方程;(3)利用回归方程估计印
刷26000册图书的单册成本(结果保留两位小数).【答案】(1)绘图见解析,aybx=+适宜作为回归方程模型;(2)7.51161.5196yx=+;(3)成本约为1.81元.【分析】(1)根据表格数据绘制散点图,由各点的变
化趋势确定合适的模型即可;(2)利用最小二乘法求回归方程;(3)由(2)所得回归方程估计26x=时对应的单册成本费用.【详解】(1)由表格数据可得如下散点图,显然,两者之间是某种非线性关系,故aybx=+适宜作为回归方程模型.(2)令1iitx=且1,,10i=,则
1010111110.2491010iiiittx====,10113.3910iiyy===,10114.6381iiity=,10211.4450iit=,则10110222110
14.6381100.2493.391.4450100.24910iiiiitytyatt==−−==−−7.5116,所以3.397.51160.2491.5196byat=−=−,故7.51161.5196yx=+.(3)由(2),将26x=代入回归方程得7
.51161.51961.8126y=+元.6.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统
计量的值.(1)根据散点图判断,ybxa=+与edxyc=(其中e2.718=…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计
算结果精确到0.1)附:回归方程中ybxa=+$$$,()()()1122211nniiiiiinniiiixxyyxynxybxxxnx====−−−==−−,ˆˆaybx=−参考数据(lnzy=)721iix=71iiixy=71iiixz=xyz5
215177137142781.33.6(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子
产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.方案1:选择防害措施A,可以防止各种气温的
红蜘蛛虫害不减产,费用是18万;方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;方案3:不采取防虫害措施.【答案】(1)edxyc=更适宜(2)0.34.5exy−
=(3)选择方案1最佳,理由见解析【分析】(1)根据散点图的形状,可判断edxyc=更适宜作为平均产卵数y关于平均温度x的回归方程类型;(2)将edxyc=两边同时取自然对数,转化为线性回归方程,即可得到答案;(3)求出
三种方案的收益的均值,根据均值越大作为判断标准.【详解】(1)由散点图可以判断,edxyc=更适宜作为平均产卵数y关于平均温度x的回归方程类型.(2)将edxyc=两边同时取自然对数,可得lnlnycdx=+,由题中的数据可得,71733.6iiixzxz=−=,()7
7222117112iiiixxxx==−=−=,所以717221733.60.31127iiiiixzxzdxx==−===−,则ln3.60.3274.5czdx=−=−=−,所以z关于x的线性回归方程为0.34.5zx=−,故y关于x的回归方程为0.3
4.5exy−=;(3)用1X,2X和3X分别表示选择三种方案的收益.采用第1种方案,无论气温如何,产值不受影响,收益为20018182−=万,即1182X=采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为20010190−=万,如果发生,则收益为1001090−=万,即21
90,2890,28X=不发生℃以上的红蜘蛛虫害发生℃以上的红蜘蛛虫害,同样,采用第3种方案,有3200,160,22-28100,28X=不发生虫害只发生℃虫害发生℃以上虫害所以,()1182E
X=,()()()22219019090901900.9900.11719180EXPXPX==+==+=+=,()()()()3333200200160160100100EXPXPXPX==+=+=2000.61600.31000.1178=++=.显然,
()1EX最大,所以选择方案1最佳.7.在一次抽样调查中测得5个样本点,得到下表及散点图.x0.250.5124y1612521(1)根据散点图判断yabx=+与1yckx−=+哪一个适宜作为y关于x的回归方程
;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立y与x的回归方程;(计算结果保留整数)参考公式:()()()1122211ˆˆ,nniiiiiinniiiixynxyxxyybaybxxnxxx====−−−===−−−【答案】(1)1yckx−=+(2)4ˆ1
yx=+【分析】(1)根据散点图即可求解,(2)将非线性转化为线性,即可利用最小二乘法求解.【详解】(1)由题中散点图可以判断,1yckx−=+适宜作为y关于x的回归方程;(2)令1tx−=,则yckt=+,原数
据变为t4210.50.25y1612521由表可知y与t近似具有线性相关关系,计算得4210.50.251.555t++++==,16125217.25y++++==,222222416212150.520.2
5151.557.238.4544210.50.25ˆ51.559.3k++++−==++++−,所以,7.241.551ˆˆcykt=−=−=,则ˆ41yt=+.所以y关于x的回归方程是4ˆ1yx=+.8.为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下
:天数x123456繁殖个数y612254995190(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断ˆˆybxa=+(ˆ,ab为常数)与21eˆcxcy=(12,cc为常数,且120,0cc)哪一个适宜作为
繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程21eˆcxcy=(12,cc为常数,且120,0cc),令lnzy=,可以得到繁殖个数的对数z关于天数
x具有线性关系及一些统计量的值.xyz()621iixx=−()()61iiixxyy=−−()()61iiixxzz=−−3.5062.833.5317.50596.5712.09(ⅰ)证明:“对于非线性...回
归方程21eˆcxcy=,令lnzy=,可以得到繁殖个数的对数z关于天数x具有线性..关系(即ˆˆˆ,ˆˆ,zx=+为常数)”;(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据()()()1122,,,,,,nnuvuvuv,其
回归直线方程ˆˆˆvu=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,niiiniiuuvvvuuu==−−==−−.【答案】(1)选择21eˆcxcy=为回归方程较宜(2)(ⅰ)证明见解析;(
ⅱ)0.691.12ˆexy+=【分析】(1)根据表格提供数据画出散点图,并由此选择21eˆcxcy=.(2)(ⅰ)利用换元法,结合对数运算证得结论成立;(ⅱ)根据回归方程的求法求得正确答案.【详解】(1)作出散点图
如图所示.由散点图看出样本点分布在一条指数型曲线21ecxyc=的周围,故选择21eˆcxcy=为回归方程较宜.(2)(i)由已知:令lnzy=,则221112lnln(e)lnlnelncxcxzyccccx===+=+,则1lnc=,2c=,即zx=+.所
以繁殖个数的对数z关于天数x具有线性关系.(ii)由(i)知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.由表中数据可得,61621()()12.09ˆ0.6917.5()iiiiixxzzxx==−−==−,ˆˆ3.530.
693.51.12zx=−=−,得到z关于x的线性回归方程为ˆ0.691.12zx=+,又lnzy=,因此细菌的繁殖个数y关于天数x的非线性回归方程为0.691.12ˆexy+=.9.抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与
体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:mg),体内抗体数量为y(单位:AU/mL).101iiitz=101iit=101iiz
=1021iit=29.2121634.4(1)根据经验,我们选择dycx=作为体内抗体数量y关于抗体药物摄入量x的回归方程,将dycx=两边取对数,得lnlnlnycdx=+,可以看出lnx与lny具有线性相关关系,试根据参考数据建
立y关于x的回归方程,并预测抗体药物摄入量为25mg时,体内抗体数量y的值;(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布()20.48,0.03N:,那这种抗体药物的有效率z超过0.54的概率约为多少?附:①对于一组数据()(),1,2,,10
iiuvi=L,其回归直线vua=+的斜率和截距的最小二乘估计分别为µ1221niiiniiuvnuvunu==−=−,avu=−;②若随机变量()2~,ZN,则有()0.6826PZ−
+,(22)0.9544PZ−+,(33)0.9974PZ−+;③取e2.7.【答案】(1)0.5eyx=;13.5AU/mLy=(2)0.0228【分析】(1)用最小二乘法求解回归直线方程,再求非线性回归方程即可;(2)根据正态分布的对称性求解
给定区间的概率即可.【详解】(1)将dycx=两边取对数,得lnlnlnycdx=+,设lnzy=,lntx=,则回归方程变为lnzcdt=+,由表中数据可知,10111.610iizz===,10111.210iitt===,所以10110222110?29.2
101.21.60.534.4101.2ˆ10iiiiitztzdtt==−−===−−,ln1.60.51.21czdt=−=−=$$,所以10.5zt=+$,即0.50.5ln10.5lnlneˆlnlneyx
xx=+=+=,故y关于x的回归方程为0.5eyx=,当25mgx=时,0.5e252.7513.5AU/mLˆy==.(2)因为z服从正态分布()20.48,0.03N,其中0.48=,0.03=,所以()()220.420.540.9544PzPz−
+=,所以()()10.420.5410.95440.540.022822PzPz−−===,故这种抗体药物的有效率z超过0.54的概率约为0.0228.