统计量及其分布.ppt
《统计量及其分布.ppt》由会员分享,可在线阅读,更多相关《统计量及其分布.ppt(94页珍藏版)》请在咨信网上搜索。
1、第五章第五章 统计量及其分布统计量及其分布 5.1 总体与样本总体与样本5.2 样本数据的整理与显示样本数据的整理与显示5.3 统计量及其分布统计量及其分布5.4 三大抽样分布三大抽样分布5.5 充分统计量充分统计量 引引 言言 随机变量及其所伴随的概率分布全面描述了随机随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。现象的统计性规律。概率论的许多问题中,随机变量的概率分布通常概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是已知的,或者假设是已知的,而一切计算与推理都是在这已知的基础上得出来的。是在这已知的基础上得出来的。但实际中,情况往往
2、并非如此,一个随机现象所但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。型,但是其中的某些参数是未知的。例例5.0.1 某某公公司司要要采采购购一一批批产产品品,每每件件产产品品不不 是是合合格格品品就就是是不不合合格格品品,但但该该批批产产品品总总有有一一 个个不不合合格格品品率率 p。由由此此,若若从从该该批批产产品品中中随随 机机抽抽取取一一件件,用用 X 表表示示这这一一件件产产品品的的不不合合格格 数数,不不难难看看出出 X 服服从从一一个个二二点点分分布布b(1,p
3、),但分布中的参数但分布中的参数 p 是不知道的。一些问题:是不知道的。一些问题:p 的大小如何;的大小如何;p 大概落在什么范围内;大概落在什么范围内;能否认为能否认为 p 满足设定要求满足设定要求(如(如 p 0.05)。)。数理统计的任务则是数理统计的任务则是以概率论为基础,以概率论为基础,根据试验所得到的数据,对研究对象的客观根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。统计规律性做出合理的推断。服从怎样的分布;服从怎样的分布;分布中的参数;分布中的参数;学科分支:学科分支:抽样调查、实验设计、回归抽样调查、实验设计、回归分析、多元统计分析、非参数统计、贝叶斯分析、多
4、元统计分析、非参数统计、贝叶斯方法,等等。方法,等等。5.1 总体与个体总体与个体总体的三层含义总体的三层含义:研究对象的全体;研究对象的全体;数据;数据;分布分布 在在数数理理统统计计中中,把把研研究究对对象象的的全全体体称称为为总总体体(population)或或母母体体,而而把把组组成成总总体体的的每每个个单单元元称为称为个体个体。例例5.1.1 考察某厂的产品质量,将产品只分为考察某厂的产品质量,将产品只分为合格品和不合格品,以合格品和不合格品,以0记合格品,以记合格品,以1记不记不合格品,则合格品,则X 0 1P 1 p p 该厂生产的全部合格品与不合格品该厂生产的全部合格品与不合格
5、品 若以若以 p 表示这堆数中表示这堆数中1的比例(不合格品率),的比例(不合格品率),则该总体可由一个二点分布表示:则该总体可由一个二点分布表示:总体总体=由由0或或1组成的一堆数组成的一堆数 比如比如:两个生产同类产品的工厂的产品两个生产同类产品的工厂的产品的总体分布:的总体分布:例例5.1.2 在二十世纪七十年代后期,美国消费者购买在二十世纪七十年代后期,美国消费者购买日产日产SONY彩电的热情高于购买美产彩电的热情高于购买美产SONY彩电,原因何在?彩电,原因何在?1979年年4月月17日日本日日本朝日新闻朝日新闻刊登调查报刊登调查报 告指出告指出N(m,(5/3)2),日产,日产SO
6、NY彩电的彩色浓彩电的彩色浓 度服从正态分布,而美产度服从正态分布,而美产SONY彩电的彩色浓彩电的彩色浓 度服从度服从(m 5,m+5)上的均匀分布。上的均匀分布。原因在于总体的差异上!原因在于总体的差异上!图图5.1.1 SONY彩电彩色浓度分布图彩电彩色浓度分布图q等级等级 I II III IV 美产美产 33.3 33.3 33.3 0 日产日产 68.3 27.1 4.3 0.3表表5.1.1 各等级彩电的比例各等级彩电的比例(%)|X-m|5/35/3|X-m|10/310/3|X-m|55.1.2 样本样本抽样抽样:要了解总体的分布规律,在统计分析工作中,往往是要了解总体的分布
7、规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测从总体中抽取一部分个体进行观测,这个过程称为,这个过程称为抽样。抽样。样本样本 在在抽抽取取过过程程中中,每每抽抽取取一一个个个个体体,就就是是对对总总体体X进进行行一一次次随随机机试试验验,每每次次抽抽取取的的n个个个个体体 ,称称为为总总体体X的的一一个个容容量量为为n的的样样本本(sample)或或子子样样;其中样本中所包含的个体数量称为;其中样本中所包含的个体数量称为样本容量样本容量。样本。样本中的个体称为中的个体称为样品样品。5.1.2 样本样本样本具有两重性:样本具有两重性:一方面,由于样本是从总体中随机抽取的,抽一方面,
8、由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机取前无法预知它们的数值,因此,样本是随机 变量,用大写字母变量,用大写字母 X1,X2,Xn 表示;表示;另一方面,样本在抽取以后经观测就有确定的另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小观测值,因此,样本又是一组数值。此时用小 写字母写字母 x1,x2,xn 表示是恰当的。表示是恰当的。在本书中,无论是样本还是其观测值,样本一般均用在本书中,无论是样本还是其观测值,样本一般均用 x1,x2,xn 表示,大家要注意从上下文中加以识别。表示,大家要注意从上下文中加以识别。例例例例5.
9、1.35.1.3 啤酒厂生产的瓶装啤酒规定净含量为啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒克。由于随机性,事实上不可能使得所有的啤酒 净含量均为净含量均为640克。现从某厂生产的啤酒中随机克。现从某厂生产的啤酒中随机 抽取抽取10瓶测定其净含量,得到如下结果瓶测定其净含量,得到如下结果:641,635,640,637,642,638,645,643,639,640这是一个容量为这是一个容量为10的样本的观测值,的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。对应的总体为该厂生产的瓶装啤酒的净含量。完全样本完全样本例例5.1.4 考察某厂生产的某
10、种电子元件的寿命,选考察某厂生产的某种电子元件的寿命,选了了100只进行寿命试验,得到如下数据:只进行寿命试验,得到如下数据:表表5.1.2 100只元件的寿命数据只元件的寿命数据 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件元件数数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 1
11、44 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13表表5.1.2中的样本观测值没有具体的数值,中的样本观测值没有具体的数值,只有一个范围,这样的样本称为只有一个范围,这样的样本称为分组样本分组样本。独立性独立性:样本中每一样品的取值不影响其样本中每一样品的取值不影响其 它样品的取值它样品的取值 -x1,x2,xn 相互独立。相互独立。要使得推断可靠,对样本就有要求,使样本能很要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:好地代表总体。通常有
12、如下两个要求:随机性随机性:总体中每一个个体都有同等机会总体中每一个个体都有同等机会 被选入样本被选入样本 -xi 与总体与总体X有相同的分布有相同的分布。样本的要求:简单随机样本样本的要求:简单随机样本用简单随机抽样方法得到的样本称为用简单随机抽样方法得到的样本称为简单随机样本简单随机样本,也简称也简称样本样本。于是,样本于是,样本 x1,x2,xn 可以看成是可以看成是独立同分布独立同分布(iid)的随机变量,的随机变量,其共同分布即为总体分布。其共同分布即为总体分布。iidindependent identical distribution若总体若总体 的分布函数为的分布函数为则样本则样
13、本 的联合分布函数为的联合分布函数为若总体若总体 的密度函数为的密度函数为则样本则样本 的联合密度函数为的联合密度函数为若总体若总体 的分布列为的分布列为则样本则样本 的联合分布列为:的联合分布列为:总体分为总体分为有限总体有限总体与与无限总体无限总体实际中总体中的个体数大多是有限的。当个体数充分实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。大时,将有限总体看作无限总体是一种合理的抽象。对无限总体,随机性与独立性容易实现,困难在于对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。排除有意或无意的人为干扰。对有限总体,只要总体所含
14、个体数很大,特别是与对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。样本量相比很大,则独立性也可基本得到满足。本书以无限总体为主要研究对象。本书以无限总体为主要研究对象。例例5.1.5 设有一批产品共设有一批产品共N个,需要进行抽样检个,需要进行抽样检验以了解其不合格品率验以了解其不合格品率p。现从中采取不放回。现从中采取不放回抽样抽出抽样抽出2个产品,这时,第二次抽到不合格个产品,这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品,品的概率依赖于第一次抽到的是否是不合格品,如果第一次抽到不合格品,则如果第一次抽到不合格品,则而若第一次抽到的是
15、合格品,则第二次抽到不合而若第一次抽到的是合格品,则第二次抽到不合格品的概率为格品的概率为P(x2=1|x1=1)=(Np 1)/(N 1)P(x2=1|x1=0)=(Np)(N 1)显然,如此得到的样本不是简单随机样本。显然,如此得到的样本不是简单随机样本。但是,当但是,当N 很大时,我们可以看到上述两种很大时,我们可以看到上述两种情形的概率都近似等于情形的概率都近似等于p。所以当。所以当N 很大,很大,而而n不大(一个经验法则是不大(一个经验法则是 n N 0.1)时可)时可以把该样本近似地看成简单随机样本。以把该样本近似地看成简单随机样本。作业:作业:P256 4P256 4、6 65.
16、2.1 经验分布函数经验分布函数5.2 样本数据的整理与显示样本数据的整理与显示设设 x1,x2,xn 是取自总体分布函数为是取自总体分布函数为F(x)的样的样本,若将样本观测值由小到大进行排列本,若将样本观测值由小到大进行排列,为为 x(1),x(2),x(n),则称,则称 x(1),x(2),x(n)为为有序样本有序样本,用有序样本定义如下函数用有序样本定义如下函数 则则Fn(x)是一非减右连续函数,且满足是一非减右连续函数,且满足Fn()=0 和和 Fn()=1由此可见,由此可见,Fn(x)是一个分布函数,是一个分布函数,并称并称Fn(x)为为经验分布函数经验分布函数。例例5.2.1 某
17、食品厂生产听装饮料,现从生产某食品厂生产听装饮料,现从生产线上随机抽取线上随机抽取5听饮料,称得其净重(单位:听饮料,称得其净重(单位:克)克)351 347 355 344 351x(1)=344,x(2)=347,x(3)=351,x(4)=351,x(5)=355这是一个容量为这是一个容量为5的样本,经排序可得有序样本:的样本,经排序可得有序样本:故其经验分布函数为故其经验分布函数为第第2525页页定理定理5.2.1 设设 是取自总体分布函数为是取自总体分布函数为F(x)的的样本,样本,为其经验分布函数,当为其经验分布函数,当 时,有时,有更深刻的结论:格里纹科定理更深刻的结论:格里纹科
18、定理由由伯努里大数定律:伯努里大数定律:两点分布,只要两点分布,只要 n 相当大,相当大,Fn(x)依概率收敛于依概率收敛于F(x)。格里纹科定理表明:格里纹科定理表明:当当n 相当大时,经验分布函相当大时,经验分布函数是总体分布函数数是总体分布函数F(x)的一个良好的近似。的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,经典的统计学中一切统计推断都以样本为依据,其理由就在于此。其理由就在于此。160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 1545.2.2 频数频数-频率分布表
19、频率分布表样本数据的整理是统计研究的基础,整理数据的最样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其常用方法之一是给出其频数分布表频数分布表或或频率分布表频率分布表。例例5.2.2 为研究某厂工人生产某种产品的能力,为研究某厂工人生产某种产品的能力,我们随机调查了我们随机调查了20位工人某天生产的该种产品位工人某天生产的该种产品 的数量,数据如下的数量,数据如下(1)对样本进行分组:对样本进行分组:作为一般性的原则,组数通作为一般性的原则,组数通 常在常在520个,对容量较小的样本个,对容量较小的样本;(2)确定每组组距:确定每组组距:近似公式为近似公式为组距组距d=(最大观
20、测值最大观测值 最小观测值最小观测值)/组数组数;(3)确定每组组限确定每组组限:各组区间端点为各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间形成如下的分组区间(a0,a1,(a1,a2,(ak-1,ak对这对这20个数据个数据(样本样本)进行整理进行整理,具体步骤如下具体步骤如下:其中其中a0 略小于最小观测值略小于最小观测值,ak 略大于最大观测值略大于最大观测值.(4)统计样本数据落入每个区间的个数统计样本数据落入每个区间的个数频数,频数,并列出其频数频率分布表。并列出其频数频率分布表。表表5.2.1 例例5.2.2 的频数频率分布表的频数频率
21、分布表 组序组序 分组区间分组区间 组中值组中值 频数频数 频率频率 累计频率累计频率(%)1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 60 3 (167,177 1 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计合计 20 15.2.3 样本数据的图形显示样本数据的图形显示一、直方图一、直方图直方图是频数分布的图形表示,它的横坐标直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间表示所关心变量的取值区间,纵坐标有三种纵坐标有三种表示方法:表
22、示方法:频数,频率频数,频率,最准确的是最准确的是频率频率/组组距距,它可使得诸长条矩形面积和为它可使得诸长条矩形面积和为1。凡此凡此三种直方图的差别仅在于纵轴刻度的选择,三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。直方图本身并无变化。把每一个数值分为两部分,前面一部分(百把每一个数值分为两部分,前面一部分(百位和十位)称为位和十位)称为茎茎,后面部分(个位)称为后面部分(个位)称为叶叶,然后画一条竖线,然后画一条竖线,在竖线的左侧写上茎,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。右侧写上叶,就形成了茎叶图。如:如:二、茎叶图二、茎叶图数值数值 分开分开 茎茎 和和 叶叶
23、112 11|2 11 和和 2例例5.2.3 某公司对应聘人员进行能力测试,测试某公司对应聘人员进行能力测试,测试 成绩总分为成绩总分为 150分。下面是分。下面是50位应聘人员的测位应聘人员的测 试成绩(已经过排序):试成绩(已经过排序):我们用这批数据给出一个茎叶图,见下页。我们用这批数据给出一个茎叶图,见下页。图图5.2.3 测试成绩的茎叶图测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要
24、比较两组样本时,在要比较两组样本时,可画出它们的可画出它们的背靠背的茎叶图背靠背的茎叶图。甲车间甲车间 6 2 0 5 6 乙车间乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:注意:茎叶图保留数据中全部信息。当样本量较茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时,大,数据很分散,横跨二
25、、三个数量级时,茎叶图并不适用。茎叶图并不适用。作业:作业:P261 2P261 2、7 75.3.1 统计量与抽样分布统计量与抽样分布5.3 统计量及其分布统计量及其分布当人们需要从样本获得对总体各种参数的认识当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。数反映总体的不同特征。定义定义5.3.1 设设 x1,x2,xn 为取自某总体的样为取自某总体的样 本,若样本函数本,若样本函数T=T(x1,x2,xn)中不含有任中不含有任 何未知参数。则称何未知参数。则称T为为统计量统计量。统计量的分布统计量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 及其 分布
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。