第4章-数据分布特征的度量.ppt
《第4章-数据分布特征的度量.ppt》由会员分享,可在线阅读,更多相关《第4章-数据分布特征的度量.ppt(71页珍藏版)》请在咨信网上搜索。
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,4.1 集中趋势的度量,4.2 离散程度的度量,4.3 偏态与峰态的度量,第4章,数据分布特征的度量,学习目标,集中趋势各测度值的计算方法,集中趋势各测度值的特点及应用场合,离散程度各测度值的计算方法,离散程度各测度值的特点及应用场合,偏态与峰态的测度方法,用,Excel,计算描述统计量并进行分析,数据分布的特征,集中趋势,(位置),偏态和峰态,(形状),离中趋势,(分散程度),4.1 集中趋势的度量,4.1.1 众数,4.1.2 中位数和分位数,4.1.3 平均数,4.1.4 众数、中位数和平均数的比较,集中趋势,一,组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,众数,(mode),一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数,原始数据:10 5 9 12 6 8,一个众数,原始数据:6,5,9 8,5 5,多于一个众数,原始数据:25,28 28,36,42 42,分类数据的众数(例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值,所调查的,100,人中,购买可口可乐的人数最多,为,35,人,占被调查总人数的,35%,,因此众数为“可口可乐”这一品牌,即,M,o,可口可乐,不同饮料品牌的频数分布,饮料品牌,频数,汇源果汁,百事可乐,可口可乐,娃哈哈,15,20,35,30,合计,100,顺序数据的众数(例题分析),解:这里的数据为顺序数据。变量为“回答类别”,甲城市中对住房表示不满意的户数最多,为,108,户,因此众数为“不满意”这一类别,即,M,o,不满意,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数 (户),百分比 (%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,1.由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。,2.在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。,数值型数据的众数,数值型数据的众数(例题分析),某企业职工月工资资料表,职工月工资(元),职工人数(人),80,0,1000,10,10,001200,20,120,01400,50,140,01600,30,160,01800,10,合计,120,解:,确定众数组。,由于12001400组频数最多,故该组即为众数组。,根据近似公式计算众数值。,中位数(median),按大小排序后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,中位数(位置和数值的确定),位置确定,数值确定,顺序数据的中位数(例题分析),解:中位数的位置为,(300+1)/2150.5,从累计频数看,中位数在“一般”这一组别中,中位数为,M,e,=一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数 (户),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的中位数(9个数据的算例),【例】,9个家庭的人均月收入数据,原始数据:,1500 750 780 1080 850 960 2000 1250 1630,排 序:,750 780 850 960,1080,1250 1500 1630 2000,位 置:,1 2 3 4,5,6 7 8 9,中位数 1080,数值型数据的中位数(10个数据的算例),【例】:,10个家庭的人均月收入数据,排 序:,660,750 780 850,960 1080,1250 1500 1630 2000,位 置:,1 2 3 4,5 6,7 8 9 10,数值型数据的中位数(分组数据的算例),身高(cm),人数(人),某班级学生身高资料表,身高(cm),人数(人),人数累积,向上累积,向下累积,160,165,170,175,180,185,2,4,5,6,3,1,2,6,11,17,20,21,21,19,15,10,4,1,合计,21,解,:确定中位数位次:,确定中位数组:,按人数向上累积(或向下累积)知,中位数在第三组。,确定中位数:,中位数组只有唯一的变量值170cm,故它就是所求的中位数。,数值型数据的中位数(组距数列),在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:,数值型数据的中位数(分组数据的算例),某企业职工月工资资料,职工月工资(元),职工人数(人),向上累积,80,0,1000,10,10,10,001200,20,30,120,01400,50,80,140,01600,30,110,160,01800,10,120,合计,120,确定中位数位次。,确定中位数组。,从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。,按近似公式计算中位数值。,四分位数(quartile),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,Q,1,Q,2,Q,3,25%,25%,25%,25%,四分位数(位置的确定及计算),的位次,=,,,的位次,=,第,i,个四分位数可按如下近似公式计算:,顺序数据的四分位数(例题分析),解:,Q,1,位置,=,(300)/4,=,75,Q,3,位置,=,(3300)/4,=,225,从累计频数看,,Q,1,在“不,满意”这一组别中;,Q,3,在,“一般”这一组别中,四分位数为,Q,1,=,不满意,Q,3,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数 (户),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的四分位数(9个数据的算例),【例】:,9个家庭的人均月收入数据,原始数据:,1500 750 780 1080 850 960 2000 1250 1630,排 序:,750,780 850,960 1080 1250,1500 1630,2000,位 置:,1,2 3,4 5 6,7 8,9,数值型数据:平均数(简单平均数),设一组数据为:,x,1,,,x,2,,,x,n,(总体数据,x,N,),样本平均数,总体平均数,设各组的组中值为:,x,1,,,x,2,,,x,k,相应的频数为:,f,1,,,f,2,,,f,k,样本加权平均,总体加权平均,数值型数据:平均数(加权平均数),加权平均数(例题分析),某电脑公司销售量数据分组表,按销售量分组,组中值(,M,i,),频数(,f,i,),x,i,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,加权平均数(权数对均值的影响),甲乙两组各有10名学生,考试成绩及其分布数据如下:,甲组:考试成绩(,x,):0 20 100,人数分布(,f,):1 1 8,乙组:考试成绩(,x,):0 20 100,人数分布(,f,):8 1 1,平均数(数学性质),1.各变量值与平均数的离差之和等于零,2.各变量值与平均数的离差平方和最小,中位数和平均数数学性质的验证,几何平均数(geometric mean),n,个变量值乘积的,n,次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为,5.可看作是平均数的一种变形,几何平均数(例题分析),【例】,某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,几何平均数(例题分析),【例】,一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,众数、中位数和平均数的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,众数、中位数、平均数的特点和应用,众数,不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时应用,中位数,不受极端值影响,数据分布偏斜程度较大时应用,平均数,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,数据类型和所适用的集中趋势测度值,数据类型,分类数据,顺序数据,定距数据,定比数据,适,用,的,测,度,值,众数,中位数,平均数,平均数,四分位数,众数,几何平均数,众数,中位数,中位数,四分位数,四分位数,众数,4.2 离散程度的度量,4.2.1 分类数据:异众比率,4.2.2 顺序数据:四分位差,4.2.3 数值型数据:方差和标准差,4.2.4 相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征,反映各变量值远离其中心值的程度,(,离散程度,),从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,异众比率,1.对分类数据离散程度的测度,2.非众数组的频数占总频数的比例,3.计算公式为,4.用于衡量众数的代表性,异众比率(例题分析),解:,在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,四分位差(quartile deviation),对顺序数据离散程度的测度,也称为内距或四分间距,上四分位数与下四分位数之差,Q,d,=,Q,3,Q,1,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,四分位差(例题分析),解:,设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5,。已知,Q,1,=,不满意,=,2,Q,3,=,一般,=,3,四分位差为,Q,d,=,Q,3,-,Q,1,=,3 2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数 (户),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,极差(range),一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,R,=max(,x,i,)-min(,x,i,),计算公式为,平均差(mean deviation),各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差(例题分析),某电脑公司销售量数据平均差计算表,按销售量分组,组中值(,M,i,),频数(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,方差和标准差(variance and standard deviation),数据离散程度的最常用测度值,反映了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差或标准差,记为,2,(),;根据样本数据计算的,称为样本方差或标准差,记为,s,2,(s),样本方差和标准差,(,simple,variance,and,standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组据数,方差的计算公式,标准差的计算公式,注意:,样本方差用自由度,n,-1去除!,自由度(degree of freedom),自由度是指附加给独立的观测值的约束或限制的个数,从字面涵义来看,自由度是指一组数据中可以自由取值的个数,当样本数据的个数为,n,时,若样本平均数确定后,则附加给,n,个观测值的约束个数就是,1,个,因此只有,n,-1,个数据可以自由取值,其中必有一个数据不能自由取值,按着这一逻辑,如果对,n,个观测值附加的约束个数为,k,个,自由度则为,n,-,k,自由度(degree of freedom),样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,,则,x,=5,。,当,x,=5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,,那么,x,3,则必然取,2,,而不能取其他值,为什么样本方差的自由度是,n,-1,呢?因为在计算离差平方和时,必须先求出样本均值,x,,,而,x,则是附加给离差平方和的一个约束,因此,计算离差平方和时只有,n,-1,个独立的观测值,而不是,n,个,样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差,s,2,去估计总体方差,2,时,它是,2,的无偏估计量,样本标准差(例题分析),某电脑公司销售量数据平均差计算表,按销售量分组,组中值(,M,i,),频数(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,总体方差和标准差,(Population,variance,and,Standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,数据分布数量的估计(经验法则),经验法则表明:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内,约有95%的数据在平均数加减2个标准差的范围之内,约有99%的数据在平均数加减3个标准差的范围之内,切比雪夫不等式(Chebyshevs inequality),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,,,它对任何分布形状的数据都适用,切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有,1-1/,k,2,的数据落在,k,个标准差之内。其中,k,是大于,1,的任意值,但不一定是整数,切比雪夫不等式(Chebyshevs inequality),对于,k,=2,3,4,该不等式的含义是,至少有75%的数据落在平均数加减2个标准差的范围之内,至少有89%的数据落在平均数加减3个标准差的范围之内,至少有94%的数据落在平均数加减4个标准差的范围之内,离散系数(coefficient of variation),1.,标准差与其相应的均值之比,2.,对数据相对离散程度的测度,3.,消除了数据水平高低和计量单位的影响,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,离散系数(例题分析),某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【例】,某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,,v,1,0,为右偏分布,5.,偏态系数,0,为左偏分布,6.,偏态系数大于,1,或小于,-1,,被称为高度偏态分布;偏态系数在,0.5,1,或,-0.5,-1,之间,被认为是中等偏态分布;偏态系数越接近,0,,偏斜程度就越低,峰度系数(coefficient of skewness),2.峰度的判别:按上面公式计算出来的峰度指标,可以用来判定分布的形态特征。其判别标准为:,1.峰度系数的计算公式:,峰态(kurtosis),统计学家,Pearson,于,1905,年首次提出,数据分布扁平程度的测度,峰态系数,=0,扁平峰度适中,峰态系数,0,为尖峰分布,偏态系数和峰态系数(例题分析),某百货公司所属各商店年销售额偏度系数和峰度系数计算表,组中值,商店个数,65,20,1300,92.29,14890.20,-406289.85,11085908.88,75,40,3000,11951.84,-206596.03,3571160.03,85,60,5100,3184.90,-23204.26,169059.58,95,80,7600,589.39,1599.77,4342.22,105,48,5040,7759.35,98654.55,1254322.19,115,20,2300,10318.78,234383.62,5323856.40,125,12,1500,12842.69,420139.56,13744565.50,280,25840,61537.14,118687.35,35153214.81,偏态系数和峰态系数(例题分析),因 ,数值不是很大,说明分布略为右偏;,数值很小,说明比具有同方差的正态分布略为平坦。,用Excel计算描述统计量,MODE计算众数,MEDIAN计算中位数,QUARTILE计算四分位数,AVERAGE计算平均数,HARMEAN计算简单调和平均数,GEOMEAN计算几何平均数,AVEDEV计算平均差,STDEV计算样本标准差,STDEVP计算总体标准差,SKEW计算偏态系数,KURT计算峰态系数,TRIMMEAN计算切尾均值,数据分布特征和描述统计量,数据分布特征,集中趋势,离散程度,分布形状,中位数,平均数,异众比率,四分位差,极差,偏态系数,平均差,方差或标准差,峰态系数,众数,离散系数,本章小结,1.数据水平的概括性度量,2.数据离散程度的概括性度量,数据分布形状的度量,用,Excel,计算描述统计量,End of Chapter 4,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布 特征 度量
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文