统计学数据的描述(共38张PPT).pptx
《统计学数据的描述(共38张PPT).pptx》由会员分享,可在线阅读,更多相关《统计学数据的描述(共38张PPT).pptx(38页珍藏版)》请在咨信网上搜索。
统计学数据(shj)的描述第一页,共38页。第三章数据(shj)的描述第二页,共38页。在在对对数数据据(shj)进进行行深深入入加加工工之之前前,总总应应该该对对数数据据(shj)有有所印象。所印象。可可以以借借助助于于图图形形和和简简单单的的运运算算,来了解数据来了解数据(shj)的一些特征。的一些特征。由由于于数数据据(shj)是是从从总总体体中中产产生生的的,其其特特征征也也反反映映了了总总体体的的特特征征。对对数数据据(shj)的的描描述述也也是是对其总体的一个近似的描述。对其总体的一个近似的描述。第三页,共38页。3.1 如何如何(rh)用图来表示数据用图来表示数据?第四页,共38页。3.1.1 定量变量定量变量(binling)的图表的图表示示:1.直方图直方图对于一个定量变量,比如某个地区对于一个定量变量,比如某个地区(地区(地区1)测量了)测量了163个高三男生的身个高三男生的身高()。高()。用图形来表示这个数据,使人们能够用图形来表示这个数据,使人们能够看出这个数据的大体分布或看出这个数据的大体分布或“形状形状”的一个办法的一个办法(bnf)是画直方图是画直方图(histogram)。图就是利用这个数据由图就是利用这个数据由SPSS软件所软件所画的直方图。画的直方图。第五页,共38页。该图的横坐标是身高区间,这里每一格代表该图的横坐标是身高区间,这里每一格代表5cm的身高范围的身高范围(fnwi)(格子宽度因不同的数据性质或要求而定,这里的格子宽(格子宽度因不同的数据性质或要求而定,这里的格子宽度为度为5cm),而纵坐标为各种身高区间的身高的频数。),而纵坐标为各种身高区间的身高的频数。直方图直方图第六页,共38页。3.1.1 定量变量定量变量(binling)的图表的图表示示:2.盒型图盒型图简单一些简单一些(yxi)的是盒形图的是盒形图(boxplot,又称箱图、箱线图、盒子图,又称箱图、箱线图、盒子图)。图的左边一个是根据地区图的左边一个是根据地区1高三男生的高三男生的身高数据所绘的盒形图;其右边的图代身高数据所绘的盒形图;其右边的图代表另一个地区(地区表另一个地区(地区2)的高三学生的)的高三学生的身高(,第三章例身高(,第三章例.xls)。)。第七页,共38页。盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线,封闭盒子的上下两横线(边)为上下四分位数(点);按照(边)为上下四分位数(点);按照SPSS的默认选项,如果所有的默认选项,如果所有样本中的数目都在离四分位点倍盒子长度之内,则线的端点为最大样本中的数目都在离四分位点倍盒子长度之内,则线的端点为最大和最小值,否则和最小值,否则(fuz)线长就是倍的盒子长度(盒子长度称为四线长就是倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出分位间距),在其外面的度量单独点出第八页,共38页。3.1.1 定量定量(dngling)变量的图表变量的图表示示:3.茎叶图茎叶图 在直方图和盒形图中,很难恢复数据在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据以地区以地区(dq)1高三男生身高为例(图)高三男生身高为例(图),茎叶图既展示了分布形状又有原始,茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数较大位数的数字,叶为较小位数的数字。字。第九页,共38页。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm。比如,由于第一行茎。比如,由于第一行茎为为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数目代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一等。每行左边有一个频数(比如第一行有行有9个数目,第二行有个数目,第二行有17个等等);可以个等等);可以(ky)看出最长的一行为从看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)。个数)。第十页,共38页。3.1.1 定量定量(dngling)变量的图表变量的图表示示:4.散点图散点图 数据会有两个变量,如数据会有两个变量,如 男士和女士初婚男士和女士初婚年限数据()。年限数据()。该数据描述了自该数据描述了自1900年到年到1998年男女年男女(nnn)第一次婚姻延续的时间。第一次婚姻延续的时间。这里年份是一个变量,婚姻延续时间是这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个姻年限都给出来,所以每年就取了一个中间的值中间的值(中位数中位数)作为代表。作为代表。第十一页,共38页。散点图散点图第十二页,共38页。3.1.2 定性定性(dng xng)变量的图表变量的图表示:饼图示:饼图定性变量定性变量(binling)(或属性变量(或属性变量(binling),分类变量,分类变量(binling))不能点出直方图、散)不能点出直方图、散点图或茎叶图,但可以描绘出它们各点图或茎叶图,但可以描绘出它们各类的比例。类的比例。下面用下面用SPSS绘的图(饼图,绘的图(饼图,pie chart)表示了说世界各种主要语言)表示了说世界各种主要语言人数的比例人数的比例(language.txt).第十三页,共38页。饼图饼图第十四页,共38页。3.1.2 定性定性(dng xng)变量的图表变量的图表示:条形图示:条形图而用同样数据而用同样数据(shj)画的图称为画的图称为条形图(条形图(bar chart)。)。从每一条可以看出讲各种语言的从每一条可以看出讲各种语言的实际人数,而且分别给出了每个实际人数,而且分别给出了每个语种中母语和日常使用的人数语种中母语和日常使用的人数(在图中并排放置)。条形图显(在图中并排放置)。条形图显示比例不如饼图直观。示比例不如饼图直观。第十五页,共38页。条形图条形图第十六页,共38页。3.2 如何用少量如何用少量(sholing)数字来数字来概括数据?概括数据?大量的数字既繁琐又不直观;需要对大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化数据做人们时间和耐心所允许的简化我们可以用我们可以用“平均平均”,“差距差距”或或百分比等来概括大量数字。百分比等来概括大量数字。由于定性变量主要是计数,比较简单,由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面常用的概括就是比例或百分比。下面(xi mian)主要介绍关于定量变量的主要介绍关于定量变量的数字描述。数字描述。第十七页,共38页。3.2 如何如何(rh)用少量数字来概括数用少量数字来概括数据?据?可用少量所谓汇总统计量或概括可用少量所谓汇总统计量或概括统计量统计量(summary statistic)来描述来描述定量变量的数据。定量变量的数据。这些数字是从样本数据得来的,这些数字是从样本数据得来的,因而也是样本的函数,因而也是样本的函数,任何样本的函数,只要不包含总任何样本的函数,只要不包含总体体(zngt)的未知参数,都称为的未知参数,都称为统计量统计量(statistic)。样本的随机性决定统计量的随机样本的随机性决定统计量的随机性(统计量也是随机变量)性(统计量也是随机变量)第十八页,共38页。3.2 如何用少量如何用少量(sholing)数字来数字来概括数据?概括数据?概括统计量经常对应于总体概括统计量经常对应于总体的无法观测到的某些参数。的无法观测到的某些参数。这时,统计量可作为这时,统计量可作为(zuwi)这些参数的估计。这些参数的估计。一些统计量还可以用来检验一些统计量还可以用来检验样本和假设的总体是否一致。样本和假设的总体是否一致。第十九页,共38页。3.2 如何用少量数字来概括如何用少量数字来概括(giku)数据?数据?注:一些统计量前面有时加注:一些统计量前面有时加上上“样本样本”二字,以区别于二字,以区别于总体的同名参数总体的同名参数(cnsh)。如如“样本均值样本均值”和和“样本标样本标准差准差”,以区别于总体均值,以区别于总体均值和总体标准差;但在不会混和总体标准差;但在不会混淆时可以只说淆时可以只说“均值均值”和和“标准差标准差”。第二十页,共38页。3.2.1 数据数据(shj)的的“位置位置”数据数据(shj)有位置吗?有位置吗?这里三个数据这里三个数据(shj)的位置一样吗?的位置一样吗?第二十一页,共38页。3.2.1 数据数据(shj)的的“位置位置”“位置位置”一般是关于数据一般是关于数据(shj)中某变量观测值的中某变量观测值的“中心位置中心位置”或或者数据者数据(shj)分布的中心分布的中心(center或或center tendency)。)。和这种和这种“位置位置”有关的统计量就称有关的统计量就称为位置统计量为位置统计量(location statistic)。位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中心中心”了,比如后面要讲的了,比如后面要讲的k百分百分位数(或位数(或k分位数)。分位数)。第二十二页,共38页。3.2.1 数据数据(shj)的的“位置位置”最最常常用用(chn yn)的的位位置置统统计计量量就就是是小小学学时时所所学学到到的的算算术术平平均均数数,它它在在统统计计中中叫叫做做均均值值(mean);严严格格地地说说叫叫做做样样本本均均值值(sample mean),以以区区别别于于总体均值。总体均值。如如果果记记样样本本中中的的观观测测值值为为x1,xn,则样本均值定义为则样本均值定义为第二十三页,共38页。(样本样本)中位数中位数(median)是数据按照大小排列之是数据按照大小排列之后位于中间的那个数后位于中间的那个数(如如果样本量为奇数果样本量为奇数),或者,或者中间两个数目中间两个数目(shm)的平均的平均(如果样本量为偶如果样本量为偶数数)。由于中位数不易被极端由于中位数不易被极端值影响,所以中位数比值影响,所以中位数比均值稳健均值稳健(robust)。3.2.1 数据数据(shj)的的“位置位置”第二十四页,共38页。上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile,third quantile)则分别位于(按大小排列的)数据(shj)的上下四分之一的地方。3.2.1 数据数据(shj)的的“位置位置”第二十五页,共38页。3.2.1 数据数据(shj)的的“位置位置”一般地还称上四分位数为一般地还称上四分位数为75百分位数百分位数(75 pecentile,有,有75的观测值小于它)的观测值小于它),下四分位数为,下四分位数为25百分位数(有百分位数(有25的的观测值小于它)。观测值小于它)。一般地,一般地,k百分位数(百分位数(k-pecentile)意味)意味着有着有k的观测值小于它。的观测值小于它。如果令如果令a=k%,则,则k百分位数也称为百分位数也称为a分位分位数数(a-quantile)。样本中出现最多的数目样本中出现最多的数目(shm),称为众,称为众数数(mode)第二十六页,共38页。3.2.2 数据数据(shj)的的“尺度尺度”这两个数据(shj)“胖瘦”一样吗?第二十七页,共38页。第三十五页,共38页。第三十七页,共38页。标准差实际上是方差(variance)的平方根。统计学数据(shj)的描述2 定性(dng xng)变量的图表示:饼图这时,统计量可作为(zuwi)这些参数的估计。可以看出,原始数据是在各自的均值附近,而散布也不一样。第三十四页,共38页。用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法(bnf)是画直方图(histogram)。另一个常用的尺度统计量为(样本)标准差(standard deviation)。这是在标准化之前的数据中不易看到的。它描述了中间半数观测值的散布情况。如果记样本中的观测值为x1,xn,则样本方差为第三十六页,共38页。1 数据(shj)的“位置”3.2.2 数据数据(shj)的的“尺度尺度”数据中数目的分散程度由尺度统计量(scale statistic)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(binhu)(spread或variability)的度量。第二十八页,共38页。3.2.2 数据数据(shj)的的“尺度尺度”从前面两个高三男生身高数据的盒形从前面两个高三男生身高数据的盒形图。左边图。左边(zu bian)的数据平均要高些,的数据平均要高些,但右边的数据散布范围要小得多。但右边的数据散布范围要小得多。统计(tngj)中有许多尺度统计(tngj)量。一般来说,数据越分散,尺度统计(tngj)量的值越大。第二十九页,共38页。3.2.2 数据数据(shj)的的“尺度尺度”极差极差(range);就是;就是(jish)极大值和极大值和极小值之间的差。极小值之间的差。前面两个高三男生身高数据的极差分别前面两个高三男生身高数据的极差分别为为50cm和和32cm。盒形图盒子的长度为两个四分位数之差,盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距称为四分位数极差或四分位间距(interquantile range);它描述了中;它描述了中间半数观测值的散布情况。极差和四分间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值,信位极差实际上各自只依赖于两个值,信息量太少。息量太少。第三十页,共38页。3.2.2 数据数据(shj)的的“尺度尺度”另另一一个个常常用用的的尺尺度度统统计计量量为为(样样本本)标标准准差差(standard deviation)。度度量量样样本本中中各各数数值值到到均均值值距距离离(jl)的的一一种种平均。平均。标标准准差差实实际际上上是是方方差差(variance)的的平平方方 根根。如如 果果 记记 样样 本本 中中 的的 观观 测测 值值 为为x1,xn,则样本方差为,则样本方差为第三十一页,共38页。3.2.2 数据数据(shj)的的“尺度尺度”两个均值一样,但右边两个均值一样,但右边(yu bian)的要的要“胖胖”些,方差为些,方差为左边的一倍左边的一倍第三十二页,共38页。3.2.3 数据的标准数据的标准(biozhn)得分得分假假定定两两个个水水平平(shupng)类类似似的的班级(一班和二班)上同一门课,班级(一班和二班)上同一门课,但但是是由由于于两两个个任任课课老老师师的的评评分分标标准准不不同同,使使得得两两个个班班成成绩绩的的均均值值和和 标标 准准 差差 都都 不不 一一 样样(数数 据据:grade.txt)。第三十三页,共38页。3.2.3 数据数据(shj)的标准得分的标准得分一一班班分分数数的的均均值值和和标标准准差差分分别别为为和和,而而二二班班(r bn)的的均均值值和和标标准差分别为和。准差分别为和。那那么么得得到到90分分的的一一班班的的张张颖颖是是不不 是是 比比 得得 到到 82分分 的的 二二 班班(r bn)的的刘刘疏疏成成绩绩更更好好呢呢?怎怎么么比较才能合理呢?比较才能合理呢?第三十四页,共38页。3.2.3 数据的标准数据的标准(biozhn)得分得分虽虽然然这这种种均均值值和和标标准准差差不不同同的的数数据据不不能能够够直直接接比比较较,但但是是可可以以把把它它们们进进行行标准化,再比较标准化后的数据。标准化,再比较标准化后的数据。一一个个(y)标标准准化化的的方方法法是是把把某某样样本本原原始始观观测测值值(亦亦称称得得分分,score)和和该该样样本本均均值值之之差差除除以以该该样样本本的的标标准准差差;得得到到的的度度量量称称为为标标准准得得分分(standard score,又称为,又称为z-score)。第三十五页,共38页。3.2.3 数据数据(shj)的标准得分的标准得分即,某观测(gunc)值xi的标准得分定义为第三十六页,共38页。3.2.3 数据的标准数据的标准(biozhn)得分得分在在我我们们的的例例子子中中,张张颖颖的的标标准准得得分分为为,而而刘刘疏疏的的标标准准得得分分为为(82-70.19)/7。显显然然如如果果两两个个班班级级平平均均水水平平差差不不多多,刘刘疏疏的的成成绩绩应应该该(ynggi)优优于于张张颖颖的的成成绩绩;这这是是在在标标准准化化之之前的数据中不易看到的。前的数据中不易看到的。第三十七页,共38页。可以看出,原始数据是在各自的均值附近,而散布也不一样。可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在但它们的标准得分则在0 0周围散布,而且散布也差不多。实际周围散布,而且散布也差不多。实际上,任何样本经过上,任何样本经过(jnggu)(jnggu)这样的标准化后,就都变换成均这样的标准化后,就都变换成均值为值为0 0、方差为、方差为1 1的样本。标准化后不同样本观测值的比较只有的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。相对意义,没有绝对意义。第三十八页,共38页。- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 描述 38 PPT
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文