《应用统计学》第四章.pptx
《《应用统计学》第四章.pptx》由会员分享,可在线阅读,更多相关《《应用统计学》第四章.pptx(47页珍藏版)》请在咨信网上搜索。
1、应用统计学第四章第四章 描述性统计量描述性统计量2 目录页CONTENTS PAGE引导案例 100袋食品重量的统计资料某食品加工厂新增一条可以自动封装袋装食品的生产线。每袋食品的重量是50克,过于偏离这个标准,即被视为不合格品。为检验生产线的运转状况,质检人员随机从生产线上抽取了100袋食品,测得的重量数据如表4-1和图4-1所示。观察图4-1可知,100袋食品的重量存在差异,有的偏大一些,有的偏小一些,整体上呈现出一种离散状态;但这种离散又不是没有限度的,靠近中间的重量频数较高,偏离中间的重量则频数逐渐降低,整体上具有向中间某一确定位置集中的趋势;频数分布整体形态并不是完全对称的,而是略有
2、向右侧偏斜的倾向;从集中速度的变化上看,左侧从第二组开始速度加快,右侧从第三组开始速度加快,从而使频数分布图的形状开始变得陡峭起来。3 目录页CONTENTS PAGE4 目录页CONTENTS PAGE5 目录页CONTENTS PAGE 观察频数分布图,有助于对频数分布趋于集中的位置、离散程度的大小、分布图的对称性及集中速度变化的快慢形成粗略的判断,但远未达到精确的测定。集中位置在哪里?离散程度有多大?是否对称?偏斜了多少?集中速度变化是快还是慢?这些问题单凭肉眼观察是无法解决的,因此需要一种尺度,用以测量频数分布所表现出来的上述特征,这在数据处理活动中就形成了一系列描述性统计量的计算。6
3、 目录页CONTENTS PAGE第一节第三节第二节第四节集中趋势描述性统计量分布形态描述性统计量离散程度描述性统计量运用SPSS进行统计量描述7 目录页CONTENTS PAGE第一节集中趋势描述性统计量第三节分布形态描述性统计量第二节离散程度描述性统计量第四节运用SPSS进行统计量描述8 第四章描述性统计量第一节 集中趋势描述性统计量一、均值均值反映了同类现象在特定条件下所达到的平均水平。将数据中的全体观测值求和,再除以观测值的个数,即可得到该数据的均值,记作。其计算公式如下:式中,n代表样本量,即观测值的个数;代表第i个观测值。根据式,可计算表4-1中100袋食物重量样本数据的均值:均值
4、是用算术平均的方法,将各个观测值之间的差异抽象化,从而测定数据分布趋于集中的具体位置,同时也给出了全体观测值的一个代表性水平。实践中可能遇到各种形式的数据,计算均值时要注意根据具体情况灵活变通地加以运用。9 第四章描述性统计量第一节 集中趋势描述性统计量10 第四章描述性统计量第一节 集中趋势描述性统计量如果用 代表分组的变量值,代表各组频数,可总结出分组数据计算均值的公式如下:尽管式(4-2)是根据式(4-1)变换而来的,但它在统计计算中已经从形式上被固定下来,称为加权均值。通过观察可知:如果将式中的 看作被平均对象,则对平均的结果起着权衡轻重的作用,哪一个变量值所对应的频数大,计算结果就有
5、向其靠近的倾向。因此,频数在公式中又被称作权数。11 第四章描述性统计量第一节 集中趋势描述性统计量如果数据未被分组,则每一个被平均对象 所对应的权数 就是相等的,即都为1,此时加权均值的公式就会转换为原来的形式比较简单的均值定义公式。所以,也可以将式(4-2)看作是均值的一个代表性公式。此外,在式(4-1)中,假如被平均对象xi的变化是均匀或对称的,则公式又可进一步简化为:式(4-3)称作中距,式中的 代表最小的观测值,代表最大的观测值。式(4-1)(4-2)和(4-3)是计算均值的三种不同形式的公式,但它们所反映的内容是完全一致的。在一定条件下,三者之间可以互相转换,因此它们在实践中经常是
6、结合起来运用的。12 第四章描述性统计量第一节 集中趋势描述性统计量均值计算公式有两个重要的数学性质:第一,所有观测值与其均值的离差之和等于0,即 ;第二,所有观测值与其均值的离差平方和最小,即 最小。第一个数学性质表明,全体观测值与均值的正负离差可以相互抵消,从而使均值处于一个具有充分代表性的平衡的位置上;第二个数学性质表明,均值实现了与全体观测值之间的最佳拟合,全体观测值与任意一个不是均值的数值的离差平方和都要大于均值的离差平方和。均值的这两个数学性质从数理上说明了其作为全体观测值代表性水平的合理性,也正是由于这个原因,才使得均值成为最重要也是最常用的集中趋势描述性统计量。13 第四章描述
7、性统计量第一节 集中趋势描述性统计量二、中位数将全体观测值按照从小到大的顺序排成一列,处于中间位置的观测值就是该数据的中位数,记作。例如,9个家庭的人均月收入原始数据如表4-4所示,排序结果如表4-5所示。14 第四章描述性统计量第一节 集中趋势描述性统计量由表4-5可知,中位数为排序后的第5个观测值,即1 180元。由此可见,计算中位数的关键是确定其所在位置。当观测值个数n为奇数时,中位数的位置为 ;当观测值个数n为偶数时,可采用以下公式计算中位数:15 第四章描述性统计量第一节 集中趋势描述性统计量同理,可计算出表4-1中100袋食品重量样本数据的中位数为51克。16 第四章描述性统计量第
8、一节 集中趋势描述性统计量三、众数尽管根据同一数据所计算出来的均值、中位数和众数可能略有差异,但都不失为寻找和确定数据分布集中位置的合理方法。均值是通过计算得出的,中位数与众数则是通过寻找特定位置而确定下来的。因此,均值通常被称为计算平均数,而中位数与众数则被称为位置平均数。全体观测值都参与了均值的运算,因此,一般情况下均值要比中位数和众数具有更好的综合性。然而,均值的这一优点同时却又是它的缺点,当数据中存在偏大或偏小的极端值时,均值的计算结果也将随之偏大或偏小,这样反倒会降低其代表性。中位数与众数都是由位置确定的,因此不受极端值的影响。数据分布集中趋势明显并存在偏斜情况时,中位数与众数有时比
9、均值更具有说服力。因此,在数据处理活动中,均值、中位数和众数通常都是视具体情况而相互参照使用的。可以这样来概括:均值是全体观测值的重心,中位数是全体观测值的中心,众数是全体观测值的重点。17 第四章描述性统计量第一节 集中趋势描述性统计量四、均值、中位数和众数的比较不同观测值在样本数据中出现的次数是不尽相同的,出现次数最多的观测值就是该数据的众数,记作。例如,在表4-2所示的车间工人日产零件数的数据中,日产零件数为7件的人数最多,为50人,因此7件就是该数据的众数。需要注意的是,一个样本数据中有时可能有不止一个众数。例如,在表4-6所示的球员身高数据中,出现次数最多的观测值有两个,即178 c
10、m和188 cm,因此该数据有两个众数。另外,一个样本数据中有时可能没有众数。例如,在表4-4所示的9个家庭人均月收入的数据中,每个观测值都只出现了一次,因此该数据没有众数。因此,在实际数据处理活动中,众数一般只适用于数据规模较大且具有明显集中趋势的情况。在表4-1所示的数据中,经过清点可以确定,出现次数最多的观测值是53克,因此该数据的众数为53克。18 第四章描述性统计量第一节 集中趋势描述性统计量此外,在钟形分布下,均值、中位数和众数之间一般还具有以下比较确定的关系:对称分布下,均值=中位数=众数;左偏分布下,均值中位数众数;右偏分布下,均值中位数众数,如图4-3所示。经验表明,频数分布
11、偏斜程度较低时,三者之间的关系大体为:。19 目录页CONTENTS PAGE第一节集中趋势描述性统计量第三节分布形态描述性统计量第二节离散程度描述性统计量第四节运用SPSS进行统计量描述20 第二节 离散程度描述性统计量第四章描述性统计量一、极差、四分位差与平均差 极差(一)极差是指数据中的最大观测值与最小观测值之差,记作R。其计算公式为:(4-5)式中,和 分别代表最大观测值与最小观测值。根据式(4-5),表4-1中100袋食品重量的最小观测值为40克,最大观测值为61克,所以该数据的极差为21克。极差给出了全体观测值的最大变动范围,一般情况下,极差越大,表明频数分布的离散程度越大。极差计
12、算简便、含义直观,通常情况下也可以说明离散程度大小的问题,但极少被单独使用,这主要是因为其计算过程仅仅是基于数据中的两个特殊观测值,所以极易受极端值的影响。一旦最小观测值过小或最大观测值过大,就会出现夸大离散程度的情况。21 第二节 离散程度描述性统计量第四章描述性统计量 四分位差(二)四分位差就是数据中的上四分位数与下四分位数之差,记作。其计算公式为:(4-6)式中,和 分别代表上四分位数和下四分位数。将全体观测值按照从小到大的顺序排成一列,处于第1/4位置上的观测值就是该数据的下四分位数,处于第3/4位置上的观测值就是该数据的上四分位数。与确定中位数的方法类似,确定下四分位数位置的公式为:
13、(4-7)确定上四分位数位置的公式为:(4-8)四分位差的计算122 第二节 离散程度描述性统计量第四章描述性统计量将全体观测值按照从小到大的顺序排成一列,则中位数将该数列分成数量相等的两组数。当观测值个数n为奇数时,每组有 个数,为第一组 个数的中位数,为第二组 个数的中位数;当观测值个数n为偶数时,每组有 个数,为第一组 个数的中位数,为第二组 个数的中位数。当数据量很大时,可应用Excel统计函数中的QUARTILE(array,quart)函数计算四分位数。其中,array参数用于指定要计算四分位数值的数组或数值型单元格区域;quart参数用于指定返回哪一个四分位值,其可取值为0(返回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用统计学 应用 统计学 第四
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。