应用统计学--教案---第2章-统计数据的收集与整理.docx
《应用统计学--教案---第2章-统计数据的收集与整理.docx》由会员分享,可在线阅读,更多相关《应用统计学--教案---第2章-统计数据的收集与整理.docx(21页珍藏版)》请在咨信网上搜索。
1、第2章统计数据的收集与整理2.1统计调查的基本问题i=i教学内容2.1统计调查的基本问题2.2统计调查的方式和方法2.3统计调查方案与问卷设计2.4统计数据整理2.5统计数据的显示2.6 Excel在统计整理中的应用教学要求1. 了解统计调查的意义、基本原则、种类;2. 掌握统计调查的方式、方法;3. 了解统计调查方案的内容、问卷设计的方法, 培养实事求是的专业素养;4. 掌握统计数据整理内容和步骤;掌握变量数列编制方法;5. 掌握统计资料的显示方法,能熟练制作统计图表,强化实践能力、 培养耐心细致的工作作风,树立高度的社会责任感。教学重点统计调查的方式、方法; 统计数据整理的内容和步骤; 变
2、量数列的编制方法教学难点变量数列的编制方法教学方法课堂讲授、多媒体教学、课堂讨论、案例分析课时数4课时(讲授4课时)导入案例Staples连锁零售商店数据的收集与整理课程思政目标: 数据是统计学 的基本元素,也 是后续统计描 述和统计推断 的基础,统计调 查是获得数据 的主要途径之 一。在讲授统计 调查基本方法 和基本步骤时,统计调查的意义统计调查是统计工作的第一阶段,是整个统计工作的基础一环。只有做好统计调查,才能对统 计整理和统计分析产生积极的影响。统计调查的全面性、准确性与及时性,是衡量统计调查工作质 量的重要标志,是对统计调查的基本要求。统计调查的基本原则进行统计调查时,必须遵循以下基
3、本原则。1. 实事求是,如实反映在连续型组距式分组中,存在以同一个数值作为相邻两组共同的界限,根据统计分组的互斥 原则,凡是总体中某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组 内,亦称上限不包括在内原则。例如,表2.4 (b )中,6000这个数值应该归入6000-8000组 内,而不能归入4000-6000组内。(4)按组距是否相等分组组距指的是每组上限与下限之间的距离。按数量标志进行组距式分组,还可分为等距分组和不 等距(或称异距)分组。3.组距式分组中相关指标的计算(1)组距的计算统计分组中,组距式分组较为复杂。按数量标志进行组距式分组时,需要科学设计组数(&
4、)、 组距(i )和组限。通常按照标志值从小到大的顺序分成第一组、第二组最末组,组距是各组 标志值的变动范围,该组标志值的最小值称为组下限,最大值称为组上限。既有上限也有下限的组 称为闭口组,缺少下限或者缺少上限的组称为开口组。对于闭口组(有下限和上限),组距的计算公式为组距(i)二组上限(U ) -组下限(/)(2.1 )采用组距式分组时,如果变量中存在极小值或极大值时,可以设计成XX以下或xx以上 的开口组形式。在等距数列中可假定开口组的组距与其他组相等。在异距数列中,开口组的组距可 根据全数列的变动规律来确定,若数列无规律可循时,则以相邻组的组距为准。例2.统计研究某班级35名学生的某课
5、程考试成绩,学习成绩一般服从正态分布,存在极端 值,一般设计成异距分组形式,如表2.5所示。五个组分别表示不及格、及格、中等、良好和优秀。表2.5学生成绩分组表学生成绩(分)人数组距(分)第一组为开口组,组距为邻近组组距,即组距为10。因此表2.5所示的分组在统计分析时按照 等距分组对待。例2.2将表2.4中全国人口按年龄分组资料转换成连续式组限,并计算各组组距,如表2.6 所示。表2.6人口分组表全国人口年龄全国人口年龄人数(岁)间断式组限(岁)连续式组限(亿人)(2)组数的计算美国学者斯特杰斯(H.A.Sturges )总结出等距分组时确定组距和组数的经验公式:全距(R)抄fmin(2.2
6、)组数(A)=l+3.3221gN(2.3)组距(,)=%(2.4)式(2.3 )中,N为总体单位数。根据以上经验公式,可以求得确定组数的参考标准,见表2.7。表2.7组数的参考标准2503678910 20为了计算分析的方便,组距最好是5或者10的倍数,组限的末位数最好是0或者5 ,并且要 求第一组下限W最小变量值,最末组上限最大变量值,以确保每一个总体单位都能归到相应的组 内。例2.3调查取得某区30家企业2020年工业增加值的计划完成程度,见表2.8 ,试进行组距式分组。表2.8计划完成程度原始资料( )818385909295979910010110310510510811011211
7、3113114115116117118118119120121125128129解:全距(R )=最大变量值-最小变量值=129%-81%=48%。组数() =l+3.3221gN=l+3.3221g30e5.9 ,取整数 6。组距(i)=全距/组数二48%/6=8%,取10% ,组数调整为5。第一组下限取80% ,各组设计如下。第一组,80%90% ;第二组,90% 100% ;第三组,100%110% ;第四组,110%120% ;第五组,120%130%。(3) 组中值的计算组距式分组时各组的分组标志从组下限变化到组上限,组中值是指各组分组标志值的平均数, 假设分组标志值的变化是均匀的,
8、则组中值的基本计算公式是组中值=组下限+组上限(2.5)按照间断式组限分组时,需要转换成连续式组限后再计算组中值。闭口组时采用上式计算,开 口组时需要采用以下近似算法。第一组为XX以下,缺少下限,则组中值=组上限-下一组组距(2.6)2最末组为XX以上,缺少上限,则组中值=组下限+上一,组距(2.7 )(4) 频数和频率在统计分组的基础上,将总体所有单位按某一标志归类排列,称为频数分布,或次数分布,也 称为分布数列。频数(次)用/表示。频率反映了各组频数的大小对总体所起作用的相对强度,它是各组频数 与总体单位总和之比,计算公式为(2.8)(2.8)(2.8)(2.8)频率五频率有如下两个性质。
9、(1 )任何频率都是介于0和之间的一个数,即0-1(2.9)(2 )各组频率之和等于1 ,即七(2.10)例2.4某企业职工按月工资分组的资料如表2.9所示,各组的频率见表中第三列。表2.9企业职工工资资料月工资(元)X职工人数(人) fi所占比重(%)700以下6067009001501590012002402412001600500501600以上505合计1000100(5)累计频数与累计频率编制向上累计频数(或频率)分布的方法是:由标志值小的组向标志值大的组依次累计,向上 累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率则表明某组上限以下的各组单 位数之和占总体单位数的比重
10、。例2.5根据表2.9的资料,分别进行向上累计和向下累计。具体计算结果如表2.10所示。表2.10企业职工工资累计数表月工资(元)频数频率向上累计向下累计频数频率频数频率700以下600.06600.0610001.007009001500.152100.219400.9490012002400.244500.457900.79120016005000.509500.955500.551600以上500.0510001.00500.0510001.00累计频数具有两个特点:第一组的累计频数等于第一组本身的频数;最后一组的累计频数 等于总体单位数。累计频率同样也具有两个特点:第一组的累计频率等于
11、第一组本身的频率;最后一组的累 计频率等于1。变量数列的编制统计调查所收集的原始资料,是比较分散、凌乱的,无法显示现象总体的本质特征。一般来说, 对所收集的资料按标志值大小进行排序,再观察各标志值分布是否均匀,决定是否采用等距分组。 下面结合实例具体说明变量数列的编制过程。例2.6某班40名学生的统计学考试成绩如下,根据下面的资料,试编制一个变量数列,来 反映该班学生统计学考试成绩的分布状况。89568382987568857388749475837793809581828279829234837484857665868564886558828073解:第一步,对以上的数据按大小排序,结果如下
12、。34565864656568737374747575767779808081828282828283838384858585868888899293949598上述数据可以反映出资料的某些特征:该班统计学考试成绩分布在3498分之间,最高分为 98分,最低分为34分,全距R=- xmin =98-34=64 (分第二步,计算组数和组距。组数(k ) =l+3.3221gAM+3.3221g40e6.32 ,取整数 6。组距(i)二全距/组数=64/6孑10.67 ,取整数10o第三步,需要指出的是,根据经验,由公式(2.3 )求出的组数,当数据较少时,往往过多, 当数据较多时,则往往过少。所
13、以该公式只能作为参考之用。结合以上分析,可编制如下变量数列,见表2.11。表2.11学生按成绩分组表成绩(分)学生数(人)(频数)所占比重(%)(频率)统计汇总1. 统计汇总的组织形式对规模较大、级别较多的统计工作,需要选择统计汇总组织形式,统计汇总有以下三种组织形 式。(1)逐级汇总(2 )集中汇总(3 )综合汇总2. 统计汇总技术统计汇总的工作量一般很大,为了高效率、高质量、经济地完成该项工作,需要根据不同的情 况选用合适的统计汇总技术。统计汇总技术一般区分为人工汇总、机械汇总和计算机汇总三种。2.5统计资料的显示统计表1. 统计表的结构从形式上看,统计表主要由总标题、横行标题、纵栏标题和
14、指标数值四个部分组成。从内容上 看,统计表包括主词和宾词两个部分。统计表结构的一般形式如表2.12所示。表2.12 2020年全国国内生产总值及构成总标题主词宾词甲c按行业产业分组q国内生产总值V(亿元)Q比重(%)。 纵栏数值-第一产业横行标题3第二产业-第三产业-7775384255-553977Q7加、37*54 指标数值,合计Q1015986。100.如/2. 统计表的种类(1 )统计表按作用不同分为调查表、整理表和分析表。调查表用于搜集原始资料,是调查单位 的统计表;整理表是用于表现统计汇总或整理的表格;分析表是对统计整理的结果再进一步计算得 到的最终结果。整理表和分析表往往结合在一
15、起。(2 )按照原始资料是否分组和分组的程度,统计表分为简单表、简单分组表和复合分组表三种。 简单表是指主词没有经过任何分组的统计表。简单表的主词只是按总体各个单位简单排列或只 按时间顺序简单排列,如表2.13所示。表2.13 2020年我国主要社会经济活动表阊示计量单位数量国内生产总值亿元1015986财政收入亿元180270财政支出亿元247850粮食万吨66949外商直接投资亿元10000出口总额亿元179326简单分组表是指主词按一个标志分组的统计表。可以按品质标志分组,也可以按数量标志分 组,如表2.12就是按照产业划分的国内生产总值表。复合分组表是指对原始资料进行了复合分 组,如表
16、2.14所示,对企业职工人数按照性别和年龄两个标志进行了复合分组,得到复合分组 统计表。分组既可以在横行标题上体现,也可以在纵栏标题上体现,或者两者都有。如表2.15 是表2.14资料的另一种表现形式,能更简便地表现统计结果,且便于汇总。表2.14企业职工人数统计表表2.15企业职工人数统计表性别年龄人数1布 P性别不同年龄人数合计30岁以下3050岁(A)统计图统计图是显示统计数据的直观、形象的方法,统计图有二维平面图、三维立体图等,具体 有柱形图、折线图、饼形图、散点图等。根据所反映的统计数据的特点,选择合适的统计图。反映总体分布的统计图主要有次数和频率分布直方图、折线图、曲线图,累计次数
17、和累计频率 折线图、曲线图等。在计算机运用日益普及的今天,统计图表的制作都可以借助计算机来完成。不仅专门的统计软 件,普通的办公系统Excel也具有该功能。2.6Excel在统计整理中的应用分布数列的整理分析在Excel中有两类方法可以实现分布数列的编制:第一,使用相关的函数,如Frequency函数; 第二,应用【直方图】分析工具,【直方图】分析工具还可以进行向上累计,并能直接绘出直方图。 但是,直方图分析工具与Frequency函数在编制分布数列时,并不符合统计分组的上限不在 内原则,在实际应用时必须进行调整。实例应用1.实例的数据描述例2.10根据抽样调查,某月某市50户居民购买消费品支
18、出(单位:元)资料如下:83015801050163011801170101011901080132088012101100125010301230860126010101380123014601070136087012608101350105013101100117013701270115013801130930125012701180108012001420141015101140142011601250对其按 800900、9001000、10001100、11001200、12001300、13001400、14001500、 15001600、1600以上,分为9个组来编制一个分布数
19、列,以反映该月该市居民购买消费品支出的 分布状况。2. 实例的操作步骤使用Frequency函数编制,主要步骤如下。(1 )新建Excel工作簿,命名为某月某市50户居民购买消费品支出分布情况”,并将样本数 据和相关文字输入到工作表中。如图2.14所示,A、B、C列为原始输入数据。样本数据排成一列, 本例中为A2 : A51单元格区域,图2.14中未完全显示出来。(2 )选定单元格区域,本例中选定的区域为D2 : D10 ,单击【公式】菜单,选择【插入函数】 选项,弹出【插入函数】对话框。在选择类别中选择统计在选择函数中选择FREQUENCY”, 如图2.15所示。A1 : X fx 消费品支
20、出S入顾ABCDE1消费品支出 分组上限 分组 频数清ifi入一条简短说明来戚熨想闵+么,然后单击”转到管到830899800-9001580999900-1000婢(O:统计4105010991000-11005163011991100-1200法择剧皿6118012991200-13007117013991300-14008101014991400-1500FORECAST.UNFAR9119015991500-1600 FREQUf MC*10108016991600以上GAMMA GAM MA. DIST GAMMA.INV11132012880FREQUENCY(data array
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 教案 统计数据 收集 整理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。