第九章资料的统计分析.doc
《第九章资料的统计分析.doc》由会员分享,可在线阅读,更多相关《第九章资料的统计分析.doc(13页珍藏版)》请在咨信网上搜索。
1、个人收集整理 勿做商业用途第九章 资料的统计分析(1)单变量分析第一节 单变量描述统计一、频数分布与频率分布1、所谓频数分布(frequency distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来.二是从频数分布表中,可以更清楚的了解调查数据的众多信息.2、所谓频率分布(percentages distribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。频率分布表除了频
2、数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。3、注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。二、集中趋势分析集中趋势分析(centeral tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势分析包括平均数(均值)、众数和中位数。1、平均数(mean):总体各单位数值之和除以总体单位数目所得之商.2、众数(mode):是指一组数据中出
3、现次数最多的那个数值。3、中位数(median),把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它所描述的是定序变量以上层次的变量。4、中位数和平均数的比较平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确.平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。三、离散趋势分析离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四
4、分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。1、全距(range)又叫极差,它是一组数据中最大值与最小值之差。其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。2、标准差(standard deviation)一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。对于单值分组数据资料,计算标准差的公式为3、异众比率(variation ratio)指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示.其
5、意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。4、四分位差(interquartile range)指的是将一组数据按大小排序,然后将其4等分,去掉序列中最高的四分之一和最低的四分之一后,中间的一半数值之间的全距.用Q表示。5、离散系数(coefficient of variation)变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV. 第二节 单变量推论统计一、区间估计(interval e
6、stimation)其实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。反过来说,区间的大小所体现的是估计的精确性问题,二者成反比。在精确度与把握性之间寻找平衡,在社会统计中,一般常用的置信度分别为90%、95%和99%。计算中,置信度常用1-来表示。1、总体均值的区间估计2、总体百分数的区间估计二、假
7、设检验假设检验实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受.其所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现的原理。假设检验的基本步骤是:1、建立虚无假设和研究假设,通常是将原假设作为虚无假设;2、根据需要选择适当的显著性水平(即小概率的大小),通常有=0.05, =0.01等;3、根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;将临界值和统计值进行比较,以判定是接受虚无假设,还是接受研究假设。(1)总体均值的假设检验例:某单位职工上月平均收入为210元,本月调查了100名职工,平均月收入为220元,标准差为1
8、5元,问该单位职工本月平均收入与上月相比是否有变化?(2)总体百分比的假设检验例:一所大学全体学生中抽烟的比例为35%,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名,问戒烟宣传是否收到了成效?本章思考题1、名词解释:频数分布、频率分布、众数、中位数、全距、标准差、异众比率、离散系数、区间估计2、课后练习题。第十章 资料的统计分析(2)双变量分析第一节 变量间的关系一、相关关系1、概念:两个变量之间的相关(correlation)关系指的是当其中一个变量发生变化时(或取值不同时),另一个变量也随之发生变化(取值也不同)。反过来也一样。2、相关关系的方向。对于定序以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 资料 统计分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。