第九章资料的统计分析.doc
《第九章资料的统计分析.doc》由会员分享,可在线阅读,更多相关《第九章资料的统计分析.doc(13页珍藏版)》请在咨信网上搜索。
个人收集整理 勿做商业用途 第九章 资料的统计分析(1)——单变量分析 第一节 单变量描述统计 一、频数分布与频率分布 1、所谓频数分布(frequency distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。 频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来.二是从频数分布表中,可以更清楚的了解调查数据的众多信息. 2、所谓频率分布(percentages distribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。 频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。 3、注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。 二、集中趋势分析 集中趋势分析(centeral tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势分析包括平均数(均值)、众数和中位数。 1、平均数(mean):总体各单位数值之和除以总体单位数目所得之商. 2、众数(mode):是指一组数据中出现次数最多的那个数值。 3、中位数(median),把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它所描述的是定序变量以上层次的变量。 4、中位数和平均数的比较 平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确. 平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。 对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。 三、离散趋势分析 离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。 1、全距(range) 又叫极差,它是一组数据中最大值与最小值之差。 其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。 2、标准差(standard deviation) 一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。 对于单值分组数据资料,计算标准差的公式为 3、异众比率(variation ratio) 指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示. 其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。 4、四分位差(interquartile range) 指的是将一组数据按大小排序,然后将其4等分,去掉序列中最高的四分之一和最低的四分之一后,中间的一半数值之间的全距.用Q表示。 5、离散系数(coefficient of variation) 变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV. 第二节 单变量推论统计 一、区间估计(interval estimation) 其实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。 区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。反过来说,区间的大小所体现的是估计的精确性问题,二者成反比。 在精确度与把握性之间寻找平衡,在社会统计中,一般常用的置信度分别为90%、95%和99%。计算中,置信度常用1-α来表示。 1、总体均值的区间估计 2、总体百分数的区间估计 二、假设检验 假设检验实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受.其所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现"的原理。 假设检验的基本步骤是: 1、建立虚无假设和研究假设,通常是将原假设作为虚无假设; 2、根据需要选择适当的显著性水平α(即小概率的大小),通常有α=0.05, α=0.01等; 3、根据样本数据计算出统计值,并根据显著性水平查出对应的临界值; 将临界值和统计值进行比较,以判定是接受虚无假设,还是接受研究假设。 (1)总体均值的假设检验 例:某单位职工上月平均收入为210元,本月调查了100名职工,平均月收入为220元,标准差为15元,问该单位职工本月平均收入与上月相比是否有变化? (2)总体百分比的假设检验 例:一所大学全体学生中抽烟的比例为35%,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名,问戒烟宣传是否收到了成效? 本章思考题 1、名词解释:频数分布、频率分布、众数、中位数、全距、标准差、异众比率、离散系数、区间估计 2、课后练习题。 第十章 资料的统计分析(2)——双变量分析 第一节 变量间的关系 一、相关关系 1、概念:两个变量之间的相关(correlation)关系指的是当其中一个变量发生变化时(或取值不同时),另一个变量也随之发生变化(取值也不同)。反过来也一样。 2、相关关系的方向。对于定序以上层次的变量来说,变量与变量之间的关系可以分为正关系与负关系两个方向。 3、所谓两个变量具有正相关关系,指的是一个变量的取值增加时,另一个变量的取值也随之增加,反之亦然。或者说,两个变量的取值变化具有同方向性。 4、所谓两个变量具有负相关关系,指的是一个变量的取值增加时,另一个变量的取值随之减少,反之亦然。或者说,两个变量的取值变化具有反方向性。 5、相关关系的强度 指的是他们之间相关关系程度的强弱和大小. 变量间相关程度的统计表示是相关系数。一般相关系数的取值都在—1到+1之间,这里的正负号表示的是相关关系的方向,实际的数值的绝对值表示的是相关关系的强弱。 6、相关关系的类型 可分为直线相关和曲线相关。 所谓直线相关,指的是当变量X值发生变动时,变量Y的值也随之发生大致均等的变动。 7、相关关系与散点图:散点图用于定距以上层次的变量. 二、因果关系 1、概念:指的是当其中一个变量变化时会引起或导致另一个变量也随之发生变化,但反过来,当后一变量变化时,却不会引起前一变量的变化。 2、因果关系的三个条件: A、首先,变量X与变量Y之间存在不对称的相关关系. B、变量X与变量Y在发生的顺序上有先后之别。 C、变量X与变量Y的关系不是同源于第三个变量的影响. 第二节 交互分类 探讨两个定类变量(或一个定类,一个定序变量)之间关系的方法. 一、交互分类的意义与作用 所谓交互分类(cross classification),就是将调查所得的一组数据按照两个不同的变量进行综合的分类. 交互分类可以较为深入的描述样本资料的分布状况和内在结构.更重要的是,交互分类可以对变量之间的关系进行分析和解释。 交互分类所适用的变量层次是定类变量和定序变量。 二、交互分类表的形式和要求 1、每个表的顶端要有表号和标题.表号的作用是明确指示,方便阅读或讨论;而表的标题则概括表中数据的内容和意义。 2、表格中的线条一定要规范、简洁,最好不用竖线. 3、表中百分比符号的简便处理方式. 4、在表的下端用括号标出每一纵栏所对应的频数,以指示每一栏百分比所具有的基础(即个案的多少)。 5、表内的百分比通常保留一位小数. 6、对于交互分类的两个变量的安排,通常是将自变量、或被看作是自变量的或用来作解释的那个变量放在上层;而将因变量或被看作因变量放在表的左侧. 7、交互分类的两个变量的变量值应有所限制,特别是不能同时具有多个变量值。 三、x2检验 公式为: fo为交互分类表中每一格的观察频数,fe为交互分类表中fo所对应的期望频数。 年龄与态度的交互分类表(人) 年 龄 态度 青年 中年 老年 合计 赞成 144 154 30 328 反对 56 126 90 272 合计 200 280 120 600 四、关系强度的测量 显著性水平的高低不能判断或估计变量间关系的强弱,而只是代表确定变量间存在关系的可信程度。 1、Φ系数。当交互分类表为2×2表时候,可用它测量变量关系的强度。 显著性水平的高低不能判断或估计变量间关系的强弱,而只是代表确定变量间存在关系的可信程度。 1、Φ系数。 2、v系数。 3、c系数。(不受样本规模大小的影响)。 4、λ系数 优点是具有消减误差比例(proportionate reduction in error,PRE)的意义。PRE指的是知道X的值去预测与它相关的变量Y值时所减少的误差(E1-E2)与总误差的比。即PRE= (E1-E2)/E1 PRE越大,表示以X值去预测Y值时能够减少的误差所占的比例越大,换句话说,X与Y之间就越是相关,或者说,X与Y关系越强。 λ系数的基本特点就是以众值作为预测的准则.公式为 λ=(∑fy-Fy)÷(n-Fy) fy表示变量X的每一个值之下的变量Y的众值;Fy表示变量Y的边际分布中的众值。 Tau—y(简记为τy) 第三节 其他层次变量的相关测量与检验 1、定序变量与定序变量 如果两个变量都是定序变量,可以用古德曼和古鲁斯卡的Gamma系数来测量它们之间的相关关系。常用G(或Υ)表示,其取值范围是[-1,+1],适用于分析对称关系,且既表示相关的方向性,也表示相关的程度。它也具有消减误差比例的意义。 公式为: 其中,Ns表示同序对数目,Nd表示异序对数目。所谓同序对就是指变量大小顺序相同的两个样本点,即其在变量X上的等级高低顺序与在变量Y上的等级高低顺序相同;否则就是异序对. 要将随机样本中有关两个定序变量间关系的结果推论到总体,同样必须对其进行统计检验,Gamma系数的抽样分布在随机抽样和样本规模比较大的情况下,近似于正态分布,因此可以用Z检验的方法进行。将G值转换为Z值的公式为: 2、定类变量(定序变量)与定距变量 这种情况下用相关比率(correlation ratio)或eta系数来测量两者间的相关程度.相关比率又称为eta平方系数,记为E2,其数值范围由0到1,具有消减误差比例的意义。 公式为: Y为依因变量的数值 为在自变量X的每个取值Xi上的因变量的均值。 公式可转换为: 相关比率E2检验采用的是F检验法,公式为: K为分组数目,n为样本规模,F的抽样分布取决于两个自由度,即df1=k—1;df2=n—k 3、定距变量与定距变量 用皮尔逊相关系数(或称皮尔逊积差相关系数)r 公式为: 特点:首先,公式中X与Y是对等的,即将两者位置互换,r值不变,说明r是一种对称关系的测量;其次,可以证明r的取值范围在-1到1之间;第三,r的取值具有方向性;第四,r本身不具有消减误差比例的意义,而其平方r2(又称决定系数)具有消减误差比例的意义。 当资料是分组资料时候 公式为: f 为各组所对应的频数 皮尔逊相关系数可以采用F检验的方法,也可采用t检验的方法,因为F=t2 注意: 1、各种相关测量的方法,目的是理解两个变量中“样本”中相关程度的强弱或大小。 2、对各种相关系数所进行的相应的检验,目的是根据随机样本的资料推论两个变量中“总体”中是否相关。 3、选择何种相关测量方法和何种检验方法,主要看两变量的测量层次,要依据变量的测量层次来确定合适的相关测量和检验工具。 第四节 回归分析 回归分析(regression analysis)是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。 回归分析的对象是定距层次的变量. 一元线性回归方程的建立 1、依据理论分析或根据研究的需要确定两变量中哪一个为自变量,哪一个为因变量。 2、以自变量为x轴,因变量为y轴作出表中资料的散点图,以判明两变量之间是否为线性相关. 本章思考题 1、名词解释:相关关系、因果关系、交互分类、消减误差比例、回归分析 2、课后练习题.- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 资料 统计分析
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文