统计学-相关分析.ppt
《统计学-相关分析.ppt》由会员分享,可在线阅读,更多相关《统计学-相关分析.ppt(92页珍藏版)》请在咨信网上搜索。
第二章第二章 相关分析相关分析n n第一节第一节 相关关系及种类相关关系及种类n n第二节第二节 定类变量的相关分析定类变量的相关分析n n第三节第三节 定序变量的相关分析定序变量的相关分析n n第四节第四节 定距变量的相关分析定距变量的相关分析5/26/20241.社会上,许多现象之间也都有相互联系,例如:社会上,许多现象之间也都有相互联系,例如:社会上,许多现象之间也都有相互联系,例如:社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、身高与体重、教育程度和收入、学业成就和家庭环境、身高与体重、教育程度和收入、学业成就和家庭环境、身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之智商与父母智力等。在这些有关系的现象中,它们之智商与父母智力等。在这些有关系的现象中,它们之智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。间联系的程度和性质也各不相同。间联系的程度和性质也各不相同。间联系的程度和性质也各不相同。本书第十章提出了两总体的检验及估计的问题,这本书第十章提出了两总体的检验及估计的问题,这本书第十章提出了两总体的检验及估计的问题,这本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量意味着我们开始与双变量统计方法打交道了。双变量意味着我们开始与双变量统计方法打交道了。双变量意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的统计与单变量统计最大的不同之处是,客观事物间的统计与单变量统计最大的不同之处是,客观事物间的统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨关联性开始披露出来。这一章我们将把相关关系的讨关联性开始披露出来。这一章我们将把相关关系的讨关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更论深入下去,不仅要对相关关系的存在给出判断,更论深入下去,不仅要对相关关系的存在给出判断,更论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间要对相关关系的强度给出测量,同时要披露两变量间要对相关关系的强度给出测量,同时要披露两变量间要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个的因果联系,其内容分为相关分析和回归分析这两个的因果联系,其内容分为相关分析和回归分析这两个的因果联系,其内容分为相关分析和回归分析这两个大的方面。大的方面。大的方面。大的方面。5/26/20242.第一节第一节 变量之间的相互关系变量之间的相互关系1.1.相关程度相关程度相关程度相关程度 完全相关,指变量之间为函数关系;完全不相关指变完全相关,指变量之间为函数关系;完全不相关指变完全相关,指变量之间为函数关系;完全不相关指变完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于量之间不存在任何依存关系,彼此独立。不完全相关介于量之间不存在任何依存关系,彼此独立。不完全相关介于量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。两者之间。不完全相关是本章讨论的重点。两者之间。不完全相关是本章讨论的重点。两者之间。不完全相关是本章讨论的重点。由于数学手段上的局限性,统计学探讨的最多的是定由于数学手段上的局限性,统计学探讨的最多的是定距距定距变量间能近似地表现为一条直线的线性相关。在定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作统计中,对于线性相关,采用相关系数(记作r r)这一指标)这一指标来量度相关关系程度或强度。就线性相关来说,当来量度相关关系程度或强度。就线性相关来说,当r r l l时,表示为完全相关;当时,表示为完全相关;当r r=0=0时,表现为无相关或零相时,表现为无相关或零相关;当关;当0 0 r r 1 1时,表现为不完全相关。时,表现为不完全相关。5/26/20243.2.2.相关方向:正相关和负相关相关方向:正相关和负相关相关方向:正相关和负相关相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变所谓正相关关系是指一个变量的值增加时,另一变所谓正相关关系是指一个变量的值增加时,另一变所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的量的值也增加。例如,受教育水平越高找到高薪水工作的量的值也增加。例如,受教育水平越高找到高薪水工作的量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另机会也越大。而负相关关系是指一个变量的值增加时,另机会也越大。而负相关关系是指一个变量的值增加时,另机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数一变量的值却减少。例如,受教育水平越高,理想子女数一变量的值却减少。例如,受教育水平越高,理想子女数一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分目越少。要强调的是,只有定序以上测量层次的变量才分目越少。要强调的是,只有定序以上测量层次的变量才分目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。析相关方向,因为只有这些变量的值有高低或多少之分。析相关方向,因为只有这些变量的值有高低或多少之分。析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定至于定类变量,由于变量的值并无大小、高低之分,故定至于定类变量,由于变量的值并无大小、高低之分,故定至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。类变量与其他变量相关时就没有正负方向了。类变量与其他变量相关时就没有正负方向了。类变量与其他变量相关时就没有正负方向了。5/26/20244.3.3.因果关系与对称关系因果关系与对称关系因果关系与对称关系因果关系与对称关系 因果关系中两个变量有自变量(因果关系中两个变量有自变量(因果关系中两个变量有自变量(因果关系中两个变量有自变量(independent independent Variable)Variable)和因变量和因变量和因变量和因变量(dependent Variable)(dependent Variable)之分:之分:之分:之分:(1 1)两个变量有共变关系;)两个变量有共变关系;)两个变量有共变关系;)两个变量有共变关系;(2 2)因变量的变化是由自变量的变化引起的;)因变量的变化是由自变量的变化引起的;)因变量的变化是由自变量的变化引起的;)因变量的变化是由自变量的变化引起的;(3 3)两个变量的产生和变化有明确的时间顺序,前者)两个变量的产生和变化有明确的时间顺序,前者)两个变量的产生和变化有明确的时间顺序,前者)两个变量的产生和变化有明确的时间顺序,前者称为自变量,后者称为因变量。称为自变量,后者称为因变量。称为自变量,后者称为因变量。称为自变量,后者称为因变量。表现为对称关系的相关关系,互为根据,不能区分自表现为对称关系的相关关系,互为根据,不能区分自表现为对称关系的相关关系,互为根据,不能区分自表现为对称关系的相关关系,互为根据,不能区分自变量和因变量,或者说自变量和因变量可以根据研究目的变量和因变量,或者说自变量和因变量可以根据研究目的变量和因变量,或者说自变量和因变量可以根据研究目的变量和因变量,或者说自变量和因变量可以根据研究目的任意选定,例如身高和体重之间的关系。任意选定,例如身高和体重之间的关系。任意选定,例如身高和体重之间的关系。任意选定,例如身高和体重之间的关系。5/26/20245.4.4.单相关和复相关单相关和复相关单相关和复相关单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元从变量的多少上看,单相关只涉及两个变量,亦称二元从变量的多少上看,单相关只涉及两个变量,亦称二元从变量的多少上看,单相关只涉及两个变量,亦称二元相关;三个或三个以上变量之间的关系称为复相关,亦称多相关;三个或三个以上变量之间的关系称为复相关,亦称多相关;三个或三个以上变量之间的关系称为复相关,亦称多相关;三个或三个以上变量之间的关系称为复相关,亦称多元相关。元相关。元相关。元相关。五、直线相关和曲线相关五、直线相关和曲线相关五、直线相关和曲线相关五、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直从变量变化的形式上看,如果关系近似地表现为一条直从变量变化的形式上看,如果关系近似地表现为一条直从变量变化的形式上看,如果关系近似地表现为一条直线,称为直线相关或线性相关;如果关系近似地表现为一条线,称为直线相关或线性相关;如果关系近似地表现为一条线,称为直线相关或线性相关;如果关系近似地表现为一条线,称为直线相关或线性相关;如果关系近似地表现为一条曲线,则称为曲线相关或称为非线性相关。曲线,则称为曲线相关或称为非线性相关。曲线,则称为曲线相关或称为非线性相关。曲线,则称为曲线相关或称为非线性相关。由于数学手段的局限性,我们以学习线性相关为主。在由于数学手段的局限性,我们以学习线性相关为主。在由于数学手段的局限性,我们以学习线性相关为主。在由于数学手段的局限性,我们以学习线性相关为主。在统计学中,通过分段处理线性相关也可以用于处理曲线相统计学中,通过分段处理线性相关也可以用于处理曲线相统计学中,通过分段处理线性相关也可以用于处理曲线相统计学中,通过分段处理线性相关也可以用于处理曲线相关。关。关。关。5/26/20246.第二节第二节 定类变量的相关分析定类变量的相关分析本节内容:本节内容:1、列联表、列联表2、削减误差比例、削减误差比例3、系数系数4、系数系数5/26/20247.1.1.列联表列联表列联表列联表 列联表,是按品质标志把两个变量的频数分布进列联表,是按品质标志把两个变量的频数分布进列联表,是按品质标志把两个变量的频数分布进列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个行交互分类,由于表内的每一个频数都需同时满足两个行交互分类,由于表内的每一个频数都需同时满足两个行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。变量的要求,所以列联表又称条件频数表。变量的要求,所以列联表又称条件频数表。变量的要求,所以列联表又称条件频数表。例如,某区调查了例如,某区调查了例如,某区调查了例如,某区调查了357357名选民,考察受教育程度与投名选民,考察受教育程度与投名选民,考察受教育程度与投名选民,考察受教育程度与投票行为之间的关系,将所得资料作成下表,便是一种关票行为之间的关系,将所得资料作成下表,便是一种关票行为之间的关系,将所得资料作成下表,便是一种关票行为之间的关系,将所得资料作成下表,便是一种关于频数的列联表。于频数的列联表。于频数的列联表。于频数的列联表。5/26/20248.22频数分布列联表的一般形式频数分布列联表的一般形式n n习惯上把因变量习惯上把因变量习惯上把因变量习惯上把因变量Y Y放在表侧,把自变量放在表侧,把自变量放在表侧,把自变量放在表侧,把自变量X X放在表头。放在表头。放在表头。放在表头。n n2222列联表是最简单的交互分类表。列联表是最简单的交互分类表。列联表是最简单的交互分类表。列联表是最简单的交互分类表。n n rc rc列联表列联表列联表列联表 r(row)r(row)、c(column)c(column)5/26/20249.rc频数分布列联表的一般形式频数分布列联表的一般形式5/26/202410.自己志愿自己志愿自己志愿自己志愿知心朋友志愿知心朋友志愿知心朋友志愿知心朋友志愿总数总数总数总数快乐家快乐家快乐家快乐家庭庭庭庭理想工理想工理想工理想工作作作作增广见增广见增广见增广见闻闻闻闻快乐家庭快乐家庭快乐家庭快乐家庭28289 93 34040理想工作理想工作理想工作理想工作2 241417 75050增广见闻增广见闻增广见闻增广见闻2 24 44 41010总数总数总数总数3232545414141001005/26/202411.两个边际分布:两个边际分布:两个边际分布:两个边际分布:5/26/202412.n n 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。5/26/202413.rc相对频数分布列联表的一般形式相对频数分布列联表的一般形式5/26/202414.在相对频数分布列联表中,各数据为各分类在相对频数分布列联表中,各数据为各分类在相对频数分布列联表中,各数据为各分类在相对频数分布列联表中,各数据为各分类出现的相对频数出现的相对频数出现的相对频数出现的相对频数(或者频率或者频率或者频率或者频率)。将频数。将频数。将频数。将频数 化成相对化成相对化成相对化成相对频数频数频数频数 有两种做法:有两种做法:有两种做法:有两种做法:相对频数联合分布相对频数联合分布相对频数联合分布相对频数联合分布 两个边际分布两个边际分布两个边际分布两个边际分布 或或或或相对频数条件分布相对频数条件分布相对频数条件分布相对频数条件分布 或或或或5/26/202415.rc相对频数联合分布列联表相对频数联合分布列联表5/26/202416.控制控制X,Y相对频数条件分布列联表相对频数条件分布列联表5/26/202417.控制控制Y,X相对频数条件分布列联表相对频数条件分布列联表5/26/202418.例例例例A1A1试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条件分布列联化为自变量受到控制的相对频数条件分布列联化为自变量受到控制的相对频数条件分布列联化为自变量受到控制的相对频数条件分布列联表,并加以相关分析。表,并加以相关分析。表,并加以相关分析。表,并加以相关分析。投票行为投票行为Y Y受教育程度受教育程度X X 大学以大学以上上 大学以大学以下下投票投票弃权弃权160160 7 7129129 61 61289289 68 68合计:合计:1671671901903573575/26/202419.从上表可知,受过大学以上教育的被调查者绝大多从上表可知,受过大学以上教育的被调查者绝大多数(占数(占95.8%95.8%)是投票的,受教育程度在大学以下的被调)是投票的,受教育程度在大学以下的被调查者虽多数也参与投票(占查者虽多数也参与投票(占67.9%67.9%),但后者参与投票的百但后者参与投票的百分比远小于前者;前者只有分比远小于前者;前者只有4.2%4.2%弃权,而后者则有弃权,而后者则有32.1%32.1%弃权。两相比较可知,受教育程度不同,参与投票的行弃权。两相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。为不同,因此两个变量是相关的。投票行为投票行为Y Y受教育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权95.8%(160/167)95.8%(160/167)4.2%(7/167)4.2%(7/167)67.9%(129/190)67.9%(129/190)32.1%(61/190)32.1%(61/190)81.0%(289/357)81.0%(289/357)19.0%(68/357)19.0%(68/357)100.0%100.0%(167)(167)100.0%100.0%(190)(190)100.0%100.0%(357)(357)5/26/202420.例例例例A2A2试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自变量受到控制化为相对频数条件分布列联表和自变量受到控制化为相对频数条件分布列联表和自变量受到控制化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表,并加以相关分析。的相对频数条件分布列联表,并加以相关分析。的相对频数条件分布列联表,并加以相关分析。的相对频数条件分布列联表,并加以相关分析。投票行为投票行为Y Y受教育程度受教育程度X X 大学以大学以上上 大学以大学以下下投票投票弃权弃权100100 67 67114114 76 76214214143143合计:合计:1671671901903573575/26/202421.上表显示,大学以上文化程度和大学以下文化程度同样上表显示,大学以上文化程度和大学以下文化程度同样各有各有60%60%的人参与投票,的人参与投票,40%40%的人弃权,并没有因为受教育的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。因此,此时的两程度不同,而使参与投票的行为有所不同。因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时个变量是不相关的,或者说是独立的。我们不难发现,此时反映全体投票情况的相对频数的边际分布反映全体投票情况的相对频数的边际分布()()也各有也各有60%60%的人参与投票,的人参与投票,40%40%的人弃权。的人弃权。投票行为投票行为Y Y受教育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权60.0%(100/167)60.0%(100/167)40.0%(67/167)40.0%(67/167)60.0%(114/190)60.0%(114/190)40.0%(76/190)40.0%(76/190)60.0%(214/357)60.0%(214/357)40.0%(143/357)40.0%(143/357)100.0%100.0%(167)(167)100.0%100.0%(190)(190)100.0%100.0%(357)(357)5/26/202422.上表显示,当两个变量不相关时有上表显示,当两个变量不相关时有 。如如0.532 0.40=0.2130.532 0.40=0.213。投票行为投票行为Y Y受教育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权28.0%(100/357)28.0%(100/357)18.8%(67/357)18.8%(67/357)31.9%(114/357)31.9%(114/357)21.3%(76/357)21.3%(76/357)60.0%(214/357)60.0%(214/357)40.0%(143/357)40.0%(143/357)46.8%46.8%(167/357)(167/357)53.2%53.2%(190/357)(190/357)100.0%100.0%(357)(357)5/26/202423.例例例例BB某社区调查了某社区调查了某社区调查了某社区调查了120120名市民,考察性别与名市民,考察性别与名市民,考察性别与名市民,考察性别与对吸烟态度之间的关系,试将所得资料作成相对对吸烟态度之间的关系,试将所得资料作成相对对吸烟态度之间的关系,试将所得资料作成相对对吸烟态度之间的关系,试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表,频数的联合分布、边际分布和条件分布列联表,频数的联合分布、边际分布和条件分布列联表,频数的联合分布、边际分布和条件分布列联表,并进行相关分析。并进行相关分析。并进行相关分析。并进行相关分析。性别与对吸烟的态度性别与对吸烟的态度性别与对吸烟的态度性别与对吸烟的态度态度态度态度态度Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女容忍容忍容忍容忍48488 85656反对反对反对反对202044446464合计合计合计合计686852521201205/26/202424.相对频数联合分布列联表相对频数联合分布列联表相对频数联合分布列联表相对频数联合分布列联表态度态度态度态度Y Y性别性别性别性别X X男男男男(X(X1 1 )女女女女(X(X2 2 )容忍容忍容忍容忍Y Y1 140.0%40.0%6.7%6.7%46.7%46.7%反对反对反对反对Y Y2 216.7%16.7%36.6%36.6%53.3%53.3%56.7%56.7%43.3%43.3%100%(120)100%(120)5/26/202425.相对频数条件分布列联表相对频数条件分布列联表相对频数条件分布列联表相对频数条件分布列联表态度态度态度态度Y Y性别性别性别性别X X男男男男()()女女女女()()容忍容忍容忍容忍70.6%70.6%15.4%15.4%46.7%(56)46.7%(56)反对反对反对反对29.4%29.4%84.6%84.6%53.3%(64)53.3%(64)100%100%(68)(68)100%100%(52)(52)100%100%(120)(120)5/26/202426.26752675名双亲和他们名双亲和他们名双亲和他们名双亲和他们1007110071个子女个子女个子女个子女的智力的关系的智力的关系的智力的关系的智力的关系(%)(%)(相对频数条件分布列联表相对频数条件分布列联表)父母智力父母智力 组合组合 子女智力子女智力 优秀优秀 子女智力子女智力 一般一般 子女智力子女智力 低下低下 优优优优 71.6 25.4 3.0 优劣优劣 33.6 42.7 23.7 一般一般一般一般 18.6 66.9 14.5 劣劣劣劣 5.4 34.4 60.25/26/202427.通过列联表研究定类变量之间的关联性,这通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。实际上是通过相对频数条件分布的比较进行的。如果对不同的如果对不同的X X,Y Y的相对频数条件分布不同,且的相对频数条件分布不同,且和和Y Y的相对频数边际分布不同,则两变量之间是的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存相关的。而如果变量间是相互独立的话,必然存在着在着Y Y的相对频数条件分布相同,且和它的相对的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用数学式表示就是频数边际分布相同。后者用数学式表示就是 或者或者 5/26/202428.2.2.2.2.削减误差比例削减误差比例削减误差比例削减误差比例 PRE PRE PRE PRE(Proportionate Reduction in Error)Proportionate Reduction in Error)n n 通过相对频数条件分布列联表的讨论,可以就自变量通过相对频数条件分布列联表的讨论,可以就自变量通过相对频数条件分布列联表的讨论,可以就自变量通过相对频数条件分布列联表的讨论,可以就自变量X X和因变量和因变量和因变量和因变量Y Y的关联性给出一个初步的判断。但是对关联的关联性给出一个初步的判断。但是对关联的关联性给出一个初步的判断。但是对关联的关联性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得好。所以,下性给出判断,肯定没有用量化指标表达来得好。所以,下性给出判断,肯定没有用量化指标表达来得好。所以,下性给出判断,肯定没有用量化指标表达来得好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以面我们将关注于如何用统计方法,使相关关系的强弱可以面我们将关注于如何用统计方法,使相关关系的强弱可以面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些简单的系数明确地表达出来。通过某些简单的系数明确地表达出来。通过某些简单的系数明确地表达出来。通过某些简单的系数明确地表达出来。n n 在社会统计中,表达相关关系的强弱,削减误差比在社会统计中,表达相关关系的强弱,削减误差比在社会统计中,表达相关关系的强弱,削减误差比在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果例的概念是非常有价值的。削减误差比例的原理是,如果例的概念是非常有价值的。削减误差比例的原理是,如果例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必两变量间存在着一定的关联性,那么知道这种关联性,必两变量间存在着一定的关联性,那么知道这种关联性,必两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密然有助于我们通过一个变量去预测另一变量。其中关系密然有助于我们通过一个变量去预测另一变量。其中关系密然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不切者,在由一变量预测另一变量时,盲目性必然较关系不切者,在由一变量预测另一变量时,盲目性必然较关系不切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。密切者为小。密切者为小。密切者为小。5/26/202429.PRE:用不知道用不知道Y与与X有关系时预测有关系时预测Y的全部误差的全部误差E1,减去知道,减去知道Y与与X有关系时预测有关系时预测Y的联系误差的联系误差E2,再将其化,再将其化为比例来度量为比例来度量 PRE的取值范围是的取值范围是 0PREl 削减误差比例削减误差比例PRE适用于各测量层次的变量,适用于各测量层次的变量,系数系数和和系数便是在定类测量的层次上以削减误差比例系数便是在定类测量的层次上以削减误差比例PRE为为基础所设计的两种相关系数。基础所设计的两种相关系数。5/26/202430.PRE=(56-28)/56=0.5态度态度态度态度Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女容忍容忍容忍容忍48488 85656反对反对反对反对202044446464合计合计合计合计686852521201205/26/202431.3.3.3.3.系数系数系数系数 在定类尺度上测量集中趋势只能用众数。在定类尺度上测量集中趋势只能用众数。在定类尺度上测量集中趋势只能用众数。在定类尺度上测量集中趋势只能用众数。系数就是利用此性质来构造相关系数的。系数就是利用此性质来构造相关系数的。系数就是利用此性质来构造相关系数的。系数就是利用此性质来构造相关系数的。(1 1 1 1)不对称的)不对称的)不对称的)不对称的系数系数系数系数5/26/202432.例例例例 对下表所示资料,用对下表所示资料,用对下表所示资料,用对下表所示资料,用 系数反映性别与收系数反映性别与收系数反映性别与收系数反映性别与收入高低的相关关系。入高低的相关关系。入高低的相关关系。入高低的相关关系。收入收入收入收入Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女低低低低6060150150210210高高高高1201207070190190合计合计合计合计1801802202204004005/26/202433.5/26/202434.(2 2)对称的)对称的)对称的)对称的 系数系数系数系数5/26/202435.例例例例 研究工作类别与工作价值的关系,工研究工作类别与工作价值的关系,工研究工作类别与工作价值的关系,工研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术人员、管理作类别可分为三类:工人、技术人员、管理作类别可分为三类:工人、技术人员、管理作类别可分为三类:工人、技术人员、管理/行行行行政人员;工作价值也可分为三类:以收入政人员;工作价值也可分为三类:以收入政人员;工作价值也可分为三类:以收入政人员;工作价值也可分为三类:以收入/福利福利福利福利为最重要的职业选择标准的称为经济取向型,以为最重要的职业选择标准的称为经济取向型,以为最重要的职业选择标准的称为经济取向型,以为最重要的职业选择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准工作的创造性、挑战性为最重要的职业选择标准工作的创造性、挑战性为最重要的职业选择标准工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型,以工作中的人际关系为最重的称为成就取向型,以工作中的人际关系为最重的称为成就取向型,以工作中的人际关系为最重的称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下要的职业选择标准的称为人际关系取向型。对下要的职业选择标准的称为人际关系取向型。对下要的职业选择标准的称为人际关系取向型。对下表所示资料,用表所示资料,用表所示资料,用表所示资料,用 系数反映工作类别与工作价值系数反映工作类别与工作价值系数反映工作类别与工作价值系数反映工作类别与工作价值的相关关系的相关关系的相关关系的相关关系 。5/26/202436.职工的工作种类与工作价值职工的工作种类与工作价值职工的工作种类与工作价值职工的工作种类与工作价值 工作价值工作价值工作价值工作价值 Y Y工作种类工作种类工作种类工作种类 X X合计合计合计合计 工人工人工人工人 技术人员技术人员技术人员技术人员 管理管理管理管理/行行行行政人员政人员政人员政人员经济取向型经济取向型经济取向型经济取向型成就取向型成就取向型成就取向型成就取向型人际关系取向人际关系取向人际关系取向人际关系取向型型型型100100 30 30 20 207070606010105050202040402202201101107070合计:合计:合计:合计:F FX X1501501401401101104004005/26/202437.5/26/202438.性质:性质:性质:性质:(1 1)0101 (2 2)具有)具有)具有)具有PREPRE意义。意义。意义。意义。(3 3)对称与不对称情况下,有不同的公式。)对称与不对称情况下,有不同的公式。)对称与不对称情况下,有不同的公式。)对称与不对称情况下,有不同的公式。(4 4)以众数作为预测的准则,对条件频数分)以众数作为预测的准则,对条件频数分)以众数作为预测的准则,对条件频数分)以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。布列联表中众数频数以外的条件频数不予理会。布列联表中众数频数以外的条件频数不予理会。布列联表中众数频数以外的条件频数不予理会。(5 5)如果众数频数集中在条件频数分布列联)如果众数频数集中在条件频数分布列联)如果众数频数集中在条件频数分布列联)如果众数频数集中在条件频数分布列联表的同一行时,表的同一行时,表的同一行时,表的同一行时,=0=0,从而无法显示两变量之间,从而无法显示两变量之间,从而无法显示两变量之间,从而无法显示两变量之间的相关性。的相关性。的相关性。的相关性。5/26/202439.4.4.4.4.系数系数系数系数n n 系数的统计值域是系数的统计值域是系数的统计值域是系数的统计值域是0000,1111,其特点是在计,其特点是在计,其特点是在计,其特点是在计算时考虑所有的边际频数和条件频数算时考虑所有的边际频数和条件频数算时考虑所有的边际频数和条件频数算时考虑所有的边际频数和条件频数 。n n 注意:当众数很突出且众数分布不在同一行,同一注意:当众数很突出且众数分布不在同一行,同一注意:当众数很突出且众数分布不在同一行,同一注意:当众数很突出且众数分布不在同一行,同一列时,用列时,用列时,用列时,用系数较好;但当众数不突出时,用系数较好;但当众数不突出时,用系数较好;但当众数不突出时,用系数较好;但当众数不突出时,用系数更系数更系数更系数更好;若众数集中在某一行或某一列,一定用好;若众数集中在某一行或某一列,一定用好;若众数集中在某一行或某一列,一定用好;若众数集中在某一行或某一列,一定用系数。系数。系数。系数。5/26/202440.例例例例 对下表所示资料,用对下表所示资料,用对下表所示资料,用对下表所示资料,用 系数反映性别与系数反映性别与系数反映性别与系数反映性别与收入高低的相关关系,并对系数的收入高低的相关关系,并对系数的收入高低的相关关系,并对系数的收入高低的相关关系,并对系数的PREPRE意义加以意义加以意义加以意义加以解释。解释。解释。解释。收入收入收入收入Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女低低低低6060150150210210高高高高1201207070190190合计合计合计合计1801802202204004005/26/202441.n n 5/26/202442.练习练习:调查调查调查调查100100名青年人与其知心朋友的志愿,条名青年人与其知心朋友的志愿,条名青年人与其知心朋友的志愿,条名青年人与其知心朋友的志愿,条件次数分布如下:计算知心朋友的志愿与自己志件次数分布如下:计算知心朋友的志愿与自己志件次数分布如下:计算知心朋友的志愿与自己志件次数分布如下:计算知心朋友的志愿与自己志愿之间的相关关系,并提出研究结论。愿之间的相关关系,并提出研究结论。愿之间的相关关系,并提出研究结论。愿之间的相关关系,并提出研究结论。自己志愿自己志愿自己志愿自己志愿知心朋友志愿知心朋友志愿知心朋友志愿知心朋友志愿总数总数总数总数快乐快乐快乐快乐家庭家庭家庭家庭理想工理想工理想工理想工作作作作增广增广增广增广见闻见闻见闻见闻快乐家庭快乐家庭快乐家庭快乐家庭28289 93 34040理想工作理想工作理想工作理想工作2 241417 75050增广见闻增广见闻增广见闻增广见闻2 24 44 41010总数总数总数总数3232545414141001005/26/202443.第三节第三节 定序变量的相关分析定序变量的相关分析 定序变量只能排列高低次序,因而在分析时只能考虑定序变量只能排列高低次序,因而在分析时只能考虑定序变量只能排列高低次序,因而在分析时只能考虑定序变量只能排列高低次序,因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以此来两变量变化的顺序是否一致及其等级之间的差距。以此来两变量变化的顺序是否一致及其等级之间的差距。以此来两变量变化的顺序是否一致及其等级之间的差距。以此来计算两变量的相关系数。计算两变量的相关系数。计算两变量的相关系数。计算两变量的相关系数。1 1、同序对、异序对和同分对、同序对、异序对和同分对、同序对、异序对和同分对、同序对、异序对和同分对 2 2、GammaGamma等级相关系数等级相关系数等级相关系数等级相关系数 3 3、肯德尔等级相关系数、肯德尔等级相关系数、肯德尔等级相关系数、肯德尔等级相关系数 4 4、萨默斯系数(、萨默斯系数(、萨默斯系数(、萨默斯系数(d d系数)系数)系数)系数)5 5、Spearman Spearman等级相关系数等级相关系数等级相关系数等级相关系数 6 6、肯德尔和谐系数、肯德尔和谐系数、肯德尔和谐系数、肯德尔和谐系数5/26/202444.1.1.同序对、异序对、同分对同序对、异序对、同分对同序对、异序对、同分对同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念法,有一类是以同序对、异序对、同分对的概念为基础的,如为基础的,如GammaGamma系数、肯德尔系数、系数、肯德尔系数、d d系数系数等。所以我们在讨论这几种相关系数之前,先来等。所以我们在讨论这几种相关系数之前,先来了解这三个概念。了解这三个概念。5/26/202445.在定序相关测量中,首先要搞清楚在定序相关测量中,首先要搞清楚“次序对(次序对(pairpair)”的概念。例如,的概念。例如,假设假设研究员工- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 相关 分析
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文