秩转换的非参数检验知识讲解.ppt
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第八章,秩转换的非参数检验,(,Nonparametric Test,),主要内容,第一节 配对样本资料的,Wilcoxon,符号秩检验,第二节 两个独立样本比较的,Wilcoxon,秩和检验,第三节 完全随机设计多个样本比较的,Kruskal-,Wallis H,检验,第四节 随机区组设计多个样本的,Friedman M,检验,参数检验,参数检验方法:,t,检验,方差分析;,总体分布假定:各组样本所来自的总体为正态分布(已知的分布形式),各组样本所来自的总体方差齐性。,非参数检验,定义:不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(,nonparametric test,)。直接对总体分布做假设检验。,又称为任意分布检验(,distribution-free test,)。,要求:,样本来自给定分布的总体,该总体分布依赖于若干参数:,统计分析:,参数估计,假设检,验:参数,参数检验,parametric test,非参数检验,Non-parametric test,要求:,对,总体的分布类型不作任何要求,统计分析:,假设检验:,总体的分布位置,注意:,如果已知其计量资料满足(或近似满足)检验或 检验条件,当然选 检验或 检验,因为这时若选秩转换的非参数检验,会降低检验效能。,非参数检验是一类统计学方法的总称,基于秩转换(,rank transformation,)的非参数检验只是其中的一种。,秩转换的非参数检验,秩次(,rank,):某种测量值按照从小到大的顺序排序后,每一测量值所对应的序号。,秩转换:将某一变量值从小到大排序后,获得每一变量值的秩次,并用此秩次代替原有变量值的过程。,秩转换的非参数检验,秩和检验的方法,-,秩转换,秩和检验的基本计算步骤:,1.,将数据(,x,)按大小转化为秩次(,i,),用秩次的大小反映变量值的大小。,2.,对各组”秩次”求和,称为秩和,(T=i),。,3.,对各组秩和,(T),做检验的方法称为秩和检验。,例,:,秩转换的基本方法,将两组比较原始数据(,X,),混合,按大小编秩,如,x,相同取平均秩,分别对各组的秩求和(,T,),.,甲组(,x,),3 5 10 20 22,秩和,秩号(,i,),1 3 5 7 8 T1=24,乙组(,x,),4 9 15 25 35,秩号(,i,),2 4 6 9 10 T2=31,总秩和,T=10(10+1)/2=55,例,:,两组比较的等级数据编秩,A,组 :、,、,+,、,+,、,+,、,+,秩,(i),:,1 2,4.5 4.5 4.5,8.5,秩和,:,T,A,25,(,组间相同,求平均秩,),B,组 :,+,、,+,、,+,、,+,、,+,、,+,秩,(i),:,4.5,8.5 8.5 8.5,11 12,秩和,:,T,B,53,(,组内相同,不影响求秩和,),总秩和,:,T,A,+,T,B,=12(12+1)/2=78,秩次:在一定程度上反映了原始数据大小,(,等级,),的信息。,秩和:反映了一组数据在分布上的范围位置。,平均秩次:反映一组数据平均水平,A,组平均秩次,=23.5/6=3.92,B,组平均秩次,=54.5/6=9.08,A,组,(x)3,5,7,9 11 14,(i)1 2 3 4 5 8.5,T=23.5,B,组,(x)12 13 14 16 20 22,(i)6 7 8.5 10 11 12,T=54.5,非参数检验的应用场合,计量资料,:,不满足参数检验的条件,且无适当的变量变换方法解决此问题时;,分布类型无法获知的小样本计量资料;,一端或两端存在不确定数值(如,1000IU,)的计量资料;,等级资料,:,比较各组间等级强度的差别。,非参数检验的优缺点:,优点:,适用范围广,对数据要求不严,方法简便、易于理解和掌握,缺点:,损失信息、检验效能低,符合条件,首选参数检验,不符合条件,非参数检验,第一节 配对样本比较的,Wilcoxon,符号秩检验,Wilcoxon,符号秩检验简介,符号秩检验由,Wilcoxon,于,1945,年提出;,应用:,配对样本差值的中位数与,0,比较;,单个样本中位数与总体中位数(给定值)的比较。,符号秩检验的基本思想,在,H,0,成立(两配对样本差值的总体中位数为,0,)的条件下,两配对样本的差值的正负及其绝对值的相对大小是随机的;,在此情况下,正秩和与负秩和之间应当相近,差别不会太大;,如果正秩和与负秩和之间相差足够大,则可认为,H,0,成立的可能性很小,从而加以拒绝。,配对样本差值的中位数与,0,比较,配对设计两组处理效应的比较一般采用配对,t,检验,如果差数严重偏离正态分布,可采用,Wilcoxon,符号秩检验。,例,8-1,:两种方法测量,12,份血清,ALT,测量结果,编号,(,1,),原法,(,2,),新法,(,3,),差值,d,(,4,),=,(,3,),-,(,2,),1,60,76,16,2,142,152,10,3,195,243,48,4,80,82,2,5,242,240,-2,6,220,220,0,7,190,205,15,8,25,38,13,9,198,243,45,10,38,44,6,11,236,190,-46,12,95,100,5,合计,例,8-1,:两种方法测量,12,份血清,ALT,测量结果,编号,(,1,),原法,(,2,),新法,(,3,),差值,d,(,4,),=,(,3,),-,(,2,),正秩,(,5,),负秩,(,6,),1,60,76,16,8,2,142,152,10,5,3,195,243,48,11,4,80,82,2,1.5,5,242,240,-2,1.5,6,220,220,0,7,190,205,15,7,8,25,38,13,6,9,198,243,45,9,10,38,44,6,4,11,236,190,-46,10,12,95,100,5,3,合计,54.5,11.5,例,8-1,分析结果,取负秩和为,T,,则,T,=11.5,;,查,T,界值表得,0.05,P,25,时,,T,分布近似正态分布可用正态近似法作,u,检验:,相同秩次较多时的校正值:,注意,:仍为非参数检验,2.,配对设计等级资料的符号秩检验,1.,把等级从弱到强转换成秩,如某指标的检测结果为,-,,,+,,,+,,,+,,可转化为相应的秩次,1,,,2,,,3,,,4,;,2.,求各对秩次的差值,省略所有差值为,0,的对子数,令余下的有效对子数为,n,;,3.,按,n,个差值编正秩与负秩,求正秩和与负秩和,注意:由于等级资料相同秩多,此时小样本的检验结果会存在偏性,最好用大样本。,3.,单个样本中位数和指定的总体中位数比较,例,8-2,:,12,名工人尿氟含量与,45.3,比较,尿氟含量,(,1,),(,1,),-45.3,(,2,),正秩,(,3,),负秩,(,4,),44.21,-1.09,1.5,45.30,0,46.39,1.09,1.5,49.47,4.17,3,51.05,5.75,4,53.16,7.86,5,53.26,7.96,6,54.37,9.07,7,57.16,11.86,8,67.37,22.07,9,71.05,25.75,10,87.37,42.07,11,合计,64.5,1.5,假设检验过程,与配对资料符号秩检验基本相同。,此处先计算每一测量值与给定的值的差数;,然后对此差数进行秩转换,进行与配对资料符号秩检验完全相同的操作过程。,此例得,T,=1.5,,查表得,P,0.005,;,拒绝,H,0,,认为该厂工人的尿氟含量高于当地正常人的水平。,第二节 两个独立样本比较的,Wilcoxon,秩和检验,Wilcoxon,秩和检验,Wilcoxon,秩和检验(,rank sum test,)用于推断计量资料或等级资料的两个独立样本所来自总体的分布位置是否有差别。,对分布的形状不加考虑,因此应注意分布位置和分布(包括位置和形状)的区别。,分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较。,1.,计量资料两样本比较,例,8-3,两类肺病患者,RD,值比较,肺癌病人,矽肺,0,期工人,RD,值,秩次,RD,值,秩次,2.78,1,3.23,2.5,3.23,2.5,3.50,4,4.20,7,4.04,5,4.87,14,4.15,6,5.12,17,4.28,8,6.21,18,4.34,9,7.18,19,4.47,10,8.05,20,4.64,11,8.56,21,4.75,12,9.60,22,4.82,13,4.95,15,5.10,16,n,1,=10,T,1,=141.5,n,2,=12,T,2,=111.5,(,1,)建立检验假设,确定检验水准,H,0,:两组患者,RD,值总体分布位置相同,H,1,:肺癌病人,RD,值高于矽肺,0,期工人,RD,值,=0.05,(,2,)混合编秩,求统计量,T,将两样本数据混合,从小到大排序;,对混合数据进行秩转换,获得每一观察值对应的秩次;,观察值相等者取平均秩次;,分别计算两样本的秩和;,取样本量较小者为,n,1,,其秩和作为统计量,T,;,两样本量相等者任取其中一个作为统计量,T,(通常取秩和较小者)。,若,H,0,成立,,T,值应接近 ,若,T,值严重偏离,,则提示,H,0,可能是不正确的。小样本时,,查,T,界值表。,较小例数组的平均秩和为:,(,3,)确定,P,值,作出结论,若,n,1,10,且,n,2,-,n,1,10,,可通过查阅,T,界值表(附表,10,)确定,P,值;,若两样本量不满足上述条件,则可采用正态近似法作,u,检验,按公式(,8-2,)计算,u,值。,正态近似法,例,8-3,分析结果,本例,n,1,=10,,,n,2,-,n,1,=2,,,T,=,T,1,=141.5,,满足查,T,界值表的条件;,查表得,单侧,0.025,P,0.05,;,拒绝,H,0,,认为肺癌病人的,RD,值高于矽肺,0,期病人的,RD,值。,2.,等级资料两样本比较,例,8-4,吸烟和不吸烟工人,HbCO,含量比较,含量,吸烟,不吸烟,合计,秩范围,平均秩,秩和,(,1,),(,2,),(,3,),(,4,),(,5,),(,6,),吸烟,(7)=(2)(6),不吸烟,(8)=(3)(6),很低,1,2,3,13,2,2,4,低,8,23,31,434,19,152,437,中,16,11,27,3561,48,768,528,偏高,10,4,14,6275,68.5,685,274,高,4,0,4,7679,77.5,310,0,合计,39,(,n,1,),40,(,n,2,),79,1917,(,T,1,),1243,(,T,2,),(,1,)建立检验假设,确定检验水准,H,0,:两组工人,HbCO,含量总体分布位置相同,H,1,:吸烟工人,HbCO,含量高于不吸烟工人,=0.05,(,2,)混合编秩,求统计量,T,确定各等级的合计人数;,根据各等级的合计人数确定其秩次范围和平均秩;,分别计算两样本的秩和;,取样本量较小者为,n,1,,其秩和(,T,1,)作为统计量,T,;,根据公式(,8-2,)计算,u,值,执行,u,检验过程。,例,8-4,分析结果,本例,n,1,=39,,,n,2,=40,,,T,=,T,1,=1917,;,计算得,u,=3.7023,,查表得单侧,P,5,或,g,3,时,,则,H,或,H,c,近似服从,=,g,-1,的,卡方分布,可通过查阅卡方界值表确定,P,值,。,例,8-5,分析结果,本例,n,1,=,n,2,=,n,3,=5,,,N,=15,,满足查,H,界值表的条件;,计算得,H,=9.74,,查表得双侧,P,3,,通过查卡方界值表(附表,8,)确定,P,值;,例,8-7,分析结果,本例计算得,H,=14.28,,,H,c,=15.52,,查卡方界值表得双侧,P,0.005,;,拒绝,H,0,,认为四种疾病患者痰液内噬酸粒细胞有差别。,秩和检验的两两比较,方法有:,1,、,Nemenyi,法检验,2,、扩展的,t,检验,3,、,q,检验,几种方法理论上仍存在争议,故,SAS,、,SPSS,等软件没有提供这方面的分析,3.,多个独立样本两两比较的,Nemenyi,检验,Nemenyi,检验方法简介,类似于多组样本比较方差分析的情形,当经过多个独立样本比较的,Kruskal-Wallis,H,检验拒绝,H,0,之后,可进一步进行组间两两比较;,Nemenyi,检验即为执行此类统计学比较的方法之一。,例,8-8,小白鼠接种三种伤寒菌的存活日数,9D,11C,DSC,1,存活日数,秩次,存活日数,秩次,存活日数,秩次,2,2,5,10.5,3,4.5,2,2,5,10.5,5,10.5,2,2,6,15.5,6,15.5,3,4.5,6,15.5,6,15.5,R,i,84,169,212,n,i,10,9,11,R,i,8.40,18.78,19.27,三组样本所来自的总体分布位置比较,三组样本所来自的总体分布位置比较的操作过程与例,8-5,完全相同;,本例得,H,c,=9.97,,,P,0.01,,拒绝,H,0,;,认为接种三种伤寒杆菌的存活日数有差别;,为进一步观察不同伤寒杆菌之间的差别,可进一步进行三组间的两两比较。,任意两组间分布位置的比较,计算各组的平均秩和,根据公式(,8-6,)计算任意两组之间比较的卡方值;,自由度取组数减一,即,=,g,-1,;,查表确定相应的,P,值,进行统计推断。,例,8-8,分析结果,,,0.025,P,0.05,,,0.01,P,0.025,,,0.99,P,15,或处理组数,g,15,时,则通过公式(,8-8,)进行近似卡方检验,确定,P,值。,实际上当,g,4,,或者,g,=4,且,n,5,,或者,g,=3,且,n,9,,即可采用近似卡方检验方法。,例,8-9,分析结果,本例计算得,M,=199.5,,查,M,界值表得双侧,P,0.05,;,拒绝,H,0,,认为四种频率声音刺激的反应率有差别。,2.,多个相关样本两两比较的,q,检验,q,检验方法简介,当经过多个相关样本比较的,Friedman,M,检验拒绝,H,0,之后,可进一步执行组间两两比较的操作;,q,检验可用以执行多个相关样本的两两比较过程。,q,检验方法操作过程,操作过程类似于方差分析组间两两比较的,SNK-,q,检验;,任意两组间比较的,q,值通过公式(,8-9,)和公式(,8-10,)计算;,自由度,=(,n,-1)(,g,-1),,样本跨度,a,是指,g,个样本秩和从小到大排序后所比较的两个秩和间所涵盖的秩和个数(包括二者本身);,根据计算结果查阅,q,界值表(附表,4,),获得,P,值,例,8-9,数据的两两比较结果,q,a,P,频率,A,与频率,D,比较,7.87,21,4,0.01,频率,A,与频率,C,比较,5.32,21,3,0.05,频率,B,与频率,D,比较,5.75,21,3,0.05,秩转换非参数检验小结,1.,参数检验与非参数检验的对比,参数检验,秩转换的非参数检验,针对原始数据进行分析,针对原始数据对应的秩次进行分析,对总体参数进行估计,不估计总体参数,对总体参数进行假设检验,对总体分布位置进行假设检验,资料满足参数检验条件时,参数检验效能较高,资料满足参数检验条件时,使用非参数检验会导致检验效能下降,2.,参数检验和非参数检验的对应关系,比较类型,参数检验,非参数检验,单组样本与给定值比较,单组样本,t,检验,Wilcoxon,符号秩检验,配对样本比较,配对,t,检验,Wilcoxon,符号秩检验,两组独立样本比较,成组,t,检验,Wilcoxon,秩和检验,多组独立样本比较,单因素方差分析,Kruskal-Wallis,秩和检验,随机区组设计多样本比较,两因素方差分析,Friedman,M,检验,多组独立样本两两比较,SNK-,q,检验等,Nemenyi,检验,谢谢大家!,