第18章样本含量的估计.doc
《第18章样本含量的估计.doc》由会员分享,可在线阅读,更多相关《第18章样本含量的估计.doc(18页珍藏版)》请在咨信网上搜索。
1、第十八章 样本含量估计无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。抽样研究设计时需要回答一个非常关键的问题:样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。这就是样本含量估计(estimation of sample size)。本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(power analysis)。第一节 样本含量估计的意义及
2、方法一、样本含量估计的意义由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。因此,尽量减小抽样误差是提高统计推断精度的必然要求。在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效能(power=1-b)亦会越高,从而避免出现假阴性的结论。同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。比如在改良
3、肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。由于需纳入更多病例,可能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。另外,由于所施加干预措施可能存在的不良事件反应尚属未知,让过多的临床病例面临风险,亦有悖
4、医学伦理原则。因此,恰当的样本含量应该是满足医学科研统计学要求,保证一定推断精度和检验效能的前提下的最少研究对象数。二、样本含量估计的方法样本含量的估计方法目前主要有两种:一是公式法,可根据研究目的、设计类型、已知条件等选择合适的公式进行估算,是目前使用最广泛的方法。二是查表法,统计学家利用公式法获得样本含量后编制成工具表,使用者只需根据已知条件查表即可获得相应的样本含量,省去了繁杂的计算过程,但较为局限。本章将主要介绍公式法样本含量的估计。第二节 调查设计中样本含量估计调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布,并在此基础上通过不同群体分布的比较,探索可能的关联或影
5、响因素。但其主要目的仍在于描述分布,如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男性居民血红蛋白的含量等。若研究方式为抽样研究,便需要利用已知的样本信息推断总体参数,如总体均数m、总体率p 的估计等。因此本节将根据所估计的参数不同,介绍样本含量估计的基本条件,及总体均数、总体率估计中的样本含量估计方法。一、样本含量估计的基本条件采用公式计算样本含量,必须有一些先决条件和基本信息,下面以例18.1为例简单介绍总体参数估计中样本含量估计的基本条件。例18.1 拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含量(g/L)的平均水平。根据文献,中国男性成人血红蛋白含量为(14030)g/
6、L,要求所获得允许误差不超过5g/L,取,问需要调查多少位该地区成年男性?此研究为调查研究,目的在于利用抽样获得的样本均数估计该地区成年男性血红蛋白含量(g/L)的总体均数m。假定该地区成年男性血红蛋白含量X服从正态分布,以文献中中国男性成人的血红蛋白含量信息进行替代(g/L,g/L),则该地区成年男性的血红蛋白含量XN(140, 302)。题意要求允许误差不超过5g/L,a=0.05,可解释为样本均数与总体均数m之间的差距()不超过5g/L,且落在135145g/L之间的概率为1-a=0.95。由于总体服从正态分布,样本均数的分布亦服从正态分布,当抽样方式为单纯随机抽样,且总体为无限总体时,
7、标准误,的分布记为。可用图18.1表示。图18.1 样本均数的抽样分布示意图结合图18.1,根据正态分布的原理可得: (18.1)上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式: (18.2)式中,为总体标准差;为允许误差;为标准正态分布下双尾值。如例18.1中 =30 g/L,=5 g/L,代入式(18.2)得:所以至少需要调查139人才能达到所要求的精度。由公式(18.2)可知,在总体服从正态分布且为无限总体、抽样方式为单纯随机抽样的前提下,其所需基本信息包括:1. 置信度1- 置信度越高,需要的样本含量越大,常取。2. 允许误差(allowable error) 是指研究
8、者要求的样本统计量与其对应的总体参数之间的最大差距,其既可以用绝对误差 (或),也可以用相对误差来表示,其中或,则绝对误差或。根据前面章节置信区间的估计,即区间长度的一半。允许误差越小,所需样本含量越大。3. 总体变异度 常用总体标准差刻画,总体率估计中的。总体的变异程度越高,所需样本含量越大。二、单纯随机抽样的样本含量估计(一) 估计总体均数时的样本含量估计调查研究中利用抽样获得的样本均数估计总体均数。例18.1即为估计总体均数时的样本含量估计,这里不再赘述。需指出的是,式(18.2)适用于无限总体抽样时的样本含量估计,对个体数为N的有限总体中进行单纯随机抽样时,需在式(18.2)计算出样本
9、含量n的基础上利用式(18.3)进行校正: (18.3)若抽样比很小,如小于0.05或0.1,这种校正可省略。同时,实际工作中总体标准差常常未知,可首先通过小规模预调查获得的样本标准差S估计。此时,若继续采用式(18.2)估计样本含量,往往造成样本量的低估,尤其当样本量较小时,实际上难以达到总体均数估计的精度要求。需用式(18.4)进行校正: (18.4)式(18.4)中表示自由度时分布界值,在估计出样本含量前其未知,可先用计算出初步的样本含量,并以自由度获得,代入式(18.3),求出更近似的,依次类推,直至样本例数稳定。但在实际应用中,如果样本估计量较大(如),为方便起见可无需校正。如例18
10、.1中,若根据前期预调查得该地血红蛋白含量标准差=30g/L,其余条件不变,问需要调查多少该地区居民?根据计算出的初步样本含量,带入式(18.4)得:以,代入式(18.4)得,可停止计算。故至少需要调查141位成年男性。 (二) 估计总体率时的样本含量估计调查研究中常需利用抽样获得的样本率p估计总体率,由第十章的学习可知,当较大,和均不太小,如和均大于5时,样本率p的分布亦近似服从正态分布,记为,其中,同样根据正态分布原理,由式(18.1)反推可得: (18.5)式中,为总体率,其它符号含义同前。总体率未知时,可取,以使达到最大,算得样本含量也最大,从而保证总体率推断的精确性。例18.2 研究
11、某地菜农钩虫感染率,要求允许误差不超过2%,取,需调查多少人?根据题意,=1.96,=2%=0.02。总体率未知,取代入式(18.5)得:式(18.5)同样仅适用于无限总体抽样的样本含量估计,对有限总体进行抽样时,仍需按式(18.3)进行校正。同时,当总体率接近0或1时,如70%或30%,应用式(18.5)会有偏差,此时可对作以弧度为单位的平方根反正弦变换,再利用正态分布原理获得样本含量的估计公式: (18.6)此外,亦可使用基于Poisson分布的正态近似样本含量估计等,读者可根据上述理论自行推导,或参考其它书籍,这里不再赘述。三、其它概率抽样方法的样本含量估计概率抽样方法不同,样本含量估计
12、方法各异。对系统抽样而言,抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本含量。但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系,系统抽样的抽样误差应小于单纯随机抽样,可参照单纯随机抽样所计算的样本含量。这里简单介绍分层随机抽样和整群抽样中样本含量的估计。(一) 分层随机抽样样本含量的估计抽样方式为分层抽样研究中,若总体为无限总体,可在估计各层总体参数或基础上,以各层例数在总体中所占比例为权重进行加权平均,获得总体方差()或总体率(),再按式(18.2)或式(18.5)估计调查总例数。若总体为有限总体,设总体例数为N,共有L层,每层例数为Ni,各层总体方差
13、为(总体率的估计中),则调查总例数的估计公式为: (18.7)式中为各层样本比例(sample fraction),即,余符号同前。若按比例分配,则;若进行最优分配,。得到总的样本例数n后,各层样本量为。(二) 整群随机抽样样本含量的估计整群抽样中,由于群内个体的相似性和群间个体的异质性,使得整群抽样获得的方差往往大于单纯随机抽样的方差。若定义整群抽样中计算的方差与单纯随机抽样中方差比值为设计效率DEFF(design effect),其估计公式为:式中m为各群平均个体数;为群内相关系数(intra-cluster correlation, ICC),即群间方差与总方差的比值(),反映群内个体
14、的相似程度,其未知时,可通过预调查进行估计。整群随机抽样样本含量的计算,首先按单纯随机抽样计算样本含量n,再乘以整群抽样的设计效应,则: (18.8)所需群数。第三节 实验研究中的样本含量估计实验研究的目的主要在于通过不同干预措施或实验条件效应指标(均数或率)的比较,说明处理因素的作用,如研究方式为抽样研究,比较的过程即为假设检验。需要特别指出的是不仅在实验研究中存在比较的过程,在调查设计中为了探索可能的影响因素,以及流行病学中的病例对照研究、队列研究也需要进行比较,即也存在假设检验的问题。因此本节将从假设检验中不同变量类型及设计形式出发,介绍样本含量估计条件和估计方法。一、样本含量估计的基本
15、条件假设检验中样本含量的估计公式在不同情况下虽有所不同,但其基本思想大同小异,估计的基本条件也大致相同。这里以例18.3为例介绍估计的基本条件。例18.3 欲研究海拔对血红蛋白的影响,拟在某高原地区对健康成年男性进行抽样调查,以确定高原地区成年男性的血红蛋白是否高于一般成年男性。已知一般正常成年男子血红蛋白为(14030)g/L,根据医学专业知识,当血红蛋白含量相差至少在10g/L以上时,可认为二者存在差异。取单侧,问应对多少名高原地区健康成年男性进行检查?若血红蛋白服从正态分布,此研究目的在于若高原成年男性血红蛋白总体均数与一般成年男性人群总体均数=140g/L之间的差别在10g/L及以上,
16、且总体标准差g/L,则利用抽样研究获得的高原地区成年男性血红蛋白样本信息发现这种差异,并保证发现所存在差异的能力(即检验效能)。通过前面章节学习不难发现,此时需进行单样本设计均数比较的假设检验:g/L (高原地区成年男性血红蛋白均数与一般正常成年男子相同)g/L (高原地区成年男性血红蛋白均数比一般正常成年男子高10 g/L)注意:这里的不同于前面章节建立假设时备择假设的写法,后者未给出的具体数值。所以前面有关章节介绍过的假设检验,不能估计犯第二类错误的概率和检验效能。例18.3中,由于总体服从正态分布,样本均数的分布亦服从正态分布,标准误,在规定的总体中,在规定的总体中抽样,样本均数,可用图
17、18.2表示。图18.2 假设检验中样本均数的分布示意图从图18.2可见,在成立的正态分布中,在特定的检验水准下,临界点c(图18.2中的圆点)的坐标为: 。进一步考虑控制第二类错误时,假设真正的总体分布位置为图中所对应的,那么当分布c点坐标左侧面积为时,可同时控制此假设检验的效能为,即,从而有: (18.9)推导可得: (18.10)这样得到的样本量估计就同时控制了假设检验的第一类错误和第二类错误(即检验效能为)。式18.10中,为总体标准差,为总体均数间差异,为指定检验水准下的单侧值,若为双侧检验应改为,为指II型错误下的单侧值。需要注意的是,公式18.10中的根据无效假设有单双侧之分,而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 18 样本 含量 估计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。