置信区间宽度等高线图在线性混合效应模型样本量规划中的应用.pdf
《置信区间宽度等高线图在线性混合效应模型样本量规划中的应用.pdf》由会员分享,可在线阅读,更多相关《置信区间宽度等高线图在线性混合效应模型样本量规划中的应用.pdf(57页珍藏版)》请在咨信网上搜索。
1、 心理学报 2024,Vol.56,No.1,124138 2024中国心理学会 Acta Psychologica Sinica https:/doi.org/10.3724/SP.J.1041.2024.00124 收稿日期:2023-01-04*国家自然科学基金项目(32071091,32200920),四川省自然科学基金青年项目(2022NSFSC1788,2022NSFSC1631,2022NSFSC1691)。通信作者:刘红云,E-mail: 124 置信区间宽度等高线图在线性混合效应 模型样本量规划中的应用*刘 玥1 徐 雷1 刘红云2,3 韩雨婷4 游晓锋5 万志林1(1四川师
2、范大学脑与心理科学研究院,成都 610066)(2应用实验心理北京市重点实验室;3北京师范大学心理学部,北京 100875)(4北京语言大学心理学院,北京 100083)(5南昌师范学院数学与信息科学学院,南昌 360111)摘 要 线性混合效应模型在分析具有嵌套结构的心理学实验数据时具有明显优势。本文提出了置信区间宽度等高线图用于该模型的样本量规划。通过等高线图,确定同时符合检验力、效应量准确性以及置信区间宽度要求的被试量和试次数。结合关注被试内实验效应和被试变量调节效应的两类典型模型,通过两个模拟研究,采用基于蒙特卡洛模拟方法,探索效应量、随机效应大小和被试变量类型对置信区间宽度等高线图及
3、样本量规划结果的影响。关键词 线性混合效应模型,多水平模型,检验力分析,效应量,置信区间宽度 分类号 B841 1 引言 近年来,心理学研究者对学术不端和研究可重复性问题的讨论日趋激烈。国内外越来越多的学术期刊推行预注册(pre-register)制度,能够有效避免根据结果决定是否继续收集数据的不良行为(例如p-hacking),促进科研过程和结果的公开透明,提高研究的可重复性(Nosek et al.,2022)。预注册时,对被试量、试次数等与研究设计相关的要素需有明确规划和充分理由。如何针对特定的统计模型开展样本量规划,是心理学研究者关心的问题。本研究基于线性混合效应模型,探索使用模拟方法
4、结合检验力和效应量准确性开展样本量规划的范式,并通过开发直观的置信区间宽度等高线图,方便应用研究者确定符合要求的被试量和试次数,为开展研究设计、保证研究质量提供方法支持。1.1 线性混合效应模型的样本量规划问题 随着研究问题的深入和数据收集手段的进步,含有随机效应的刺激和嵌套结构的设计越来越普遍。例如,心理语言学实验研究通常会使用词语作为刺激,但不同词语诱发的反应速度不同,会造成观察到的实验效应有一部分是由不同的词语刺激引起的(Barr et al.,2013)。此时,以传统方差分析为代表的方法由于混淆了实验效应与随机效应,会导致第I类错误和检验力的估计偏差(Barr et al.,2013;
5、Judd et al.,2017)。线 性 混 合 效 应 模 型(Linear Mixed-Effects Models,LMEMs)可以避免由于对被试接受的同一条件下所有刺激求均值等方式(如,重复测量方差分析)造成的信息损失,且同时灵活考虑不同原因(如,刺激随机取样、被试嵌套结构等)造成的随机效应。因此,LMEMs在心理学实验中的应用越来越广泛(Barr et al.,2013;Brauer&Curtin,2018;Judd et al.,2017;Lee,2018)。在web of science中检索近5年的心理学实验类论文,使用LMEMs约是使用方差分析的1.5倍。然而,目前国内LM
6、EMs的应用还很少。例如,20202022年我国心理学顶刊心理学报上发表的181篇实验类文章中,仅9篇使用了LMEMs,且第1期 刘 玥 等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 125 其中的5篇没有阐述确定样本量的理由,3篇应用G*power近似得到所需样本量,仅有1篇应用simr软件包采用模拟方法基于检验力分析确定样本量。制约该模型广泛应用的一个重要原因是,设计中随机效应的增加带来了模型复杂程度的增加,导致常用的样本量规划软件(例如G*power等)不再适用,研究者对基于LMEMs如何科学地规划实验设计,设置合理的被试量和试次数感到无所适从,急需方便易用的程序或图示,
7、指导样本量规划。1.2 基于检验力分析规划样本量 传统样本量规划主要基于虚无假设显著性检验(Null Hypothesis Significance Test,NHST)的检验力分析,要求样本量必须使检验力达到预设标准。检验力分析可分为公式推导方法和基于蒙特卡洛模拟方法(例如Arend&Schfer,2019)。公式推导方法含有关于分布的强假设,当数据不符合时可能得到有偏差的结果(Judd et al.,2017)。基于蒙特卡洛模拟的方法是在预设的参数下基于特定模型重复生成数据,再基于模拟数据估计参数,统计所有重复中得到显著性结果的比例。其优势在于不需要推导参数分布,能够处理非正态分布的数据,
8、并且可以灵活定义模型。一些学者已经开发了成熟的R软件 包(如simr)应 用 蒙 特 卡 洛 模 拟 的 方 式 计 算LMEMs的检验力(Green&MacLeod,2016)。为了方便应用研究者基于检验力分析确定适用于嵌套数据分析的合适样本量,一些研究者在模拟方法的基础上,开发了直观的图示以及配套程序,展示不同样本量情况下的检验力,为样本量规划提供参考。应用最广的是以样本量为横坐标,检验力为纵坐标的折线图(例如Kumle et al.,2021)。研究者根据预设检验力做出水平线,与折线交点所对应的横坐标就是满足要求的最小样本量。Murayama等(2022)还开发了生成检验力折线图的在线程
9、序。但是,嵌套结构的数据需要确定两个水平样本量,不同实验设计下增加不同水平样本量的成本不同。折线图仅能固定某个水平样本量,以另一个水平样本量为横坐标生成,无法同时呈现两个水平样本量与检验力的关系。Schultzberg和Muthn(2018)将水平1、2样本量分别作为横、纵坐标,用阴影区域表示符合检验力要求的两个水平样本量组合范围。Baker等(2021)提出了检验力等高线图,将相同检验力的两个水平样本量组合的点连成等高线,用多条等高线表示不同检验力水平。综上,对于嵌套数据,研究者需要在同一个图内观察到两个水平样本量在检验力上的补偿关系,并在考虑实验成本的基础上综合权衡,得到合适的各水平样本量
10、。1.3 基于效应量准确性分析规划样本量 以上总结的样本量规划图示仅考虑了检验力。但是,随着学术界对NHST的批判,美国统计协会发表了关于谨慎使用NHST的声明,强调应避免仅报告显著性,而应同时报告效应量(Wasserstein&Lazar,2016)及其区间估计的结果。因此,一些学者提出应基于效应量准确性分析开展样本量规划。效应量准确性分析的核心是控制效应量置信区间(Confidence Interval,CI)的宽度,越窄表明其估计越准确(Maxwell et al.,2008)。有研究根据期望的CI上下限,倒推可接受的最大CI宽度(Usami,2020)。例如,在效应量的点估计值为0.5
11、的情况下,计算得到其95%置信区间(以下简称“95%CI”)宽度为0.6,则95%CI约为0.2,0.8。根据Cohen(1988)的标准,该区间涵盖了效应量小、中、大的条件(0.2,0.5,0.8),估 计精 确性差(Maxwell et al.,2008;Usami,2020)。有的研究直接根据不同CI宽度计算对应的最小样本量(例如Kelley&Rausch,2006)。总之,目前关于如何确定可接受的最宽CI宽度仍未形成一致结论(例如Kelley et al.,2018)。为了方便应用研究者基于效应量准确性分析确定适用于嵌套数据分析的样本量,Hecht和Zitzmann(2021)提出了基
12、于被试数和时间点的总体表现图,分别以二者作为横、纵坐标,通过收敛比例,参数估计偏差等指标计算模型拟合的综合表现得分,并以色块区分不同得分。研究者可以根据色块,权衡得到合适的样本量组合。但该图并未考虑检验力,并且色块仅表示综合得分,具有一定的主观性,研究者无法从图中清晰了解所关心的参数估计的准确性。1.4 问题提出 综上,针对嵌套数据的样本量规划需同时保证检验力和效应量准确性达到要求。然而,已有的方法、程序或图示大多只基于其中一个目的展开(例如Arend&Schfer,2019;Kumle et al.,2021;Usami,2020),尚没有图示能够方便研究者同时考虑两方面要求规划样本量。因此
13、,本研究提出CI宽度等高线图,采用蒙特卡洛模拟方法进行检验力和效应量准确性分析,在图中同时呈现两个水平样本量不同组合下的检验力和CI宽度情况。由于CI宽度尚没有统一标准,本研究结合已有研究的两种思路,提供不同CI宽度下的样本量,建议研究者结合期望126 心 理 学 报 第56卷 的CI上下限推出可接受的最宽CI宽度,进而综合检验力分析结果确定被试量和试次数的理想结合点。此外,在以心理学实验研究为背景的样本量规划中,研究者普遍关注基于实验效应中固定效应的样本量规划(Lee,2018),未关注基于被试变量对实验效应的调节效应的样本量规划。然而,随着心理学个体差异视角研究的深入,越来越多的研究开始探
14、索不同类型个体间的实验效应是否存在差异。例如,蒋元萍等(2022)发现,积极情绪和消极情绪状态下被试(被试调节变量)的跨期决策行为(实验效应)存在显著差异。这类研究需要样本量规划满足被试变量调节效应估计准确性的要求。因此,本研究以典型的被试内重复实验设计为背景,基于LMEMs,分别探讨基于被试内变量的实验效应和被试间变量的调节效应的样本量规划问题。本文首先在多层线性模型框架下重构模型,以更好适应实验设计在不同层级加入自变量(控制变量)的需要。然后,说明生成CI宽度等高线图的流程及其函数。最后,分别基于被试内变量的实验效应和被试间变量的调节效应进行模拟研究,考察实验效应、随机斜率、被试变量类型如
15、何影响评价指标结果和CI宽度等高线图,并说明如何根据结果推荐合适的样本量。2 心理学实验研究中的线性混合效应模型 LMEMs的一般形式可见Williams等(2021)的文章。在多层线性模型的框架下,可对其重新定义。以刺激嵌套于实验条件的被试内实验设计为例,假设刺激没有重复(Barr et al.,2013;Lee,2018)。水平1表示试次(trial)水平,水平2表示被试水平,试次嵌套于被试。随机斜率模型(模型1)可表示为 水平1:010,jiiijijjiYXIr(1)水平2:0000,iiu(2)1101,iiu(3)其中,jiY表示连续的结果变量(j=1,J表示试次,i=1,I表示被
16、试),jiX表示实验效应的虚无编码,0i和1i分别表示被试的随机截距和随机斜率,即不同被试基线水平和实验效应的不同,0 jI表示刺激的随机截距(不同刺激的效应不同)。00和10分别表示被试随机截距的均值和随机斜率的均值,其中10是实验效应的固定部分,是重点考察的效应量指标。01,iijiuur分别表示水平2截距、斜率的随机部分和水平1的残差。模型假设 200000 1122100 1111(0,),(0,),iijiurNNu ,刺激的随机截距2000(0,)jIN。多层线性模型的优势在于能够方便地在不同水平加入解释变量。例如,可在水平2加入自变量iW,用于解释随机截距和随机斜率存在个体间差异
17、的原因(模型2)。水平1:010,jiiijijjiYXIr(4)水平2:000010,iiiWu(5)110111,iiiWu(6)其中,iW表示被试变量,01表示被试变量对随机截距的影响,11表示被试变量对随机斜率的影响,也可看作水平1和水平2变量的跨水平交互作用,是重点考察的效应量指标。3 置信区间宽度等高线图生成步骤 基于模拟的方法生成置信区间宽度等高线图实现样本量规划包含以下步骤。第一,设置参数。在实验研究背景下,选用特定的LMEM,设置水平1、水平2样本量1,固定效应取值,以及随机效应分布。第二,生成数据。基于步骤一中定义的模型重复生成数据N次(如,N=1000)。第三,参数估计。
18、对于每次重复,使用产生模型与数据拟合。应用R软件包lme4(Bates et al.,2023)基 于 限 制 性 极 大 似 然(restricted maximum likelihood,REML)方法估计参数。采用默认的Wald方法计算效应量参数的CI。第四,变化水平1、水平2样本量,重复步骤一到三。第五,计算评价指标。详见4.2。第六,根据标准对评价指标作出判断,画出CI宽度等高线图,推荐合适的样本量。本研究建议采用效应量标准的最高水平减去最低水平作为可接受的最大CI宽度。本研究基于R语言(R Development Core Team,2020)编写了适用于LMEMs样本量规划的函数
19、samplesize_LMEM.R(见在线补充材料2)。调用函数,并输入相应的参数运行程序,可以得到评价指标结果和CI宽度等高线图。应用流程如图1所示。调用语句及其说明请参考在线补充材料3。本函数 1 当水平1、水平2自变量为分类变量时,可设定不同类别的样本量。第1期 刘 玥 等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 127 具有一定的灵活性,例如设置2000时,数据生成模型简化为不含刺激随机效应的模型;设置2200110,0时,简化为随机截距模型;设置2200110,0,0ICC时,简化为一般线性模型。图1 CI宽度等高线图生成流程图 下面通过两个模拟研究,考察不同因素对
20、检验力和效应量估计准确性的影响,说明CI(本研究为95%CI)宽度等高线图在样本量规划中的应用。4 模拟研究1:基于被试内实验效应的样本量规划 研究1在模型1的框架下,针对实验效应10,即水平1自变量的固定效应,考察10大小对模型估计结果的影响,并通过CI宽度等高线图提供样本量建议。4.1 参数设置 4.1.1 固定参数设置 基于模型1模拟生成数据。参照Arend和Schfer(2019)的参数设置,随机截距的固定效应00固定为0,残差0,1ijrN。预研究发现,组内相关2(intraclass correlation coefficient,ICC)大小对10的检验力和参数估计准确性都没有显
21、著影响,因此固定为中等水平0.3(Arend&Schfer,2019),2 在多水平模型中,组内相关ICC用于表示零模型(不含任何预测变量的模型)中水平2变异占总变异的比例,值越大组间变异越大。一般而言,被试嵌套于组的设计所得到的ICC要小于测量嵌套于被试的ICC。已知残差方差21,根据下式,计算得到200 的值。2200/()ICCICC.(7)标准化的随机斜率方差3固定为中等水平(211.std=0.09)。为简化研究,随机截距和随机斜率的协方差固定为0(0,Arend&Schfer,2019)。刺激的随机效应4固定为较小水平2000.2(Cho et al.,2017)。最后,根据残差方
22、差,得到用于产生数据的总体模型的随机斜率方差。21111.std.(8)jiX设定为二分类变量(如,控制组和实验组)。采用偏差编码(deviation coding,Barr et al.,2013;Lee,2018)的形式,编码为0.5和0.5。每种条件下重复模拟1000次(例如Zhang,2014)。4.1.2 变化参数设置 参考Arend和Schfer(2019)的研究,实验效应的大小(10.std5)设为3个水平:0.2(小)、0.5(中)、0.8(大)。在每种条件下分别进行样本量规划。水平1样本量(J,试次数),包含10个水平:10,20,30,50,70,100,150,200,2
23、50,300。水平2样本量(I,被试量),包含9个水平:10,30,50,70,100,200,400,600,800。共形成10 990种样本量组合6。此外,有研究证明,当不同条件下试次数不等时(非平衡设计),同等样本量条件下的检验力较小(Kumle et al.,2021)。因此,为考察非平衡设计对样本量规划的影响,在效应量中等的水平下,增加自变量两个类别样本量不等的情况。参考Kumle等(2021)的研究,设两个水平的样本量比例为1:4。3 预研究发现,标准化的随机斜率方差211.std对10的检验力和参数估计偏差影响不大。4 本研究暂不考察刺激随机效应大小对样本量规划结果的影响,因此参
24、考Cho等(2017)的实证调查,将刺激的随机效应固定为较小水平0.2。5 在多水平模型中,10.10*/stdpredictoroutcomeSDSD。当自变量为分类变量时,10.std为部分标准化的回归系数,即只对因变量标准化(10.10,/outcomestdSD)。该系数代表了自变量两个类别在因变量上的标准化均值差异(Cohens d)。6 水平1样本量中,J=10的水平代表了Lee(2018)的研究中使用Laplace接近方法没有收敛问题的条件,J=300的水平代表了Schultzberg和Muthn(2018)关于动态结构方程模型样本量规划研究中测试时间点设置的最大水平。水平2样本
25、量中,I=10的水平接近Lee(2018)总结的类似实验设计所使用的被试量最小值(16),I=800的水平接近Lee(2018)模拟研究中设置的1000名被试的水平,目的是为了探索大样本条件对效应量估计准确性提高的作用。最小到最大样本量水平之间的变化参考了同类样本量规划研究(例如Schultzberg&Muthn,2018)。128 心 理 学 报 第56卷 综上,完成参数设置,调用samplesize_LMEM.R函数运行得到结果。4.2 评价指标 评价指标包括5个方面。(1)收敛率。即参数估计收敛次数占总重复次数的比例。是否收敛采用lme4默认的Hessian检验评价(Bates et a
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 置信区间 宽度 线图 线性 混合 效应 模型 样本 量规 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。