一种改进的4参数等级反应模型和应用_曾光.pdf

上传人：自信****多点

文档编号：600380

上传时间：2024-01-11

格式：PDF

页数：9

大小：1.13MB

《一种改进的4参数等级反应模型和应用_曾光.pdf》由会员分享，可在线阅读，更多相关《一种改进的4参数等级反应模型和应用_曾光.pdf（9页珍藏版）》请在咨信网上搜索。

1、第卷第期年月江西师范大学学报（自然科学版）（）收稿日期：基金项目：贵州省教育厅自然科学基金（黔科教（）号）资助项目通信作者：黎瑞源（），男，广西桂林人，副教授，博士，主要从事教育测评技术及应用研究：曾光，张玉玲，谢晓尧，等一种改进的参数等级反应模型和应用江西师范大学学报（自然科学版），（）：，（），（）：文章编号：（）一种改进的参数等级反应模型和应用曾光，张玉玲，谢晓尧，黎瑞源（贵州师范大学贵州省信息与计算科学重点实验室，贵州贵阳；贵阳市教育科学研究所，贵州贵阳）摘要：针对在实际测验中各等级的猜测参数、失误参数可能存在不一致性问题，该文提出等级反应模型的改进模型以等

2、级项目为例，通过模拟数据检验模型发现：使用参数模型估计参数的误差随着猜测参数和失误参数的各个不一致性而增大，而改进后的模型具备更好的稳定性在实际的地理测验中，发现等级反应项目中的猜测度较低，但失误现象明显，并且参数之间的差异性较大，不可以忽略关键词：项目反应理论；等级反应模型；参数模型中图分类号：文献标志码：引言随着学科融合发展，开始被应用在临床医学、经济管理、体育等，不再局限于教育与心理测量中并且现代蓬勃发展的统计学、计算机科学和数据科学进一步为的发展注入活力，庞大的数据量与计算量不再是阻碍，估计精度有了明显提高这些需求与条件促使研究者要根据实际情况选择适当的模型，或发展新的模

3、型目前的项目反应理论模型已有多种，需考虑什么样的模型更能拟合好实测数据近些年，国内研究者越来越关注心理测验中的，关于的理论与应用研究相继取得一些研究成果如刘玥等选取了来自心理测验和成就测验的实际数据，分别采用传统模型和进行拟合，这说明能够显著提高模型对心理测验和成就测验数据的拟合性金英姿等同样在语言测验中发现一些项目确实存在睡眠现象，加入失误参数进行数据拟合非常必要主要应用在评分分项目中，然而在许多测评被试潜在特质的案例中，情况不仅限于被试样本回答了一组由一定数量的评分项目组成的问卷，得到的结果也不只是一系列代表“正确”或“错误”的反应如果需衡量某种仅出现在深度的思考过程

4、中的潜在特质，则需提前准备具有复杂推理过程的项目，根据被试在评分标准中所体现的目标的达成程度对项目进行评分，这类题目被称作多级评分题提出的等级反应模型（，）在多级评分形式的测验中已被广泛使用传统实质是在单、双参数模型框架下建立的，但的优势促使某些研究者对等级反应项目的猜测现象和失误现象进行研究陈青等基于，在保持的特性（项目等级难度递增）的条件下，将猜测参数融合到项目的整体参数中，即认为被试在完成多级评分试题的整个过程中，各个等级的猜测程度应该是不变的之后，简小珠等同样将失误参数作为项目参数融合到中，而猜测参数的概率均匀分配到各个项目特征函数中，用它们反映多级记分试题上的猜测现象

5、和失误现象，从而使得被试能力高估现象和低估现象得到了有效的纠正作为一个减法模型，在参数估计时难以保证相减所导出的差为非负值上述模型的每个项目只包含一个猜测参数或失误参数的约束，虽然保证了概率必须非负的要求，也造成了当多级计分项目的等级参数不一致时难以拟合的困境为了反映多级计分项目各等级的相对独立性和差异性，区别于各等级猜测参数、失误参数一致的模型（本文记为），探究等级参数的差异性，本文提出一种改进的参数等级反应模型（本文记为）在坚持假设合理与继承等级模型的特性的原则下，保证概率必须非负的规定，为各等级赋予合理的等级参数，提高了模型的普适性和估计结果的准确性模型介绍本文在的基础上加

6、入不一致的猜测参数和失误参数，提出了等级反应模型的改进模型原理如下：设存在一个有个等级的项目，被试的能力为，各个得分等级中的项目特征函数为参数函数，则被试在项目上得分不低于分的概率（）（），其中为项目的区分度，是项目第个等级的难度值，且，是项目第个等级的猜测参数，且，是项目第个等级的失误参数，且令，（），可推出被试恰好得某分的概率（），模型的非负性证明虽然给各等级赋予不同的猜测参数和失误参数，但在上述参数的约束下，依然可以证明相减所导出的差为非负值，没有违背概率必须非负的规定，以下是证明过程由于（）（），（）对式（）的求偏导可得（），（）对式（）的求导可

7、得（）（）由于（）恒大于，故（）（）结合式（）式（）可得，（）（）又由于，结合合式（）和式（）可得（），即（），证毕通过图形描述，可以更进一步了解的特点图给出了一个等级的项目运算特征曲线和项目等级反应曲线，并给出该项目去除猜测参数和失误参数后的相应曲线，以供比较研究参数，（，），（，），（，）-4-3-2-101234-4-3-2-1012341.00.80.60.40.20p1.00.80.60.40.20p4NPL-GRMGRM图等级项目的项目运算特征曲线和项目等级反应曲线第期曾光，等：一种改进的参数等级反应模型和应用传统的项目运算特征曲线是由的项目反应

8、曲线组合而成，而采用，其上下渐进值不再固定为和，而是同时逐级递减因此，观察图的特征曲线，随着等级数增加，传统的特征曲线表现为简单向右平移，则可以被近似看作向右下方平移因为较增加了逐级向下平移的趋势，在相邻级相减构建项目等级反应曲线中，的各级曲线左右渐进值必定远离值，图中等级项目的等级反应曲线清晰地展现出这种特点模型的比较为探究等级猜测参数与失误参数的存在必要性与差异性的影响，表展示了种模型的特征表各个模型的特征比较模型等级数区分度难度猜测参数失误参数存在且唯一存在且唯一存在且唯一存在且唯一存在且唯一从传统的发展而来，同样是一个减

9、法模型，用减法模型来描述这个多级评分项目其参数分成类，一类是描述等级的，如难度参数；另一类是描述整个项目的，如区分度参数，猜测参数和失误参数对于，当等级数为时，模型简化成，而当且时，模型又简化为因此，该模型相较传统的拟合能力和普适性更强而本文提出的继承了引入猜测参数和难度参数的优点，在面对实际测验中多级反应项目（如当项目各选项考察的内容不一样）时，突破了猜测参数和失误参数必须一致的限制，将它们考虑为等级参数，个等级就会有个猜测和失误参数，当的各等级猜测参数和失误参数相同时，可以简化为因此，进一步拓广了适用范围项目参数和潜在能力的条件估计项目参数条件估计为了检验各模型的

10、拟合性能，使用固定项目参数的设计方法假定被试能力值（，），被试个数设为，设计个由道级试题组成的测验其中，号测验（，），（，），；号测验在号测验的基础上增加项目猜测参数（，）和失误参数（，）；号测验在号测验的基础上增加等级猜测参数（，）、和等级失误参数（，）、模拟被试作答：满分为分的多级记分试题，被试得分及分以上（即分，分，分）的概率为，被试得分及分以上（即分和分）的概率为（）（），被试得满分分的概率为（）（）由此进一步得出，被试恰好得分的概率为，被试恰好得分的概率为，依据被试在试题上的作答概率，通过蒙特卡洛模拟方法产生被试得分估计方法采用适用条

11、件广泛、原理简单的三点法，并结合潜在能力真值进行极大似然估计，得到项目参数最后，为了比较种模型的偏差和返真性能，需要比较估计参数与真值，计算以下种指标：平均偏差（，），平均绝对误差（，）和均方根误差（，）（），（），其中和分别表示模拟数据第个项目参数的估计值和真值，评价结果见表考察号测验估计结果的返真性，使用各个模型的与指标进行比较，得到最大平均绝对误差（），最大均方根误（），这些评价指标明显均在正常范围内，返真效果较好，这说明号测验数据适宜被、和同时拟合仅对比区分度和难度参数的返真效果，的与整体小于江西师范大学学报（自然科学版）年，的与又整体小于，这说明

12、在适用的基础上，模型拟真效果是不同的，对号测验数据返真性排序为表各个测验的评价结果数据模型评价指标号号号考察号测验估计结果的偏向性，比较各模型的区分度和难度参数的和后发现，均明显小于，这表明、和对号测验数据的参数估计无显著偏向考察号测验估计结果的返真性，使用各个模型的与指标进行比较，得到最大平均绝对误差（），最大均方根误差（）；得到最大平均绝对误差（），最大均方根误差（），这些评价指标均在正常范围内，返真效果优秀以上结果说明号测验数据适宜被和同时拟合，而是最大平均绝对误差（），最大均方根误差（），这些评价指标显著超出正常范围，结合估计参数与模拟数据进行卡方检验（

13、显著性水平），检验通过率为，这说明号测验数据完全无法被拟合比较和的区分度和难度参数的返真效果，的与整体小于，因此对号测验数据表现为考察号测验估计结果的偏向性，比较各模型的区分度和难度参数的和后发现，和各估计参数的均明显小于，这表现出和对号测验数据的参数估计的无偏向性，而的（），（），表现出对号测验数据的区分度估计有显著偏向，且偏向为负，即区分度估计值相较于真值明显偏低考察号测验估计结果的返真性，使用各个模型的与指标进行比较，得到最大平均绝对误差（），最大均方根误差（），这些评价结果显著超出正常范围，卡方检验通过率仅为因此，号测验数据完全无法被拟合；最大平

14、均绝对误差第期曾光，等：一种改进的参数等级反应模型和应用（），最大均方根误差（），卡方检验通过率为因此，号测验数据可以被部分拟合而最大平均绝对误差，最大均方根误差（），这些评价结果明显均在正常范围内，卡方检验通过率为比较以上模型，可以说明号测验数据仅适宜被拟合考察号测验估计结果的偏向性，比较各模型的区分度和难度参数的和发现，的各估计参数均明显小于，这表现出对号测验数据的参数估计的无偏向性而的（），（）；的（），（），（），（），（），（）；表现出对号测验数据的区分度估计的显著偏向，表现出对号测验数据的区分度与难度估计的显著偏向，即的区分度和的区分度与难度的估

15、计值，相较于真值明显偏低，的难度的估计值相较于真值明显偏高潜在能力条件估计使用估计的项目参数，进行潜在能力的条件估计，可以更直观地描述各个模型估计方法采取使用较为广泛的后验期望估计法，该方法的优势是对于极端的反应数据表现比较稳定且容易计算的先验分布选取为标准正态分布，根据积分理论，求积节点的个数越多，所求得的估计值就越准确，在本实验中取为图展示了种测验数据的、和的（）随的变化曲线（分组作均匀光滑）经仔细观察，可以发现以下现象：-202-202-202GRM4PL-GRM4NPL-GRMMEtest 3test 2test 11.00.50-0.5-1.0MEME1.00.5

16、0-0.5-1.01.00.50-0.5-1.0GRM4PL-GRM4NPL-GRMGRM4PL-GRM4NPL-GRM图在种测验数据下各模型的变化曲线）在号测验数据中，各模型曲线近乎重合，并具有相同的变化趋势；当时，曲线稳定在值，将这种区间称作稳定区间，即此时估计值约为真值；当时，（）开始趋于负值，即估计值较真值逐渐偏小）在号测验中，和曲线重合并整体呈现单调递减的变化，当时有稳定区间；而当时，它们的（）趋于负值；当时，它们的（）趋于正值此时，曲线不具备稳定区间并呈现振荡的特性，从开始向右移动，（）开始时缓慢趋于正值，之后快速趋于负值，从开始向左移动，（）开始时缓慢

17、趋于负值，之后快速趋于正值，这表明对潜在能力估计是不稳定的当时，类曲线趋势相同，可以计算曲线之间间隔平均为，即对比、和使高能力和低能力被试估计值得到了有效的纠正，矫正值为）在号测验中，、和曲线表现为与号测验相似的变化趋势，稳定区间缩小为当时，曲线分离，可以计算、曲线间隔平均为和曲线间隔平均为，即在的基础上平均矫正高能力和低能力被试估计值为，继续在的基础上平均矫正估计值为）综合种测试条件可以发现，对号测江西师范大学学报（自然科学版）年验的估计最具优势，对号测验的估计最具优势，但整体来说，表现出了最好的稳定性与估计无偏性的估计偏差当拟合带有猜测和失误等级

18、参数差异性的项目时，区分度和难度参数会整体偏移，为了进一步分析等级参数差异性导致的估计参数的变化趋势，此实验分为类第类实验探究猜测参数的差异性引起的估计偏差，故固定，由到以的间隔递增第实验探究失误参数的差异性引起的估计偏差，故固定，由到以的间隔递减考虑到难度参数对实验的重要影响，因此取个水平，且，.且，且图和图展示了在种难度水平下的的区分度和难度参数估计的偏差随等级参数差异值的变化曲线经仔细观察，可以发现以下现象：估计偏差估计偏差估计偏差图失误参数变化下的估计偏差估计偏差估计偏差估计偏差图在猜测参数变化下的估计偏差）结合图和图的

19、共同特点，发现等级参数的差异性和难度的移动变化均会改变区分度和难度的偏差，使之单调变化，但单调性不变自猜测或失误参数的差异开始增加，估计值、的偏离值单调不增，偏离值单调不减，这与估计项目参数实验的数据与结论保持一致）图和图表现不同的是，失误参数差异增大的情况下，随着项目难度增大，、的曲线表现愈来愈平缓相反，在猜测参数差异增大的情况下，随着项目难度增大，、的曲线表现愈来愈陡峭，这说明对于难度越低的等级项目，对失误参数差异性的变化越敏感，参数的估计值也第期曾光，等：一种改进的参数等级反应模型和应用越接近真值，而对猜测参数差异性的变化越迟钝，、参数的估计值也越远离真值）对比、，即使

20、同是难度参数，偏离方向和程度都不同，在图中较的曲线更加陡峭，在图中较的曲线更加平缓这说明，不同等级参数的差异性对每个等级的难度参数估计的干扰也不相同，失误参数的差异性对的影响比更加大，猜测参数的差异性对的影响比更大实测分析实测方法在实践中，能力参数和项目参数都未知，需要同时对能力和项目参数进行估计，在这种情况下可采用软件平台的包提供的算法估计项目参数与能力参数尽管包并没有直接提供模型和模型，但由于等级反应模型本质是由模型组合而成，因此一个多级计分类型项目数据也可以逆向转化为多个计分类型项目数据（以表为例，项目由，计分），利用包已经提供的模型，同时限制参数条件，可

21、以间接得到模型和模型的估计结果为了检验估计方法的质量，并分别对比与，的性能，需要进行模拟测验的估计表得分转换表得分转换后设计类由评分题，等级题，等级题和等级题各道，和个被试（，）组成的测验在类测验中，（，），（，），类测验是在类测验的基础上增加项目猜测参数（，）和失误参数（，），类测验是在类测验的基础上增加等级猜测参数（，），和等级失误参数（，），模拟实验重复次，取得估计参数相应的评价结果均值见表表模拟数据的评价结果数据模型指标从表的结果来看，算法配合对类测验均能有效估计，但如果与或对比会发现，的各项参数估计与更大，而且次模拟实验估计结果

22、都表明：对类测验，对类测验的估计优势是无法企及的这种现象的出现可以被认为是由于追求模型的普适性，模型参数的增加导致估计结果出现不可避免的精度损失实测数据对年某省的地理测验进行实测数据分析，数据包含名考生，道评分题（包括道多项选择题）和道等级题，道等级和等级题，道等级和等级题对数据的分析条件进行检验，检验统计量为，球型检验，提取出的第个因子特征根为，第个因子特征根为，第个因子与第个因子特征根比值为，说明该试卷符合单维性假设，取得实测参数估计结果的均值见表江西师范大学学报（自然科学版）年实测数据的具体估计结果显示，在个多级计分项目中，包括个等级猜

23、测参数和失误参数，其中猜测度低于的参数有个，占总体的，等级项目猜测参数整体均值为，而猜测现象主要集中在多等级项目前个等级中，第等级的猜测参数均值为，第等级为，可以认为多级评分项目的猜测度较低，远小于计分项目的，这与陈青等研究一致观察发现相邻等级猜测参数差异值共个，差异值最大前平均为，整体最大为，因此猜测参数的差异性不可以忽略表实测数据估计结果均值评分项目多级评分项目所有项目而多级计分项目中失误现象较计分项目更加明显，其中失误参数低于的有个，低于的有个，分别占总体的和，失误现象主要集中在多等级项目最后个等级中，最后等级的失误参数均值为，另一

24、等级为，参数整体均值为，小于计分项目的观察发现相邻等级失误参数差异整体平均为，差异值最大前均值为，整体最大为，因此失误参数和其差异性也不可以忽略另外参数估计结果还显示了多级评分项目各个等级的评价质量，其中级计分项目的失误参数分布为、，而级计分项目的失误参数分布为、，发现失误参数估计值异常低，检查原始得分数据，按总分排名并筛选出前的被试，统计得分占比（由低向高）：、，高潜力被试的高分比例不仅低，而且得分比例较分散，项目各等级区别明显，因此在地理测验中，此级计分项目使用是必要的讨论由于在实际测验中多级反应项目十分复杂，比如当项目各选项考察的内容不一样时，本文基于提

25、出了适用于等级参数不一致的根据模拟研究的结果表明：与和相比，表现出更加优良的统计性质首先，在次测验中估计参数没有出现明显误差，仅在具备等级参数差异性的号测验中出现较大误差，而的较大误差同时出现在、号测验中其次，具有优秀的估计无偏性，保证估计具有良好的精度相比之下，的表现较差，据改变等级参数差值的模拟研究的结果表明：等级猜测参数和失误参数之间差异性越大，偏离程度越大，并且难度较低的项目对失误参数差异性表现明显，难度较高的项目对猜测参数差异性表现明显因此，当测试的项目存在明显的等级猜测参数和失误参数差异性时，不宜选用而使用算法同时对能力和项目参数进行估计时发现，为追求模型的普

26、适性，模型参数的增加导致估计结果出现不可避免的精度损失因此，种等级反应模型各有优缺，需要根据实际情况谨慎选择最后，在实际的地理测验下，可以发现在等级反应项目中猜测度较低，但失误现象明显，并且存在猜测参数与失误参数各等级之间的差异性较大的情况，不可以忽略因此，使用才能更加全面地反映项目的各个等级的特性，评价各等级质量，做出有效的测验编制和更加精确估计的潜在能力估计参考文献，（）：，（）：，第期曾光，等：一种改进的参数等级反应模型和应用，（）：刘叶，鲁杰，李顶春，等基于经典测量理论和项目反应理论对慢性病毒性肝炎患者生命质量量表的评价临床肝胆病杂志，（）：李建生，冯贞贞，谢洋

27、基于临床调查的慢性阻塞性肺疾病稳定期证候疗效评价量表的初步形成中医杂志，（）：夏雨霏，霍增辉上市公司精准扶贫能力估算及差异特征：基于等级反应模型的实证研究商业会计，（）：霍增辉，张玫，吴海涛基于项目反应理论的农户相对贫困测度研究：来自浙江农村的经验证据农业经济问题，（）：王保鲁，基于项目反应理论的纺织服装企业新技术接受期望研究北京服装学院学报（自然科学版），（）：杨尚剑基于项目反应理论的运动员组织公民行为量表的修订及在凝聚力与满意度中的中介作用沈阳体育学院学报，（）：，孙文树基于、的体育明星代言人信源模型量表研究哈尔滨体育学院学报，（）：刘玥，刘红云四参数模型和传统模型对被试作答拟合能力的比较研究心理学探新，（）：金英姿，王佶旻四参数模型与双参数、三参数模型在语言测验中的拟合比较及睡眠现象检验：以来华留学生预科结业考试为例中国考试，（）：，（）：陈青，丁树良，朱隆尹，等参数等级反应模型及其参数估计江西师范大学学报（自然科学版），（）：陈青，丁树良三参数等级反应模型及其信息函数的应用考试研究，（）：简小珠，戴海琦参数对猜测现象和失误现象的纠正江西师范大学学报（自然科学版），（）：胡小芳中参数估计的新方法：三点法重庆：西南大学，（，；，）：，：；（责任编辑：冉小晓）江西师范大学学报（自然科学版）年

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种改进参数等级反应模型应用

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。