语言测试标准设定研究现状与展望.pdf
《语言测试标准设定研究现状与展望.pdf》由会员分享,可在线阅读,更多相关《语言测试标准设定研究现状与展望.pdf(13页珍藏版)》请在咨信网上搜索。
1、57 2024 年第一辑 总第四辑语言测试标准设定研究现状与展望*闵尚超 沈吉利浙江大学 提 要:本文首先简要梳理标准设定的背景,接着介绍接受型和产出型考试常用的标准设定方法以及选择方法时应考虑的因素,随后重点讨论标准设定过程中普遍存在的若干挑战,如标准设定的信度和效度问题,以及认知诊断测试、专门用途英语测试和综合型语言测试标准设定中存在的问题,并据此探讨未来的研究方向,以期对研究者有所启迪。关键词:标准设定;语言测试;认知诊断测试;综合型语言测试 *本文系 2022 年度浙江省哲学社会科学规划“之江青年理论与调研专项课题”“语言测评标准设定模式的 再审视:从安戈夫法到书签法”(课题编号:22
2、ZJQN16YB)的阶段性成果。1.概述标准设定是指基于不同级别描述语设定一个或多个临界分的过程(Cizek 2001)。尽管标准设定研究 1950 年左右就已在教学领域兴起,但直至 2002 年美国正式签署不让一个孩子落后法案后,标准设定才开始在语言测试领域得到规范应用。随后,以语言考试与欧洲语言共同参考框架对接手册的发布为标志,以标准设定为核心的对接研究在全球范围内迅速展开,例如托福与 欧洲语言共同参考框架(以下简称 欧框)(Tannenbaum&Wylie 2008;Tannenbaum&Baron 2011;Papageorgiou et al.2015),雅思与欧框(Lim et a
3、l.2013),雅思、普思与中国英语能力等级量表(以下简称量表)的对接(Dunlea et al.2019;蔡宏文 2019;闵尚超 2019)等。推进标准设定研究至关重要,其意义主要体现在:1)有利于增强考试成绩的可解释性,帮助考生、教师等更充分地了解分数背后所反映的语言能力,并为教师提供依据以开展针对性教学;2)有利于更好地发挥标准对考试开发的指导作用,帮助考试开发者发现考试中存在的问题,从而改进考试设计,提升考试质量;3)有利于促进对接结果的合理使用,保障学习成果在不同教育背景下的沟通互认(金艳等 2022)。在此背景下,本文以语言测试领域为焦点,通过回顾标准设定相关实践和研究,探讨标准
4、设定实践的现存问题和未来研究方向,以期对研究者有所启发,从而推进标准设定科学化进程。58 2024 年第一辑 总第四辑2.标准设定方法简介标准设定方法为整个标准设定流程设定基调,因此选择合适的标准设定方法至关重要。目前,标准设定方法已超过一百多种(揭薇 2019)。与此同时,标准设定的新方法层出不穷,如诊断剖析法(Diagnostic Profiles Method)(Skaggs et al.2018)、试题描述语匹配法(Item-Descriptor Matching Method)辅以标杆分析法(Benchmarking Method)(Harsch&Kanistra 2020)等。在实
5、际运用中,标准设定的方法因题型差异等而有所不同,下面笔者将分别介绍接受型考试和产出型考试中常用的标准设定方法。2.1 接受型考试中常用的标准设定方法接受型考试常采用选择反应式的题型,因此其标准设定以试题中心法为主,如Angoff 法(Angoff 1971)及其衍生方法和书签法(Bookmark Method)(Lewis et al.1996)等。Angoff 法是目前使用最为广泛的方法之一,在托福和雅思系列考试中都备受青睐(如Tannenbaum&Wylie 2008;Dunlea et al.2019)。其核心任务为估测“最低能力考生”(Just Qualified Candidate,
6、JQC)答对每道题的概率。Angoff 法的优点主要在于易于理解和实测数据收集简便(Tannenbaum&Cho 2014)。其缺点则主要集中在预测 JQC 答对每道题的具体概率或具体分数难度较大(Hsieh 2013;Shin&Lidster 2017),以及专家对于不熟悉的测试内容往往会人为夸大预测难度(Clauser et al.2016)等。为降低预测难度,书签法应运而生。该方法依据项目反应理论,事先将试题按从易到难排列于有序试题册(Ordered Item Booklet,OIB)中。专家只需在分析每道试题内容和难度的基础上,将书签放置于 OIB 中的适当位置,使得 JQC 正确回答
7、书签位置前所有题目的概率至少达到某个预先设定的概率值(Response Probability,RP)。但使用书签法时,试题难度值变化会导致专家判断的临界值产生大幅度漂移(Clauser et al.2017;闵尚超 2019)。此外,书签法的争议焦点还集中于 RP 值的选择(Baldwin et al.2020)和试题抽样方式(Tiffin-Richards et al.2013)等。2.2 产出型考试中常用的标准设定方法产出型考试以建构反应式的题型为主,更多地运用考生中心法,如分析判断法(Analytic Judgment Method)(Plake&Hambleton 2001)和改良表
8、现剖析法(Modified Performance Profile Method)(Hambleton et al.2000)。雅思系列考试和职业英语考试多采用分析判断法(如 Manias&McNamara 2016;Dunlea et al.2019)。专家需先将样本划分为若干个表现等级(如未达标和达标),再将每一个表现等级分为若干个档次(如高、中、低)。相邻两个表现等级的临界分59闵尚超 沈吉利 语言测试标准设定研究现状与展望便等于较低等级中的高分与较高等级中的低分相加所得的平均值。该方法基于考生的真实作答情况进行等级划分,直截了当,流程简便。但其最大的问题在于,当样本较少时,临界分不稳定
9、(Hambleton et al.2000)。面对这一问题,Dunlea et al.(2019)提出的解决方案是参考对照组法(Contrasting Group Method)(Livingston&Zieky 1982),寻找相邻表现等级考生得分分布曲线的交点。而托福系列考试则多采用改良表现剖析法(如 Wylie&Tannenbaum 2006;Tannenbaum&Wylie 2008)。该方法仅适用于题量较少的测试,其工作原理是由专家从每道已打分的样本中筛选符合 JQC 特征的样本,将样本每道题的得分相加形成初步的临界总分,再找出总得分等于该临界总分的所有样本。假设临界总分为 18,则
10、对应样本的得分情况可能是 9、2、1、6 或 5、4、5、4。随后,专家逐个判断样本的作答情况,决议是否符合 JQC 特征。若专家一致认为所有样本均不及最低标准,则需调高临界总分,继续找寻并分析相应分数的所有样本。这一过程将不断重复,直至找到理想的临界分。该流程恰恰体现了表现剖析法的优势,即基于考生的整体作答情况进行评判,而非孤立地推断 JQC 在各个试题上的表现。但与分析判断法类似,该方法极其依赖于样本的数量和质量。样本若无法涵盖各种可能的分数组合,则该方法的实施效果将大打折扣。2.3 影响标准设定方法选择的其他因素标准设定的方法各有利弊。除考试题型外,不少学者(如 Hambleton et
11、 al.2012;Tannenbaum&Cho 2014)都曾提出过一些其他的考虑因素。笔者认为可将影响标准设定方法选择的其他因素归纳为以下四个方面:1)标准设定方法的一致性。这是证明临界分合理性的有力证据,主要包括专家判断的内部一致性、专家间的一致性、专家判断与外部证据的一致性等。而针对“不同方法间的一致性比较”这一话题,研究者各执己见。以 Angoff 法和书签法为例,部分研究者(如 etin&Gelbal 2013;Hsieh 2013)认为两种方法的外部一致性相差无几。而也有研究者(Afrashteh 2021)指出,书签法的内部和外部一致性均高于Angoff 法。综上,笔者建议在条件
12、允许的情况下,研究者可同时选取两种方法开展标准设定,而临界分的选择可取一致性较高者或更贴合考试性质者。例如,在低风险入学考试中,学生自身的努力可在一定程度上弥补他们在语言能力上的不足,因此标准设定方法可取较低临界分者。2)标准设定方法的易理解性和可操作性。参与标准设定会议的专家可能来自不同的领域,他们并不一定都具备语言测试相关知识。例如,在专门用途语言测试的标602024 年第一辑 总第四辑准设定中,专家团队成员可能会有医生和护士等。若使用诸如诊断剖析法等专业性较强的方法,则可能会给语言测试领域外的专家造成理解上的困扰。因此,方法的易理解性和可操作性会影响标准设定方法的最终选择。3)培训师对于
13、标准设定方法的熟悉度和操作经验。培训师在标准设定流程中承担讲介、协调、反馈和管理等职责(张洁、王伟强 2019),他们对相关方法的理解会直接影响标准设定的结果。Mee et al.(2013)的实证研究表明,若培训师能用较为客观的话语对专家加以引导,那么即便在面对虚假的参考数据时,专家也能作出合理判断,而非根据参考数据一味地进行修改。4)时间的充分性和资源的充足性。例如,在时间紧、题量大的情况下,采用有赖专家对试题一一作出判断的 Angoff 法会过于耗时,无疑是不合理的。又如,当考生样本无法涵盖所有分数段时,分析判断法基于真实样本的优势将无法彰显。总的来说,选择何种标准设定方法的影响因素众多
14、,而笔者认为,标准设定方法的选择与临界分的决策类似,无所谓正确与否,只有合不合适。表 1 对标准设定应用实例的梳理可为研究者提供一些思路,但在未来实践中,研究者应在权衡 2.3 中参考要点的基础上,结合具体的情境,作出最为合适的选择。题型技能标准设定方法应用实例选择反应式的题型听力、阅读改良 Angoff 法托福对接欧框(Tannenbaum&Wylie 2008;Tannenbaum&Baron 2011;Papageorgiou et al.2015);托福对接量表(Papageorgiou et al.2019);大学英语四、六级对接量表(金艳等 2022)是/否Angoff 法雅思对接
15、欧框(Lim et al.2013);美国政府组织的高风险语言水平测试(Fechter&Yoon 2024)改良 Angoff 法和投篮法(Basket Method)(Kaftandjieva 2009)雅思、普思对接量表(Dunlea et al.2019);高考英语(上海卷)对接量表(潘鸣威等 2022)改良 Angoff 法和对照组法校本考试对接量表(闵尚超、姜子芸 2020)是/否Angoff 法和书签法中国台湾六年级学生英语能力评估(Hsieh 2013)书签法、临界组(Borderline Group Method)(Livingston&Zieky 1982)和聚类分析法(Cl
16、uster Analysis)(Sireci 2001)ESL 分级测试(Shin&Lidster 2017)Ebel 法(Ebel 1972)海外飞行员培训项目阶段性测试(Treadaway&Read 2024)表 1 语言测试中标准设定常用方法概览(待续)61 闵尚超 沈吉利 语言测试标准设定研究现状与展望3.标准设定研究现有问题和未来发展方向近二十年来,标准设定在语言测试界如火如荼地展开。除美国教育考试服务中心(Educational Testing Service,ETS)、英国文化教育协会(British Council)等大型机构外,越来越多的单位和组织也参与其中,开展校本考试(如
17、闵尚超、姜子芸 2020;何莲珍等 2021)、高考(潘鸣威等 2022)等的标准设定。标准设定的实践和研究不断推动着其流程朝着更加科学化的方向发展。目前,该流程已逐渐系统化,包含以下步骤:1)选择标准设定方法和完成准备工作;2)遴选专家;3)描述不同等级的表现;4)培训专家;5)开展一轮评价和收集专家意见;6)反馈相关信息和组织专家讨论;7)开展二轮评价和再次收集专家意见;8)获取专家对标准设定过程评价,计算并推荐临界分;9)收集、整理相关材料和效度证据。在此基础上,标准设定流程也在不断经历着革新。以 Angoff 法为例,为解决预测 JQC 答对概率困难这一问题,在雅思与量表对接研究中,D
18、unlea et al.(2019)将投篮法作为改良 Angoff 法的预备活动,以期让专家进一步了解试题难度和各个表现等级 JQC 的典型特征,结果表明专家的首轮试题难度预测与试题实测难度有着较高的相关性。而在优诊学听力技能与量表的对接研究中,研究者则引入了判断各个试题所考查的微技能这一环节,且事后的专家访谈也表明这一活动对于Angoff 判断有一定的帮助(闵尚超 2021)。尽管标准设定的流程已越来越科学,但在实践过程中,目前仍存在以下四点值得注意的问题。题型技能标准设定方法应用实例建构反应式的题型口语、写作分析判断法雅思对接欧框(Lim et al.2013);职业英语考试(Manias
19、&McNamara 2016;Pill&McNamara 2016;Davidson 2022);雅思、普思对接 量表(Dunlea et al.2019);雅思对接量表(蔡宏文 2019);大学英语四、六级对接量表(金艳等 2022);校本考试对接量表(何莲珍等 2021)改良表现剖析法托福对接欧框(Wylie&Tannenbaum 2006;Tannenbaum&Wylie 2008;Papageorgious et al.2015);托福对接量表(Papageorgiou et al.2019)试题描述语匹配法辅以标杆分析法托福对接欧框(Harsch&Kanistra 2020)整体表现
20、法(Body of Work Method)(Kingston&Tiemann 2012)综合型听说考试对接量表(陈大建、胡杰辉 2023)表 1 (续)62 2024 年第一辑 总第四辑3.1 标准设定的信度和效度问题标准设定的过程离不开人为主观判断,故而易受人诟病。争议主要源于:1)专家判断的随意性。虽然大部分研究(如闵尚超 2019;Fechter&Yoon 2024)表明反馈和小组讨论可以促进专家意见的一致性,但 Clauser et al.(2009)的研究发现,即便是面对虚假的参考数据,专家也会不假思索地对首轮预判结果进行大幅度修改。此外,小组中经验最丰富的专家的意见往往容易占据上
21、风,影响其他专家的判断(Shin&Lidster 2017)。2)专家判断过程的模糊性。McGinty(2005)曾将专家判断过程比作“黑匣子”,但近二十年以来,这一困境似乎并未得到改善。专家是如何理解 JQC这个概念,又是如何将试题实测难度值、小组讨论结果等内化为自己的判断标准,学界对此仍知之甚少。3)最终决策的主观性。专家会议所产生的临界分仅仅只是原始分数,临界分的最终决定权掌握在相关组织机构手中。然而,这些机构的决策过程往往较为主观,且缺乏一定的公开透明性。Xi(2008)和 Eckes(2017)等曾尝试用受试者工作特征曲线(Receiver Operating Characteris
22、tic Curve)辅助决策机构进行最终决策。但相较于数据分析方法,对最终决策底层逻辑的探讨更具价值。Geisinger&McCormick(2010)曾罗列了最终决策过程中应考虑的 16 种因素,但非系统化的归纳无法对最终决策形成过程性的引导。基于此,未来的研究可就这些话题进行深入探究,以期提高标准设定结果的信度和效度。3.2 认知诊断测试标准设定中存在的问题基于认知诊断测试(Cognitive Diagnostic Assessment,CDA)提出的标准设定方法从考生实际作答情况出发,通过比较 JQC 可能具有的掌握模式与 Q 矩阵分析结果判断考生能否答对某道题。与传统的标准设定方法相比
23、,其最大优势在于无须人为判断答对概率,便可同步完成评分与分级两项工作。此类方法虽有着广泛的应用前景,但目前仍面临诸多挑战。操作过程中的一大难点便在于如何有效筛选 JQC 可能具有的属性掌握模式。Skaggs et al.(2018)曾尝试用诊断剖析法为某数学考试定标,由专家独立判断 JQC 所掌握的认知属性后,推测 JQC 可能具有的属性掌握模式,但结果并不理想JQC 可能具有的属性掌握模式众多,临界分分布范围较广。而当某一考试所考查的认知属性越多时,这一问题便越突出。例如,当某一考试考查 10 个微技能时,则可形成 1024(210)种掌握模式。同时,专家对 JQC 的属性掌握模式进行主观推
24、测可能会进一步使此类标准设定过程复杂化。Zachary(2023)研究发现,即便扩大参考样本数量或提供多样的属性掌握模式,专家也不太愿修改自己的最终判断。但值得一提的是,基于 CDA 的标准设定方法目前鲜见于语言测试领域。因此,未来63 闵尚超 沈吉利 语言测试标准设定研究现状与展望的研究也可从实践层面作出探讨,验证此类方法的效度。3.3 专门用途英语测试标准设定中存在的问题专门用途英语测试(Testing English for Specific Purposes,TESP)考查的虽然是考生在特定专业领域中使用英语的能力,但在此过程中,难免会涉及特定专业领域的知识。语言能力知识与专业领域知识
25、的交织使得 TESP 的标准设定活动变得错综复杂。原则上,专家应撇开考生的专业领域知识水平,仅针对考生的语言能力水平进行标准设定。但事实上,要实现这一点异常困难(Pill 2016;Treadaway&Read 2024)。与此同时,相关专业领域知识很有可能触及与会语言领域专家的知识盲区。因此,对 TESP 的标准设定而言,了解相关领域专家的意见和想法至关重要(Treadaway&Read 2024)。这一观点也得到了实证研究结果的支持。研究者(Manias&McNamara 2016;Pill&McNamara 2016;Davidson 2022)发现,在医护人员职业英语写作考试中,相关领
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 测试 标准 设定 研究 现状 展望
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。