“证据推理”能力测评工具的开发与检验.pdf
《“证据推理”能力测评工具的开发与检验.pdf》由会员分享,可在线阅读,更多相关《“证据推理”能力测评工具的开发与检验.pdf(11页珍藏版)》请在咨信网上搜索。
1、2023 年第 5 期(总第 100 期)考试研究EXAMINATIONSRESEARCHNo.5,2023General No.100“证据推理”能力测评工具的开发与检验罗 玛摘要“证据推理”能力强调从已有经验、问题情境中识别、转换、形成证据,利用证据进行推理,从而获得结论、解决问题的关键能力。基于测量评价理论的探讨,确立测评工具研制的思路,利用前期研究中确立的“证据推理”能力的内涵结构,参考PISA试题,研究设计了试测工具。利用效标关联设计和Rasch分析方法检验工具的信效度。根据数据结果对其进行修正,最终形成更为科学、信效度高、实用性好的“证据推理”能力测评工具。研究中测评工具的开发思路
2、和方法,可以为素养、能力测评工作提供一定的借鉴。关键词“证据推理”能力;测评工具;Rasch分析;实证检验中图分类号G424.74文献标识码A文章编号16731654(2023)05050011学科核心素养是不同学科培养人的指引,是课程目标,也是评价依据。其中,理科课程对推理思维的培养显示出高度的重视1,在各科目的课程标准文件中有着不同但明确的表达,如数学学科中的“逻辑推理”、物理学科中的“科学思维”、化学学科中的“证据推理”、生物学科中的“理性思维”等。虽然表达各异,但对于科学研究的本质过程与思维要求,学界形成了共识,如“基于事实证据和科学推理对不同观点和结论提出质疑、批判,进而提出创造性见
3、解”2是科学思维的要求,也是科学素养的体现。本研究关注的是“基于证据的推理”能力素养,尝试开发能够测评这种构念的工具,并利用实证数据进行检验、修正。在前期研究的基础上,确立“证据推理”能力这一构念的内涵、结构;与之相匹配,选择测评工具的内容载体,使每个项目都有明确的水平要求,每个水平层次都有多个项目来测查;结合专家审议的方式初步构建出测评的工具,由此保证其内容效度和表面效度。继而利用实证校验(empirical validation)的方式对工具进行质量检验,将试测工具与经典的LCTSR(LawsonsClassroomTestofScientificReasoning)相比较,进行效标关联效
4、度的检验。基于Rasch测量模型对测试数据进行质量分析;依据参数结果,结合访谈,进行项目的修正、优化,最终获得质量检验合格的测评工具。一、测评对象的内涵结构测评对象为“证据推理”能力,首先需要对该构念进行界定。结合新课标中学科核心素养的阐释,及国内外文件中对能力素养的表达,将“证据推理”能力(Evidence-based Reasoning Competence,ERC)作者简介 罗玛,博士,讲师,宁波大学教师教育学院。浙江宁波,315211。基金项目 本文系浙江省社科规划课题“基于项目式学习发展学生科学思维能力的跨学科实践和测评研究”(课题编号:23NDJC133YB)的阶段性研究成果之一。
5、50“证据推理”能力测评工具的开发与检验定义为:在科学学习中,从已有经验、问题情境中识别、转换、形成证据,利用证据进行推理,从而获得结论、解决问题的能力表现3。识别、筛选证据,转换、形成证据,应用、评价证据等过程是科学探究和科学实践的重要环节,是科学工作者展开科学研究、得到科学发现的基本过程。关注于“基于证据的推理”能力,也即“证据推理”能力,对科学学习和教学具有重要意义。基于理论探讨和德尔菲调查法,整合“证据”和“推理”两方面的复杂性,逐步构建形成了可操作的、多水平递进的“证据推理”能力框架(Framework of Evidence-based Reasoning Competence,F
6、ERC)4。最终的框架确立了6个水平,在每一级推理复杂性水平之下各有两个子水平(a与b),在证据复杂性上交叉体现,如表1所示。框架反映了学生“证据推理”能力的不同水平表现,即测评对象的内涵结构。表1“证据推理”能力框架序号123456水平Level 1aLevel 1bLevel 2aLevel 2bLevel 3aLevel 3bCR初级水平(直接推理-1)过渡水平(直接推理-2)高级水平(间接推理)CESEFSEUSIFSIUMEFMEUMIFMIUMEFMEUMIFMIU说明U略增加复杂性I增加复杂性I&U增加复杂性多重证据的简单关系多重证据的简单关系;U略增加复杂性多重证据的简单关系;
7、I增加复杂性多重证据的简单关系;I&U增加复杂性多重证据的复杂关系多重证据的复杂关系;U略增加复杂性多重证据的复杂关系;I增加复杂性多重证据的复杂关系;I&U增加复杂性在此框架中,证据的复杂性(CE)从三个方面去刻画,涉及证据的显现程度(以E表示显性,I表示隐性)、情境熟悉度(以F表示熟悉,U表示陌生),以及所需证据的数量(S 表示单一证据,M 表示多重证据);推理的复杂性(CR)划分为三个层级,初级水平、过渡水平和高级水平。例如,当学生解答问题时,遭遇一个陌生情境(U),线索不明(I),而且所需利用的证据较多(M),在这种复杂性表征的组合情况下(MIU),其解决问题的困难程度自然最高;若学生
8、遇到的是熟悉的情境(F),仅需单一证据(S),而且显而易见(E),这种证据复杂性(SEF)对思维的要求最低。二、测评工具的设计依据测评工具开发的理论基础,按照研制思路,参照测量构念的水平框架,进行测评工具的设计。(一)项目编制的原则测量是以被试对工具项目的作答反应区分被试的能力水平,工具项目的难度表征需从主客体两方面考虑5。被试群体是根据测量理论或实际情况挑选出的样本,而项目本身的复杂程度则是在工具研制过程中必须设计、考虑的。从项目或工具客体的影响来看,项目的新颖性、逻辑结构6、情境设置、任务要求等问题本身的属性影响着项目的难度,其本质是关系复杂性(relational complexity)
9、的作用7。本研究所关注的是学生在科学领域的能力表现,因此内容涉及科学学习、科学知识方面,这是项目设计可供选择的情境来源和内容依托。“证据推理”能力的测查项目应注重情境的创设,在解决问题的过程中,从项目的情境中挖掘“证据”,在头脑中进行转换,运用推理思维去作答。根据水平框架(表1),证据所依托的内容载体应从显性/隐性、熟悉/陌 51考试研究 2023年第5期(总第100期)生等多个方面去设计。例如,大型的国际测评项目PISA就是以“能力”测评为核心目标,以“情境”为主要载体,依据包含“能力”“知识”和“态度”的科学框架,开发了科学能力测评工具8。一般不要求学过有关的知识,只需根据题目情境、文字说
10、明(提供信息)、图表(如条形图)等,加以分析、转换,提取出有价值的“证据”,结合题目前面所提供的信息(类似于科学常识、道理)建立出正确的关系(运用推理思维),这样才能正确解答问题9。题目的呈现形式和情境要求增加了解答的难度,主要涉及可能不熟悉的情境,甚至非常陌生,是被试解决问题的障碍之一;题目中的图像解读,需要被试从中提取“证据”,建立简单的数学关系或因果关系等,做出推断。此外,与PISA一样,还需设计详细的评分标准和编码,尤其是对于非选择题(如建构反应题)。基于以上分析,项目设计主要遵循了以下原则:项目中尽量不涉及具体的学科知识要求;以不同的情境为载体;以多种形式表现证据及其复杂性,如图表、
11、文字等混合呈现;能力要求依据框架而来,水平层次具体而清晰;避免冗长多余的表述增加阅读负担等。据此,结合专家小组审议的建议保证基本的表面效度,开发了适于测查学生“证据推理”能力的工具。(二)项目对应与评分参考PISA 2006的科学样题,初步编制的测评工具共有 25 个项目,包含 12 个单项选择题(P01,P02,P06,P07,P08,P10,P11,P14,P15,P18,P19,P23);13个建构反应题,其中 8个 1分题(P03,P04,P05,P09,P16,P17,P20,P25),5个2分题(P12,P13,P21,P22,P24),满分为 30 分。工具项目的情境丰富,涉及科
12、学的多个领域,涉及的证据来源于生活现象、实验现象、科学常识、科学史料、数据资料等。在项目设计的过程中,需要从显现度、情境熟悉度和所需证据数量三个方面考虑每道题所呈现的“证据”,确保每道题都有一个水平归属,不至于出现某水平上没有可测的项目,或者某项目的水平不明的情况。试测项目与框架水平的对应情况如表2所示。表2ERC测评工具项目的能力水平对应表(试测)序号123456能力水平(ERCL)Level 1aLevel 1bLevel 2aLevel 2bLevel 3aLevel 3b证据的复杂性(CE)SEFSEUSIFSIUMEFMEUMIFMIUMEFMEUMIFMIU题项对应P01,P04P
13、08P09P07,P20,P12P13,P17P18P05,P21P02,P06,P11P10,P14,P19P22,P24P03,P25P15,P16,P23例如项目 P01,是一道选择题,正确答案是 D。题目涉及的情境是龋齿问题,被试很熟悉,而且解题所需的证据可以直接从题干中获得,利用简单的信息即可推理得到“细菌产生酸性物质”,能力水平要求低。而项目P12要求通过实验情境(以图示和文字说明)推导出压强(或压力)的影响因素,解题的证 PISA 2006科学的样题,来源链接为https:/ B细菌产生糖C细菌产生矿物质 D细菌产生酸性物质项目示例(P12):人在沙滩或雪地上行走,会在沙滩或雪地
14、上留下脚印,即压力会使物体的表面产生凹陷的效果。为探究影响压力效果的相关因素,开展实验(如下图所示),通过比较海绵凹陷的程度,得出结论。图a图b图c(1)(2分)对比a与b,你能发现影响压力效果的因素之一是什么?并请用一两句话描述这个结论。(P12)评分标准示例(P12):以下回答计2分:正确回答了因素,并且正确描述或对比了现象及压力大小的作用效果。可能的回答:因素是重物(压力)的大小(多少);受力面相同时(或描述出图a与b都是凳子脚作用于海绵),压力越大(或说明加上重物),压力的作用效果越明显。以下回答计1分:正确回答了因素;但仅描述或对比了现象,未描述作用效果与压力大小这个变量之间的关系。
15、可能的回答:因素是重物(压力)的大小(多少);图a压得浅,图b压得深。以下回答计0分:因素回答错误(即使现象对比的描述正确,也计为完全错误);或因素与现象对比均错误;或仅作答一部分且错误。可能的回答:因素是接触面;重物大,作用效果明显。未填答记-3(缺失值)在统计编码时,将没有作答的记为缺失值(编码为-3),而非赋0分;得分即编码数字;选择题回答正确则编码为1,错误为0,未作答的缺失情况同样编码为-3;卷面最低得分为0,最高分为30分。三、测评工具的检验除了利用专家审议的方法保证工具的内容效度、表面效度之外,还应运用试测收集实证数据的方式进行质量分析。本研究进行了试测,使用效标关联的方法及Ra
16、sch测量模型进行数据分析。(一)试测概述在正式的试测之前,挑选部分样本进行了小范围测试,以检视ERC工具施测时可能发生的情况,如测试时长、学生阅读题项所遇到的问题等。之后挑选样本进行试测,基本流程和数据处理方式概述如下。1.测试实施的流程以效标关联效度(criterion validity)为指标检验“证 据 推 理”能 力(ERC)测 评 工 具 的 实 用 效 度(pragmatic validity)。许多研究采用LCTSR10-11进行推理能力的评价和分析,其内容效度已然得到证 53考试研究 2023年第5期(总第100期)实12-13,因此可以将LCTSR作为一个基准,来检视另一个
17、测量工具,以二者的相关性来说明新的测量工具是否具有效标效度。试测包含两次测试。首先利用 LCTSR 对被试样本进行测试,回收测试数据;在一周后,对同一批样本进行“证据推理”能力的测试。在两次测试过程中,由班主任或任课教师主试,向学生简要说明测试的基本情况,强调根据题目信息进行作答(两次测试的卷首位置均提供了说明),测试时间均为30分钟。2.试测的样本选择两次测试的样本来自S市的两所初级中学(YC与YL),包含八、九两个年级,这两所中学的基本情况类似,教学质量位于区内中等水平,数据分析时,并不比较学校差异,将样本混合进行整体考查。发放的测试卷共有627份,其中YC中学248人,八年级154人,九
18、年级94人;YL中学379人,八年级186人,九年级193人。剔除未作答的答卷(缺失处理),前后两次测试的有效样本率均达到95%以上。被试的基本情况如表3所示,参加LCTSR测试的有效样本数为N=582,ERC测试的有效样本共有593人,两个测试均是男生略多于女生,8年级略多于9年级。表3试测样本的基本情况(LCTSR与ERC)LCTSRERC试测性别男306306女276287年级8年级3093189年级273275N5825933.数据的处理方式施测之后,评阅所收集的问卷,评阅人为课程与教学论专业的博士生1名、硕士生1名,评阅之前对其进行培训和指导,严格按照评分标准进行。对于建构反应题,评
19、判不一致时需互相商议,仍无法达成一致则交由专家组决断。以 LCTSR 测试的结果为标杆,与同样本下的ERC测试结果相比对,计算相关系数表征后一工具的效度。然后,运用Rasch测量模型对本轮试测结果进行具体分析,以期对ERC测评工具进行质量检验,更为重要的是获得工具修正的依据。(二)试测结果按照第二轮试测的流程,利用SPSS 22.0对测试的 数 据 进 行 描 述 分 析 和 校 标 效 度 检 验,利 用WINSTEPS 3.72.0进行Rasch分析。1.描述统计与效标效度将 ERC 测试的 N有效=593 个有效观测值进行描述分析,满分为30的问卷,该样本所得最高分为30分(Max=30
20、),最低分为1分(Min=1),平均值和标准差分别为Mean=15.82,SD=5.917。信度系数为Cronbach s=0.809(N=593),表明ERC测评工具的内部一致性信度良好,可以认为25个项目所测查的是同一种构念14。将ERC与LCTSR测试进行匹配,共计552名被试作答了两次测试,二者得分的相关系数为 0.527(Pearson积差相关),统计显著(p=0.000,N=552),即显著的中度相关,说明用于试测的ERC测评工具具有较好的实用效度。总的来说,SPSS分析获得的信效度系数反映试测工具的质量良好。对于“证据推理”能力这一构念,它与科学推理能力既有共性,又有区别。与测量
21、科学推理能力的LCTSR工具有显著的相关性即可印证二者的共同之处,说明试测工具能够对学生的“推理能力”构念进行测评;而本研究的ERC测评又不只如此,其研究的问题或对象是学生在科学学习领域,基于“证据”进行“推理”的能力。2.Rasch分析的结果参考 WINSTEPS使用手册及 Rasch模型应用的实证研究15,对试测数据进行统计和分析,参照比对使用手册中的参数指标进行评价。(1)总体质量分析将所有的观测值数据(N=627)导入 WINSTEPS中进行运算,软件自动识别出缺失(missing)或缺少作答(lacking responses)的观测值 34个,即共计 593 54“证据推理”能力测
22、评工具的开发与检验个被试(person)的回答视为有效(valid responses),所有 25个项目(item)均被估算,结果如表 4所示。在Rasch模型中,将项目的难度估计值(Measure)固定为0,此时被试的Measure即反映了被试的平均能力水平,就本研究而言,即被试的 ERC 水平为 0.35(Rasch分),略高于项目难度值,差距并不大,说明该工具项目合适于该轮试测样本的ERC测评。表4ERC测评工具的总体质量被试项目Measure0.350.00Model Error0.470.10InfitMNSQ1.001.00ZSTD0.00.0OutfitMNSQ1.031.02
23、ZSTD0.00.1Separation1.929.98Reliability0.790.99结合表中的其他参数可以说明工具的总体质量,这些参数均有其可以接受的取值范围。模型误差(Model Error)反映了实际观测值与理论模型值之间的差异,被试和项目的误差值均较小,接近于0,说明利用工具收集的观测值(observation)能够较为准确地反映真实情况,即学生的 ERC;Infit与 Outfit反映的是观测数据与模型之间的拟合度,分别包含MNSQ 与 ZSTD 两个值,对本研究的被试和项目而言,其 MNSQ 趋近于 1,ZSTD 趋近于 0,皆十分理想(perfect),说明ERC测评工具
24、的观测值与Rasch理论的理想模型适配良好;分离度(Separation)参数表示工具项目区分被试能力的程度,值越大说明区分得越好,从表中可以看到,项目的分离度大(9.98),被试的分离度接近于2(1.92),在可以接受(acceptable)的范围16-17;信度(Reliability)系数说明的是观测结果的一致性、稳定性,信度愈高表示测量误差值愈低,进行某个构念的测评时,希望所获得的观测值不会因形式或时间的改变而有所变动,试测工具的项目难度测量信度值(0.99)趋近于1,被试能力测量的信度(0.79)低于项目信度,但仍属于信度良好的范围内。基于 Rasch 模型假设,以上参数结果说明 E
25、RC试测工具的总体质量特征良好。但在被试分离度上略有欠缺,而且有可能存在其他未能反映的问题,还需进行深入细致的检验和分析。(2)单维性的分析满 足 单 维 性(unidimensionality)是“好 测 量”(good measurement)的特征之一,将试测后的观测值进行多维度检查(multidimensionality investigations),得到标准化残差分析的有关数据(表5)。表5ERC观测值的标准化残差(试测)观测值的总体原始方差(T)测量所解释的原始方差(M)被试所解释的原始方差(P)项目所解释的原始方差(I)无法解释的原始总方差(U)无法解释的方差(第1次对比)无法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 证据 推理 能力 测评 工具 开发 检验
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。