计算机辅助教育测量与评价课件全套整本书电子讲义全书电子课件教学教程.ppt
《计算机辅助教育测量与评价课件全套整本书电子讲义全书电子课件教学教程.ppt》由会员分享,可在线阅读,更多相关《计算机辅助教育测量与评价课件全套整本书电子讲义全书电子课件教学教程.ppt(326页珍藏版)》请在咨信网上搜索。
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算机辅助教育测量与评价,21,世纪高等院校精品规划教材,第一章 计算机辅助教育测量与评价概述,目录,1.1,教育测量与评价的产生,1.2,计算机辅助评价的定义与分类,1.3,计算机辅助评价的发展,1.4,第四代教育评价的兴起,1.1,教育测量与评价的产生,1.1.1,教育测验的兴起,1.1.2,美国的教育测验运动,1.1.3,“,八年研究,”,与教育评价的诞生,教育测验的兴起,中国古代科举考试制度对世界教育、政治、文化,尤其是考试制度产生过重大的影响。,在教育界引起人们对测验问题以极大关注的是著名的莱斯(,J,M,Rice,)拼字测验。,美国的教育测验运动,教育测验之所以在本世纪二十年代形成,一种运动,表面是针对论文或考试不客观,,实际上,有更为深刻的原因:,自然科学的发展,个别差异的研究与统计学在教育上的运用,对特殊儿童的研究,美国的教育测验运动,美国的教育测验运动的发展可分为以,下三个时期:,1904,1915,年的开拓期,1915,1930,年的兴盛期,1930,1940,年教育测验运动的批判期,“,八年研究”与教育评价的诞生,为了解决高中课程及教学问题,美国,进步主义教育协会负责人艾钦于,1933,1940,年期间领导了一项长达八年之久的中学,课程改革运动,这就是美国教育史上著名的,“,八年研究,”,“,八年研究”与教育评价的诞生,为了评价其研究成果,组成了以泰勒,为领导的评价委员会。通过这场研究,泰,勒和他的同事正式提出了教育评价的概,念,,即教育评价就是衡量实际活动达到教,育目标的程度,测验是它的手段。,“,八年研究”与教育评价的诞生,同时,还提出了评价的原则和方法,,其基本思想是:,教育是改变人的行动方式的过程;,教育目标是各种行动方式的变化;,教育能够根据对该目标实际完成情况的分析进行评价;,“,八年研究”与教育评价的诞生,人的行动是复杂的,所以要从各方面进行评价,它不仅是分析的,而且也是综合的;,作为评价方法仅仅靠用纸和笔的测验是不充分的,应该采用包括观察行为在内的更为广泛的方法。,“,八年研究”与教育评价的诞生,表,1.1,新旧课程优劣之评价比较,1.2,计算机辅助评价的定义与分类,1.2.1,计算机辅助评价(,CAA,)的定义,1.2.2,计算机辅助评价(,CAA,)的分类,计算机辅助评价(,CAA,)的定义,计算机技术和教育测量与评价思想的融合促,进了计算机辅助评价(,Computer-Assisted,Assessment,,简写为,CAA,)的发展,引发了评价,内容、方法和形式的深刻变革。简单地说,凡是,借助于计算机程序、软件和设备进行的测试和评,价都属于计算机辅助评价的研究领域。,计算机辅助评价(,CAA,)的定义,计算机辅助评价是指在评价学习者的知识、技,能和能力的过程中引入计算机作为工具或手段,主,要表现在以下几方面:,在测试的过程中,传递材料、评分以及对测试结果进行分析;,比较并分析通过试卷搜集到的数据;,记录并分析学习者的成就水平,生成测评报告;,通过网络比较、分析和传送测评信息。,计算机辅助评价(,CAA,)的定义,就目前应用现状来看,,CAA,支持的评价类型主,要包括下面几种:,诊断性,目的是判断学习者对某个主题的预备知识的掌握程度。,自测,学习者检查自己对某个概念或术语的理解程度。,计算机辅助评价(,CAA,)的定义,形成性,目的是提供反馈来指导学习者的学习,这些反馈表明了学习者对某个主题的知识、技能理解和掌握的程度。在,CAA,中,形成性评价通常采取客观题的形式,在测评的过程中或者结束立即给出提示和反馈。,总结性,总结性评价能够给出量化分数,并对学习者在某个领域的成绩做出判断。总结性评价通常是正式的、有组织且有监考的评价形式。,计算机辅助评价(,CAA,)的分类,按传递测评内容的手段进行分类,可以分,为以下三类:,基于试卷的测评,基于计算机的测评,基于网络的在线测评,计算机辅助评价(,CAA,)的分类,按测评依据的理论模型进行分类,可以分,为以下两类:,经典测验理论,项目反应理论,计算机辅助评价(,CAA,)的分类,与经典测验理论相比,项目反应理论具有,以下两个优点:,题目参数估计更准确;,根据信息函数可从题库中抽取符合被试能力的题目进行测试。,计算机辅助评价(,CAA,)的分类,按照测评的题型进行分类,可以分为以下,三类:,客观题测评,操作题测评,主观题测评,计算机辅助评价(,CAA,)的分类,客观性测验具有以下一些优点:,测评是客观的,评价结果具有比较高的可信度;,可以快速地给出评价结果;,综合应用多种媒体(图像、视频、音频等),试题的表现形式丰富多样;,在测试的过程中或者测试结束后,可以自动地提供相关的反馈;,计算机辅助评价(,CAA,)的分类,可以从题库中随机地选择题目;,给学习者提供灵活的自测机会;,可自动阅卷,节省时间,尤其是对大批量学生能快速测评;,从试题的呈现、学生答题到阅卷都可以完全由计算机软件完成,实现无纸化考试。,1.3,计算机辅助评价的发展,1.3.1,从经典测验(,CTT,)到项目反应,理论(,IRT,),1.3.2,从常模参照测验到标准参照测验,1.3.3,从学业成就到能力素质测验,1.3.4,从终结性评价到形成性评价,从经典测验(,CTT,)到项目反应理论(,IRT,),经典测量理论、概化理论、项目反应理论是,当今主流。一般说来,现在自编量表的测量理论,基础都是这三大理论。经典测验理论对测验的分,析直观、具体、适用性广;概化理论对测验的宏,观分析能力强,适用于测验分析研究;项目反应,理论在控制测验编制质量上,原理科学、计量精,确,有广泛的发展前途。,从经典测验(,CTT,)到项目反应理论(,IRT,),经典测量理论(,Classical Test Theory,,简称,CTT,)形成于,19,世纪末,主要是以真实分数模型,为基础,借用普通物理测量的基本假设,采用的,计算公式简单明了、浅显易懂,能够对测试结果,做出合理的解释,并且可操作性强,便于在实际,测验情境(尤其是小规模资料)中实施,能满足,人们对将测验作为一种选拔工具的需要。,从经典测验(,CTT,)到项目反应理论(,IRT,),概化理论(,Generalizability Theory,简称,GT,)较之经典测量理论具有独特的优,势。它利用方差分析将各类误差进行分,解,可辨明多种误差来源,从而揭示了测,验变异的影响因素和大小。,从经典测验(,CTT,)到项目反应理论(,IRT,),项目反应理论,(Item ResponseTheory,,,简称,IRT),的发展是建立在潜在特质理论的,基础之上的,其主要内容就是揭示被试测,验上的反应行为与测验所测的被试潜在特,质之间的关系,这种关系的形象描写就是,项目特征曲线。,从常模参照测验到标准参照测验,尽管在,1913,年,桑代克就已经提出了标准,参照测验,但由于受重视个体差异文化的影响,,当时大多数的教育成就测验都是用来比较某个学,生与其他学生的成绩,直到,20,世纪后半叶,标准,参照测验得以快速发展。布卢姆的掌握学习理论,为标准参照测验的发展提供了原动力。,从学业成就到能力素质测验,1993,年 “少年儿童测验的应用,国际进步,之路”宗旨是促进全世界少年儿童的教育发展和,教育机会的改善,促进有效的、真正为教育实践,服务的评价政策的制定和推行,号召不发达国家,开发测验,开展评价,同时倡导发达国家改进传,统的评价做法,扩大评价的应用。,从终结性评价到形成性评价,终结性评价的目的并不是为了帮助参与方案,的个体学生,而是为了决定方案是成功还是失,败,是继续使用、修改还是放弃。形成性评价与,测验反馈和诊断性功能密不可分。当学生完成了,教学的每一个单元或阶段,测验成绩就能够反映,他们掌握知识的情况,并告知他们是否达到了课,程目标,以及他们在哪些方面需要加强。在教师,的帮助下,可以使用新的补习材料或方法来促进,学习。,1.4,第四代教育评价的兴起,1.4.1,第四代教育评价的内涵,1.4.2,第四代教育评价的主要方法,1.4.3,将评价融入学习环境设计,第四代教育评价的内涵,“,第四代教育评价,”,的教育评价理论,它是由印地安纳,大学教育学院教授枯巴(,Egong Cuba,)和维德比尔特大,学副教授林肯(,Yvonna Session Lincoln,)创立的。他们,于,1989,年合作出版了,第四代教育评价,一书,较为系,统地论述了他们关于教育评价的观点,依据各种评价出,现的先后时间顺序,将教育评价分为四代,并着重阐述,了他们所定义的第四代教育评价。他们把教育评价划分,为四个发展阶段,认为每一个阶段各有一种理论构建。,第四代教育评价的内涵,第一代教育评价被称为教育评价的,“,测量时代,”,,这一时代从,1900,到,1930,年。主要标志是测量理论的形成和测量技术手段的大量应用,以追求评价结果的数量化、客观化为主要目的。,第二代教育评价被称为教育评价的,“,描述时代,”,。这一时代从,1930,年到,1940,年。第二代教育评价的主要特征是对评价结果进行描述。,第三代教育评价被称为教育评价的,“,判断时代,”,,大约从,1950,年前后开始,到,60,年代初期。这一代教育评价的特点,是把前两代没有涉及到的,“,价值判断,”,引进了教育评价,并视之为教育评价的关键,评价者的任务不仅是要运用一定的测量手段搜集评价信息,而且还要制定判断价值的目标与评价标准,运用一定手段进行价值判断。,第四代教育评价的内涵,第四代教育评价的内容可以概括为以下,几个方面:,心理构建论。,价值协调论。,评价结果认同论。,应答性模式。,对学习资源与学习过程关注程度增大。,第四代教育评价的主要方法,档案袋评价,档案袋评价(,portfolio assessment,),是一种综合性的过程评价形式。随着当代,信息技术的广泛应用,出现了各种丰富多,彩的电子档案袋新形式,推动了档案袋评,价的迅速发展。,第四代教育评价的主要方法,学习契约,学习契约(,learning contract,)是学生,与教师共同设计的一种契约,契约中界定,了学生的学习目标、达成学习目标的方,法、学习活动进行的时间以及评定学习活,动的标准等。,第四代教育评价的主要方法,反思表评价,反思表(,reflective form,)是以问题或,评价条目组成的表单,可以通过预先设计,好的问题,使学习者了解到自己学习的完,成情况,有效地启发学习者的反思,从而,增强反思力和自主学习能力。,第四代教育评价的主要方法,表现评定,表现评定(,performance assessment,),就是通过学生所完成的综合性的、真实的,任务来对学生进行评定,要求学生运用他,们的知识和技能去完成综合的、有意义的,任务。,第四代教育评价的主要方法,动态评定,动态评定(,dynamic assessment,)有两层含,义,,“,一是跨越多个时间点观察评定学生的进步,与改变情形,了解学生动态认知历程与认知能力,变化的特点和潜能。二是评价者与被评价者之间,产生大量的互动,强调评价与教学结合,实施个,体化的诊断评价与教学补救。,”,一般我们运用更,多的是第二种含义的动态评定。,将评价融入学习环境的设计,第,2,章 教育测量与评价的基本原理,2.1,教育测量与评价的基本问题,2.1.1,教育测量及其数据类型,2.1.2,教育评价及其标准,2.1.3,教育评价的类型,2.1.4,我国两种基本的教育评价制度,教育测量及其数据类型,测量,:,就是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。,教育测量,:,是为了了解学生的发展,尤其是为了评定学习成绩而进行的测量活动,其结果提供了课堂教与学两方面的信息,是学校教育实践活动的客观需要。,教育测量及其数据类型,测量中根据四个不同的性质来定义测量量表,:,区分性,:,量表将不同的数值赋予能力水平不同的测量对象,顺序性,:,量表将大的数值赋予能力水平高的对象,将小数值赋予能力水平相对较低的测量对象,等间距,:,对象的能力水平差异相等时,赋予的数值的差异也相等,绝对零点,:,测量对象完全没有所测量的能力时,赋予其数值为零,教育测量及其数据类型,心理学家史蒂文斯(,S.Stevens,)根据测量的精确程度,将测量量表从低到高划分为,称名量表,、,顺序量表,、,等距量表,和,比率量表,。相应地,由这四种量表获得的数据又分别称为,称名量表数据,、,序量表数据,、,等距量表数据和比率量表数据,。,教育测量及其数据类型,称名量表和称名量表数据,称名量表(,nominal scale,)又叫分类量表,它是最低水平的测量量表。,称名量表数据通常是用来对某一测量的特征进行分类,即用数字作为确认的不同类型特征的代码。称名量表中数据没有任何量化的性质,只是代表不同的类型。用称名量表只能确定要测量的条件的特征。,教育测量及其数据类型,顺序量表和顺序量表数据,顺序量表(,ordinal scale,)是对具有顺序规律的测量特征的不同水平进行赋值的工具,获得的数据称为,顺序量表数据。,对顺序量表数据进行统计处理获得的是中数、百分位数、等级相关系数等。相应的假设检验包括秩次检验、秩次方差检验等。,教育测量及其数据类型,等距量表和等距量表数据,等距量表(,interval scale,)也是对测量特征的不同水平进行赋值,但与顺序量表不同的是,该测量特征的不同水平间的距离或间隔是相等的。,由等距量表获得的数据称为等距量表数据。等距量表数据除了具有顺序量表的特性,即具有区分性和顺序性外,还具有等距性。,教育测量及其数据类型,比率量表和比率量表数据,比率量表(,ratio scale,)是最高水平的测量量表。比率量表除了具有区分性、顺序性和等距性外,其最显著特征是具有绝对零点,即测量对象完全不具备测量的特征或能力时,量表赋予其数值为零。,由比率量表获得的数据称为比率量表数据。,教育评价及其标准,不同学者对教育评价的定义:,泰勒认为,,“,评价过程在本质上是确定课程和教学大纲在实现教育目标的程度的过程。,”“,是一种确定行为发生实际变化的程度的过程。,”,我国学者认为,,“,教育评价是按照一定社会和教育性质、教育方针和政策,所确立的教育目标、对所实施的各种教育活动的效果、完成教育任务的情况以及学生成绩和发展水平进行科学判定的过程。,”,教育评价及其标准,一般来说,教育评价应该包含一些基本内容:,运用多种方法系统收集资料与信息;,是一个依据教育目标进行价值判断的过程;,评价的内容是多方面的,强调为学生发展和教育决策服务。,教育评价及其标准,教育评价的标准,就是对教育质量与,效益的具体规定。教育评价标准要体现评,价的原则,并能用来衡量各项教育工作。,它是一定的教育价值观、质量观、效益观,的具体化或具体体现。,教育评价及其标准,教育评价标准体系由标准内容、标号和标度三个因素构成。,标准内容是指标准的强度和频率。,强度是指达到指标体系项目要求的程度或各种规范化行为的优劣程度,又称定性标准。,频率又称次数,是指达到指标体系项目要求的数量或各种规范化行为的相对次数,又称定量标准。,教育评价及其标准,标号是不同强度和频率的标记符号,通常用字母(如,A,、,B,、,C,)、文字(如甲、乙、丙)或数字(如,1,、,2,、,3,)来表示。它没有独立的意义,只表示一种分类。,标度是评价时测定的单位标准。它可以是定性的(如优、良、中、差),也可以是定量的(用数字表示各处档次)。,教育评价的类型,针对不同的评价目的,不同的评价内容或,从不同的角度,采取不同的划分方法,教,育评价可以划分为许多不同的类型:,按评价基准来划分,按评价的功能来划分,按评价对象的度量方式来划分,其它教育评价类型,教育评价的类型,按评价基准来划分:,相对评价,绝对评价,个体内差异评价,教育评价的类型,按评价的功能来划分:,诊断性评价,形成性评价,总结性评价,教育评价的类型,按评价对象的度量方式来划分:,定量评价:将评价对象进行数量化的分析和计算,从而判断出它的价值。,定性评价:将评价对象作概念、程度上的质的规定,然后进行分析评定,以说明评价对象的性质或程度。,教育评价的类型,其它教育评价类型:,静态评价与动态评价,分析评价与综合评价,软评价与硬评价,最佳行为评价和典型行为评价,我国两种基本的教育评价制度,原国家教委于,1990,年,11,月和,1991,年,4,月分,别发布了,普通高等学校教育评估暂行规,定,和,教育督导暂行规定,,确定了我,国两种基本的教育评价制度,提高了教育,管理水平。,教育督导制度,教育评估制度,2.2,教育评价对象的抽样技术,2.2.1,抽样的方法,2.2.2,样本数量的确定,所谓抽样技术,就是用总体中一部分样本的,特性作为代表去推断总体特性的方法。当评价信,息源数量较大时,运用抽样技术不仅能省时、省,物和省力,而且还能减少评价信息的误差,从而,提高评价信息的质量。,抽样的方法,简单随机抽样,两种方法:随机数表法、抽签法,分层抽样,两种方法:等比例分层抽样、分层最佳抽样,等距抽样,具体操作步聚是:(,1,)运用抽样间隔计算公式,确定抽样间隔;(,2,)确定起抽号数;(,3,)确定被抽取单位。,样本数量的确定,样本平均数的抽样分布,确定样本数量的基本方法,:,简单随机抽样,等距抽样,分层抽样数量的确定,2.3,教育评价指标体系的设计,2.3.1,指标体系的设计,2.3.2,指标体系权集的确定,2.3.3,聚类分析及其,SPSS,操作,2.3,教育评价指标体系的设计,指标是目标的具体化。从管理角度而,言,它是具体的、可测的、行为化或操作,化的目标;从评价角度而言,它是基本标,准某一方面的具体规定,是评价的直接依,据。,指标体系的设计,提出初拟指标体系:,(,1,)因素分解法,(,2,)头脑风暴法,(,3,)理论推演法,(,4,)典型研究法,指标体系的设计,筛选或修订指标,(,1,)经验法,(,2,)调查法,(,3,)模糊聚类法,指标体系权集的确定,权集就是权重集合的简称。所谓指标,的权重,就是指反映指标在指标体系中重,要性程度的数量。对每项评价指标分配权,重,确定其相对重要程度,是教育评价指,标设计中不可少的一项工作。,指标体系权集的确定,专家评定法,(,1,)编制权重征询表,将此表发给,m,个专家填写权重栏。,指标体系权集的确定,(,2,)算出每条指标,m,个专家所给权重的平均值,计算公式:,式中:,i=1,,,2,,,n,。表示第,j,位专家赋予第,i,个指标的权重值,,m,表示专家人数。,指标体系权集的确定,(,3,)作归一化处理,设:,=D,,则指标,zi,的权重为:,,(,i=1,,,2,,,n,)。,指标体系权集的确定,对偶比较法,为了确定各指标的权重,可对指标进,行逐对比较,并加以评分,重要者记为,1,分,次重要者记为,0,分;然后分别计算各指,标得分之和,再除以所有指标得分之总和。,指标体系权集的确定,层次分析法,这种方法是由美国学者萨蒂(,T,L,Saaty,),首先引入到教育评价领域以解决权重的确定问题,的。它通过两两比较,区分出各级指标反映评价,对象数量要求的相对重要程度,给出以数值表示,的判断,构成判断矩阵,然后经过运算确定同级,指标相对重要程度次序的权重。,聚类分析及其,SPSS,操作,聚类分析又称分类分析、群聚分析、集群分析,是将,所观测的事物或观测事物的指标进行分类的一种统计分,析方法。聚类分析的目的是辨认在某些特征上相似的事,物,并将这些事物按照这些特征划分为几个类,是现代,三大统计方法之一。使得同一类中的事物具有较高的同,质性,不同类中的事物具有较大的异质性。聚类分析法,与传统分类方法的主要区别在于,它是一种数值分类的,方法,分类准则不是事先决定的,而是按照自然类别将,空间中的点进行分类。,聚类分析及其,SPSS,操作,聚类分析的对象有两个方面,一个方,面是对样品聚类(称,Q,型聚类),另一个,方面是对指标进行聚类(称,R,型聚类)。,Q,型聚类分析:用于对所有的被评价对象划分等级,R,型聚类分析:将众多的指标按其间的相似性分类,以有助于我们确定评价指标。,2.4,教育评价资料的搜集与分析,2.4.1,教育评价资料搜集的方法,2.4.2,教育评价资料分析的方法,教育评价资料搜集的方法,测验法:通过编制一定的试题或设置某种情景,向测验对象获取资料的方法。测验法按试题的形式来分,一般又分为论文式测验、客观性测验、投射测验和情景测验。,问卷法:评价者根据评价指标的要求,提出一些问题,拟好题目和表格,以问卷的形式进行调查,通过调查对象做题来收集评价信息,它适用于对某些问题进行大面积调查。,教育评价资料搜集的方法,根据回答问卷的方式,问卷可分为结,构式和非结构式两种:,结构式主要分为三种:,(,1,)选择式(,2,)量表式(,3,)排列式,非结构式主要两种:,(,1,)填空式(,2,)自由回答式,教育评价资料搜集的方法,观察法:指评价者在一定时间内,对评价对象在自然状态下的特定行为表现进行观察、记录、分析,而获得第一手事实材料。观察法一般分为自然观察和实验观察法。,访谈法:评价者通过与评价对象的知情者面对面谈话,直接收集资料的一种方法。根据被访谈的人数不同,访谈法一般可分为个别访谈和集体访谈(座谈会)两种。,教育评价资料搜集的方法,文献研究法:评价者通过查阅有关评价对象的文献,以获取评价资料的方法。这种方法在教育评价实践中使用得最普遍,也最为有效。与其他搜集信息方法不同的是,文献研究法使调查者与被调查者在时空上完全隔离开来,不会产生相互作用,因而是一种相对隐蔽的搜集信息的方法。,教育评价资料搜集的方法,文献研究的具体步骤有:,(,1,)分类:文献研究的基本作法是编录,即根,据文献呈现出来的内容按特定的概念框架对文献,作分类记录。,(,2,)抽样:评价者从各个历史时期、各种类型,文献中,选取具有代表性、典型性的文献进行分,析研究。,(,3,)进行分析研究:根据文献资料的性质和评,价的要求进行内容分析或统计数据分析,教育评价资料分析的方法,统计分析法:通过数学的方法去分析和比较教育评价资料。它通常用于对测量资料的分析。,模糊综合评价法:模糊综合评价法是把模糊数学应用于教育评价而形成的一种方法。,第,3,章 教育测量与评价的质量分析,3.1,信度,3.1.1,同质性信度,3.1.2,分半信度,3.1.3,再测信度,3.1.4,评分者的信度,3.1,信度,测验的信度是指测验结果的可靠性或可靠程度。所谓,可靠性是指对同一组对象进行两次相同测量所得结果的一致,性和稳定性程度。常用的信度估计方法有:,计算测验内部各项目的得分的一致性,得到同质性信度;,用同一测验对同一组被试,前后测验两次,据两次测验分数计算其相关系数,得到再测信度;,当一种测验只能施行一次且没有复本时,可按测验题目的奇偶数分两半计分,求相关系数,经校正得到分半信度。,同质性信度,同质性信度也称为内部一致性信度,,是指测验内部所有项目的一致性。常用的,估计方法有克伦巴赫系数等。,同质性信度,对于信度系数,应该注意以下要点:,(,1,),Cronbach,的信度系数衡量的是测量某一心理结构的一组试题测量结果的可靠程度。,(,2,)理论上说,,Cronbach,的信度系数取值范围在,0,到,1,之间,但实际上,95%,的测量的系数在,0.50,到,0.90,之间。根据,Nunnally,(,1967,),信度系数的不同范围,反映出测量量表的不同问题。,同质性信度,信度系数的解释(,Nunnally,,,1967,),同质性信度,(,3,),Cronbach,的信度系数可以表示成试卷的试题数与试题间平均相关系数的函数,即信度系数的标准化形式:,由公式可见,试题数增加,信度系数增加。若试题间相关系数的平均值低,信度系数就比较低;反之,信度系数就比较高。,同质性信度,(,4,)如果信度系数高,说明试题间的相关系数,平均值比较高,考生在某道试题上得高分,在另,一道试题上得高分的概率就比较高,这可能说明,这些试题测量的是单一的心理结构。,(,5,)如果信度系数较低,说明试题间相关系数,平均值较低,这暗示数据可能存在多维结构。在,这种情况下,需要进行因子分析,确定数据维,度。然后,对同一维度的试题计算信度系数。,同质性信度,(,6,),Cronbach,在,2004,年已经提出,不应再将信度系数看作是考试结果信度的主要衡量指标,应该用标准测量误差来衡量考试结果的信度。标准测量误差与信度系数以及考试的标准偏差相关:,分半信度,分半信度是在测试以后对测试项目按,奇项、偶项或其他标准分成两半,分别记,分,由两半分数之间的相关系数得到信度,系数。,分半信度,由于分半,所求得的相关系数只是半,个测验的信度,可能会高估原测验的信度,,因此需要根据斯皮尔曼,布朗公式校正:,其中:为两半测验分数的相关系数。,再测信度,同一个测验项目,对同一组人员进行,前后两次测试,两次测试所得分数的相关,系数即为再测信度。它反映两次测验结果,有无变动,也就是测验分数的稳定程度,,故又称为稳定性系数。,再测信度,再测信度的计算必须满足以下几个假设:,(,1,)所测量的特质必须是稳定的;,(,2,)遗忘和练习的效果相同;,(,3,)两次测试期间被试对问题的熟悉情况没有差别。,评分者的信度,当测验是论文式试题时,不同评分者,对同一试卷的评分结果不相同,有时差异,很大。这时不宜用系数计算其信度,必须,对评分者评分的一致性进行估计,因为此,时误差主要来自评分者的差异。,评分者的信度,若只有两人参加评,N,份试卷,可用斯,尔曼等级相关方法计算;若三个以上评分,者评,N,分试卷,则需采用肯德尔(,Kendall,),和谐系数来表示信度:,式中,K,为评分者人数,,N,为评分的试卷数,为第,i,个被评价对象的,K,个等级之和。,3.2,效度,3.2.1,内容效度,3.2.2,结构效度,3.2.3,因素分析的,SPSS,操作,3.2.4,验证性因素分析的应用例举,3.2.5,效标关联效度,3.2.6,效度与信度的关系,3.2,效度,效度是指一个测验或量表实际能测出其所要测量的特性的程度。测验或量表就是测量使用的工具。如果一次测量能测出其所要测的特性,那么我们就认为这个测验或量表是有效的。显然,效度是测量质量的一个极其重要的方面,测量工具如果无效或效度太低,就失去了存在的价值。,内容效度,内容效度:测验题目样本对于应测内容与行,为领域的代表性程度。,一个测验具备良好的内容效度应满足两个条件:,测验内容范围要明确。对学业成绩测验来说,就是试题要符合教材内容和教学大纲,试题不应该超出确定的范围。,试题应是已界定的内容范围的代表性样本,它应该覆盖所测内容的主要方面,并使各部分题目所占比例适当。,结构效度,所谓结构,是指心理学或社会学上的,一种理论构想或特质。它本身观察不到,,并且也无法直接测量到,但学术理论假设,它是存在的,以便能够来解释和预测个人,或团体的行为表现。结构效度就是指测验,成绩所能够解释心理学或社会学理论上的,某种结构或特质的程度。,因素分析的,SPSS,操作,SPSS for Windows,使用,Factor,过程进行因子分析,,其基本步骤为:,(,1,)计算相关矩阵,判断是否需要进行因子分析,并采,用,KMO,检验及球形检验来判断原始变量是否适合于因子,分析。,(,2,)进行因子分析,按一定标准确定提取的因子数目。,(,3,)考察因子的可解释性,并在必要时进行因子旋转,,以寻求最佳解释方式。,(,4,)计算并保存因子得分,以便进一步分析使用。,验证性因素分析的应用例举,验证性因素分析属于结构方程模型,(,structural equation modeling,;简称,SEM,)的,一种次模型,为,SEM,分析的一种特殊应用。由于,SEM,的模型界定能够处理潜在变量的估计与分,析,具有高度的理论先验性,因而若是研究者对,于潜在变量的内容与属性,能提出适当的测量变,量以组成测量模型,借由,SEM,的分析程序,便可,以对潜在变量的结构或影响关系进行有效的分析。,效标关联效度,效标关联效度是指测验分数与作为效,标的另一独立测验结果之间的一致性程度。,一般是用本测验分数与效标测验结果之间,的相关系数表示。,效标是用来检测效度的参照标准,可,用来作效标的变量很多。,效标关联效度,效标关联效度可以分为两种,:,同时效度,:,一种测验的结果与另一大约同,时获得的测验结果(效标)之间的一致程,度,并用两测验结果的相关系数来估算。,预测效度,:,某一测验结果与另一将来获得 的测验结果之间的相关程度。,效标关联效度,从效度估计的方法上来看,效标关联效度,可以用三种方法进行估计,:,命中率,显著差异法,相关法,效度与信度的关系,效度是测量准确性的量度,信度是测量结,果一致性或稳定性的量度,准确性与一致性的关,系,亦即效度与信度的关系。若一测验的信度,低,则其效度也不会高;而测验的信度高时,却,不一定保证效度高。但是,具有高效度的测验都,必定有足够高信度。所以,高信度是高效度测验,的一个必要条件而非充分条件。,3.3,难度,3.3.1,难度系数的计算办法,3.3.2,难度的转换,3.3.3,难度对测验的影响,3.3,难度,难度是衡量试题与试卷难易程度的,指标,而且是相对于被试的该批考生而,言的。定量刻画被试作答一个题目所遇,到的困难程度的量数,就叫题目的难度,系,或称难度值,用符号,P,表示。,难度系数的计算办法,客观试题的难度计算,:,(,1,)对于采用二分法记分的题目,难度以,通过率来表示:,(,3-7,),难度系数的计算办法,(,2,)当被试人数很多时,,可以将被试依照,总分从高到低排列,然后将总分最高的,27%,和最低的,27%,的被试分别定为高分组,和低分组,运用公式(,3-7,)分别计算两组,的通过率,然后用下式计算该题难度:,(,3-10,),难度系数的计算办法,2,主观性试题的难度计算,(,1,)设为被试在某一试题上的平均分,,W,为该题的满分,则,上式适用于论题题、问答题和计算题等非二分法记分的题目。,(,3-11,),难度系数的计算办法,(,2,)当被试人数很多时,主观性试题可采用下式计算难度:,(,3-12,),难度系数的计算办法,3,难度的测前估算,在未测试前就估算难度,需要了解影响试题,难度的一般因素:,熟悉程度,信息数量,题目结构,变化动态,难度的转换,人们常假设每个试题所要测量的潜在特质或,能力是呈正态分布的,然后就可以根据正态分布,曲线,将试题的难度指数,P,作为正态曲线下的,(概率)面积,转换成具有相等单位的等距量,表,即,Z,分数(标准分数)。由于标准分数具有,相等单位,属于等距量表。所以,用标准分数作,为题目难度的指标,为进一步作难度分析带来了,一些方便。,难度对测验的影响,难度对测验分数分布的影响,难度对测验信度的影响,难度与测验目的的关系,3.4,区分度,3.4.1,区分度的意义,3.4.2,区分度的计算,3.4.3,区分度对测验的影响,区分度的意义,题目区分度就是题目区别被试水平能,力的量度,常记为,D,。测验多少都带有将,被试的水平加以区分的意图,那么构成测,验的每一个题目就应该为这一目标作贡,献,区分度就是刻画试题的这种功能的质,量指标。,区分度的意义,区分度的分析方法,大约可以归纳成,两类:一为外在效标法,即分析被试在测,验题目上的得分与外在客观标准上的表现,之间的关系。另一为内部一致性法,即分,析被试在测验题上的得分与在整个测验总,分之间的一致性程度。,区分度的意义,区分度的取值范围在,-1.00,至,1.00,之,间。通常,D,为正值,称作积极区分;,D,为负,值,称作消极区分;,D,为,0,,称作无区分作,用。具有积极区分作用的项目,其,D,值越,大,区分的效果越好。,区分度的计算,高低分组法,相关法,区分度对测验的影响,区分度与难度的关系,区分度对测验的影响,区分度与信度的关系,一个良好的测验,信度必须要高。艾贝尔,(,R.L.Ebel,)的研究表明,整个测验中各试题的,区分度,D,值的平均数越高,测验的信度就越高。,信度是随区分度的提高而增长的,且信度增长的,速度比区分度增长还快。所以,要想使得测验信,度达到理想的值,提高各试题区分度是一个好的,途径。,第,4,章 测验分数等值及其常模量表的建立,4.1,测验分数等值及其常模,4.1.1,测验等值的含义,4.1.2,测验分数等值的方法,4.1.3,常模,测验等值的含义,测验等值是指对测量同一心理特质的,不同测验的分数或试题参数,通过一定的,数学方法,转换成同一单位系统中的量,数,以利于相互比较的方法。测验等值包,括分数等值和项目参数等值两类。,测验等值的含义,测验等值转换一般以两种形式出现:,水平等值:若两个测验的难度水平相当,考生能力分布类似时,即时说,它是同一测验的不同形式,称为测验的水平等值。如高考时的正卷与副卷,其副卷是为正卷在某种意外不能使用的情况下备用的,它们两者的等值是水平等值。,垂直等值:当测验程度水平不同,考生的能力分布也不同时,这一类等值称为垂直等值。,测验分数等值的方法,线性等值:两个平行且信度相等的测验分数,X,和,Y,,假若它们各自导出的标准分数相等,就可以认为是等值分数,因此,有:,X,和,Y,是两测验的原始分数;、和、分别,是两个测验上的原始分数的平均数与标准差。,测验分数等值的方法,百分位等值:两个平行且信度相等的测验分数,X,和,Y,,如果它们在各自的考生组中的百分位数级相等,就可以认为是等值。随机地划分两组考生,A,和,B,,分别计算它们的累积频率、相对累积频率,则在,A,和,B,两个组中同一百分位等级所对应的原始分数,就是等值分数。,测验分数等值的方法,铆等值:实际工作中,常采用设置一批共同试题的方法,求取两个测验间的等值转换关系,两个测验所共用的部分试题称为铆题。铆题的数量应为全卷的,1/5,,铆题在试卷中可以分散、也可以集中,或者作为一个独立的测验来施测。,常模,常模的定义:在教育测量中,测验的,常模,简称常模。它是指一个有代表性的,样组在某种测验上的表现情况,或者说,,是一个与被试同类的团体在相同测验上得,分的分布状况与结构模式。,常模,常模资料的获取:,通过抽样获取一个有代表性的常模团体。,进行统计学描述。,将原始分数转换为导出分数。,4.2,百分等级常模的建立,4.2.1,百分等级常模的意义,4.2.2,百分等级常模的建立方法,百分等级常模的意义,百分等级是一个地位量数,能够反映,某个测验分数在一组数据中的相对地位。,在学生测验中,它把学生的原始分数放在,该学生所在群体(比如四年级)的成绩中,进行比较,以确定该学生在群体中的相对,地位之高低。,百分等级常模的建立方法,用原始分数直接计算其百分等级,用频数分布表编制百分等级量表:分为编制频数分布表和建立百分等级与原始分数的等值对照表两大步骤。,4.3,标准分数常模的建立,4.3.1,标准分数的定义,4.3.2,标准分数常模的建立方法,标准分数- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机辅助 教育 测量 评价 课件 全套 电子 讲义 全书 教学 教程
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文