可解释自动批阅模型构建与应用.pdf
《可解释自动批阅模型构建与应用.pdf》由会员分享,可在线阅读,更多相关《可解释自动批阅模型构建与应用.pdf(8页珍藏版)》请在咨信网上搜索。
1、第2 9 卷第5期2023年10 月开放教育研究OpenEducation ResearchVol.29,No.5Oct.2023可解释自动批阅模型构建与应用卢宇12 章志1马安瑶1厂陈鹏鹤1.2(1.北京师范大学教育学部教育技术学院,北京10 0 8 7 5;2.北京师范大学未来教育高精尖创新中心,北京10 2 2 0 6)摘要自动批阅是数字化教学平台与智能化教育评价的重要实现形式和基本功能。基于深度学习的自动批阅模型逐步成熟但其内部结构复杂且决策过程不透明,导致用户难以信任其批阅结果并影响大规模部署。本研究提出了可解释自动批阅模型的基本框架,包含自动批阅基础模块、自动批阅解释模块与自动批阅
2、交互模块。在此基础上,本研究构建了可解释自动批阅模型的实例并嵌入智能导学系统开展准实验研究。实验结果表明,嵌入可解释自动批阅模型的智能导学系统,有效提升了学习者对自动批阅功能和系统整体的信任度,也有助于提高技术接受度,交互模块的解释性信息也不会增加学习者的认知负荷。最后,本研究提出了可解释人工智能在教育领域开展自动批阅的研究建议和展望。【关键词自动批阅;深度神经网络;可解释人工智能;人机交互;智能导学系统中图分类号G434一、引言自动批阅旨在实现对学习者开放性或半开放性作答的自动评分,是构建数字化教学平台与智能化教育评价的重要实现形式和基本功能(祝智庭等,2022)。然而,基于深度学习的自动批
3、阅模型决策过程复杂,可能产生不易察觉且不可预测的错误输出。即使模型可以输出正确批阅结果,其决策过程宛如黑箱(卢宇等,2 0 2 2),无法针对批阅结果提供明确评分依据。自动批阅模型的决策复杂性和决策依据缺失,会导致教师和学习者等教育用户难以信任批阅结果,从而影响其在日常教学和高利害考收稿日期 2 0 2 3-0 9-0 3基金项目】北京市教育科学“十四五”规划2 0 2 1年度重点课题“人工智能驱动的新一代智能导学系统构建研究”(CHAA21036)。作者简介卢宇,副教授,博士生导师,北京师范大学教育学部,北京师范大学未来教育高精尖创新中心,研究方向:人工智能及其教育应用();章志,硕士研究生
4、,北京师范大学教育学部教育技术学院,研究方向:可解释人工智能教育应用;马安瑶,硕士研究生,北京师范大学教育学部教育技术学院,研究方向:学习者建模及其教育应用;陈鹏鹤,讲师,北京师范大学教育学部,北京师范大学未来教育高精尖创新中心,研究方向:教育知识图谱、自然语言处理及其教育应用()。引用信息】卢宇,章志,马安瑶,陈鹏鹤(2 0 2 3).可解释自动批阅模型构建与应用 J.开放教育研究,2 9(5):9 8-10 5.98文献标识码 A修回日期 2 0 2 3-0 9-0 5DOI编码 10.139 6 6/ki.kfjyj.2023.05.010文章编号10 0 7-2 17 9(2 0 2
5、3)0 5-0 0 9 8-0 8试中的大规模部署和应用。对复杂人工智能模型的运行过程与输出结果进行适当与合理的阐释,是当前人工智能领域的重要研究方向,也被称为可解释人工智能(Expl-ainable Artificial Intelligence,xAI)。可解释人工智能(Arrietaetal.,2 0 2 0)旨在设计和应用技术方法和手段,直接或间接地解释复杂人工智能模型的决策过程和结果,帮助用户理解模型和系统,从而建立人机间的信任关系,推动相关人工智能应用的规模化普及。例如,可解释人工智能可以揭示复杂人工智能模型,向用户说明系统隐性的决策规则与底层机制,或者告知用户对当前模型的决策结构
6、起到主卢宇,章志,马安瑶,陈鹏鹤.可解释自动批阅模型构建与应用导或重要作用的输人特征等解释性信息。可解释人工智能已在金融、交通、医疗等诸多垂直领域有较为广泛的应用,但在教育领域的研究和应用尚处于起步阶段(刘桐等,2 0 2 2)。二、文献综述(一)自动批阅模型从技术维度划分,自动批阅模型可简单分为基于规则、基于传统自然语言处理与基于深度学习三类。基于规则的自动批阅模型主要基于概念图、学科知识等,通过专家构建规则库,分析用户答案的组成、语法等进行评分批阅。该类模型的规则通常评分依据明确,可解释性好。但此类模型的准确度通常不高,难以处理复杂多变的学习者作答,且学习者可以通过使用大量关键短语、复杂句
7、型等欺骗模型获取高分(袁莉等,2 0 2 1)。基于传统自然语言处理的自动批阅模型,可以基于预先定义的自然语言文本特征,在高维向量空间计算用户答案与参考答案的文本相似度,进而构建简单的分类或回归模型,实现对用户答案的自动批阅(谭红叶等,2 0 19)。此类模型的准确性高,但难以直观解释并提供自动批阅依据。基于深度学习的自动批阅模型,是当前学术界和工业界研究和部署的热点和主要方向(Ramesh&Sanampudi,2022)。此类模型利用深度神经网络及海量训练数据,挖掘学习者作答中的深层语义信息,实现个性化精准评分与反馈。此类模型常利用监督式或自监督式机器学习算法,内部参数量大且计算过程抽象复杂
8、,无论是专业人员和教育用户都难以理解和信任。典型模型有基于长短期记忆神经网络与卷积神经网络的EMD模型(Kumar et al,2017)、基于注意力机制的Att-Grader模型(谭红叶等,2 0 2 2)等。因此,如何针对解释性较差或无法解释的自动批阅模型,构建更加科学合理的自动批阅模型,使其所支撑的系统服务功能对于用户可解释且可信任,是呕待解决的重要问题,(二)可解释人工智能在可解释人工智能领域,人工智能模型可简单分为白盒模型和黑盒模型(曾春艳等,2 0 2 1)。白盒模型指该模型内部结构直观清晰,决策逻辑易于理解,如线性回归与决策树等。黑盒模型的内部结构OER.2023,29(5)和决
9、策过程较为复杂,以涵盖循环神经网络、卷积神经网络、图神经网络等深度学习模型为代表,需要利用可解释人工智能技术加以阐释。可解释人工智能技术分全局解释方法与局部解释方法(Arrietaetal,2020):全局解释方法通过设计算法揭示模型的运行机制与决策逻辑等全局性关键信息。例如,给定数据样本集合D与深度学习模型M,解释模块可以构建一个在性能表现上逼近M的可解释全局模型mg,然后通过mg的解释逻辑形成对M的全局解释。常见的全局解释方法包括知识提取(Adadi&Berrada,2 0 18)与激活最大化(Erhan et al.,2009)等。局部近似方法不直接解释模型本身,更多聚焦实例个体,揭示模
10、型对个体输入作出决策的依据(Lundberg&Lee,2017)。具体而言,针对深度学习模型M及其多维向量输入x,局部解释方法通过计算x的不同维度对M输出结果的影响程度,解析深度学习决策结果的主要依据,形成对个体实例输人的科学解释。常见的解释方法有局部近似、反向传播和特征反演等(Guidottietal.,2 0 18)。反向传播方法借助深度神经网络的反向传播机制,将模型的决策信息逐层向输人方向传播,得到每个模型输人的关联值,从而计算哪些输入特征对模型决策产生了重要影响(Simonyanetal.,2013)。特征反演法利用给定模型某一层的激活,尝试找到一个输入,使其通过模型时产生相同或相似的
11、激活,从而形成对模型决策过程的解释(Duetal.,2 0 18)。局部解释方法的适用性通常更加广泛。综上,本研究的核心是:如何选取适当方法,构建与合理解释教育领域的自动批阅模型,三、可解释自动批阅模型构建针对日趋复杂的自动批阅模型难以解释和取得用户信任问题,本研究提出可解释自动批阅模型(见图1)。该模型包括自动批阅基础模块、自动批阅解释模块和自动批阅交互模块三个部分。(一)自动批阅基础模块自动批阅基础模块的核心是基于深度学习的自动批阅模型,通常由卷积神经网络(CNN)、循环神经网络(RNN)、变换器(transformer)等结构单元构建。具体而言,基础模块构建包含设计、训练与99卢宇,章志
12、,马安瑶,陈鹏鹤.可解释自动批阅模型构建与应用评价三个阶段。1)设计阶段:确定自动批阅的目标和需求,例如,面向语文学科的简答题文本类作答或面向信息技术学科的编程类作答等,然后对学生作答数据进行预处理,并合理选择结构单元与模型架构。2)训练阶段:基于大规模学生作答与学科专业知识,使用相关框架和库(如TensorFlow与PyTorch等)开发模型,并利用优化算法训练模型。3)评价阶段:基于准确率、召回率等指标,并结合学科专家经验,评价和验证自动批阅基础模型。(二)自动批阅解释模块自动批阅解释模块是整个模型的关键,旨在利用不同的可解释人工智能方法,解释基础模块的自动批阅过程和结果,增强基础模型的透
13、明度,提升学习者、教师和家长等用户的理解与信任度。解释模块的输入数据主要源于基础模块,包含基础模块的批阅结果信息,还包括深度学习模型的内部结构、权重参数及其输入数据信息。在此基础上,解释模块选取不同的方法,多维度解释基础模块。一OER.2023,29(5)方面,它可以解释每一批阅结果的判定依据,说明依据何种信息给出学习者的分数和反馈;另一方面,它可以解释批阅过程的决策逻辑,解释批阅模型输出结果的过程中进行了怎样的判断。无论解释信息是什么,本模块都需要将其输出到自动批阅交互模块,与批阅结果融合并反馈给用户。(三)自动批阅交互模块自动批阅交互模块旨在通过科学合理的方式,将自动批阅结果及其解释信息展
14、示给用户,提升其对批阅结果的理解与信任。交互模块的设计需要符合自适应性、准确性、完整性及可理解性的用户接口设计原则(Rai,2020),也需要考虑教育用户的特殊性和认知特点。自动批阅交互模块包含可理解的结果显示、可解释的批阅反馈、可信任的交互机制三部分。可理解的结果显示旨在利用文本、图片甚至虚拟代理等形式向用户显示批阅结果,尤其是相对负面的批阅结果,需尽量采用轻松活泼的可视化形式,还可以提供各级批阅结果的案例、参用户学生教师家长交互自动批阅交互模块可理解的结果显示文字、图像、音频等形式得分案例可解释自动批阅模型可解释的批阅反馈批阅流程(高亮显示得分依据)得分解析可信任的交互机制)申诉机制定制评
15、分标准批阅结果自动批阅基础模块基于深度学习的自动批阅模型基于卷积神经网络(CNN)基于循环神经网络(RNN)基于变换器模型(Transformer)解释性信息自动批阅解释模块全局解释方法局部解释方法批阅模型及其输入输出规则提取激活最大化模型蒸馏局部近似反向传播特征反演图1可解释自动批阅模型基本框架:100卢宇,章志,马安瑶,陈鹏鹤.可解释自动批阅模型构建与应用考答案和评分标准等辅助信息。可解释的批阅反馈旨在充分利用解释模块提供的信息,为用户呈现客观的解释性批阅反馈。系统可以对用户答案的各组成部分,分别进行反馈并提供细颗粒度得分,描述评分逻辑与得分依据。重要的解释性信息,可以通过颜色、字体等设置
16、突出显示。可信任的交互机制提供申诉机制、评分标准定制等。申诉机制允许用户询问存疑的评分结果,系统可以再次验证或转为人工批阅。评分标准定制允许教师或家长自定义题目得分点及分数权重,使系统更加灵活且满足特定需求。此外,系统还可以增加样本批阅演示、评分方法详解等功能,提高用户信任度和使用体验。四、可解释自动批阅模型实现可解释自动批阅模型可以用多种形式实现,下文以具体案例说明。(一)基础模块实现基础模块采用基于注意力机制的深度学习模型Att-Grader(谭红叶等,2 0 19)。该模型的输人包括参考答案和用户答案,输出为用户答案不同得分的概率值。模型主要由编码层、注意力层、输出层构成。编码层先对用户
17、答案与参考答案进行切分,并通过双向长短期记忆网络对两者分别编码,得到包含上下文信息的用户答案向量Us与参考答案向量U。注意力层利用双向注意力机制计算两者的相似度矩阵及注意力向量与下。输出层将两个注意力向量进行组合得到拼接矩阵A,并利用卷积神经网络用户答案与参考答案的相似匹配程度,计算用户答案的最终得分概率。经过在语文、数学等学科数据集的验证,该基础模块的自动批阅准确率以及与教师批阅的一致率表现良好。(二)解释模块实现基础模块基于较为复杂的深度学习模型,解释模块可以选择局部解释方法的LIME(Local Inter-pretable Model-agnostic Explanations)方法。
18、LIME方法的核心思想是构建可解释的简单模型来近似复杂模型的局部边界,并基于该简单模型得到原复杂模型输入与输出的关联值,从而解释原复杂模型的决策(Ribeiro etal.,2016)。L I M E模型的优势之一是其与被解释模型的结构无关,适用性较广。OER.2023,29(5)具体来说,给定实例x与复杂模型f,LIME方法对复杂模型f关于实例x决策的解释可表示为:(x)=argmingeGL(f,g,元x)+2(g)(1)其中,G代表简单模型的集合,g代表某个简单模型,元,定义实例x的邻域的大小,2(g)代表简单模型g的复杂度。简单模型g和复杂模型f的预测差距通过函数L测量。函数L如公式(
19、2)所示:L(f,g,元(2)=Z元(2)(f(2)-g(2)2(2)2.2ez其中,z为扰动实例x所生成的实例,z为实例z中非零特征的一部分,Z代表扰动生成的数据集,元(z)代表实例x与扰动实例z的相似度。在计算f(z)时,z中的特征会映射到其原本在实例x中的特征值。换言之,LIME方法利用新生成的数据集Z以及复杂模型给出的预测结果f(z),对简单模型g展开训练,直至找到与复杂模型f的局部预测差距最小的简单模型g;然后基于简单模型g的权重参数组件,得到实例x各个特征与模型输出f(x)的关联值,从而得到对模型决策的解释性信息。具体而言,假设某数学主观题的参考答案为“两点之间线段最短;且点到直线
20、的距离,垂线段最短”,满分为2 分。学生A的作答为“小丽的依据是两点之间线段最短”,且自动批阅基础模块Att-Grader给出学生A的自动批阅分数为1分。针对该自动批阅结果,LIME方法可以通过六个基本步骤生成解释性信息(见图2)。1)步骤一:依据学生A作答的“小丽的依据是两点之间线段最短”答案,生成扰动数据集Z,通过余弦相似度计算得到扰动数据集中所有实例与学生A作答的相似度,从而得到扰动实例的相似度元(2)。2)步骤二:将扰动数据集Z的所有实例输入Att-Grader模型,得到每个实例的预测值f(z)。3)步骤三:基于扰动数据集Z以及Att-Grader模型的预测值f(z),训练得到简单模型
21、g。4)步骤四:将扰动数据集Z的所有实例输入简单模型g,得到简单模型的预测值g(z)。5)步骤五:基于扰动实例与用户答案x的相似度元x(z)、A t t-G r a d e r 模型预测值f(z)、简单模型预测值g(z),计算出简单模型g与Att-Grader模型的局部预测差距L。:101卢宇,章志,马安瑶,陈鹏鹤.可解释自动批阅模型构建与应用待解释用户答案小丽的依据是两点之间线段最短。生成扰动数据集乙扰动实例相似度元(Z)依据是线段的最短。0.451小丽是两点之间线段的依据OER.2023,29(5)扰动数据集Att-Grader预测值f(z)依据是线段的最短。0.357自小丽是两点之间线段
22、的依据Att-Gender模型0.7120.453扰动数据集Z扰动数据集乙简单模型预测值g()依据是线段的最短。0.325丽是两点之间线段的简单模型:Att-Grader预测值f(2)依据是线段的最短。0.357小丽是两点之间线段的依据0.4530.4233训练简单模型g简单模型g扰动实例相似度元(Z)0.4510.7125L(f,g,元,(2)-Z 元(2)(f(2)-g(z)26)步骤六:循环执行步骤三至五,保留与模型f的局部预测差距最小的简单模型g;基于简单模型g的权重参数,得到学生A作答中各个单词与模型评分f(x)的关联值。通过以上六个基本步骤,研究者可以得到学生A作答的各个单词与模型
23、预测评分的关联值,且可以发现“两点”“之间”“线段”“最短”的关联值较大。因此,当前自动批阅得分的依据是答案中有“两点之间线段最短”这一关键信息。(三)交互模块实现基础模块的自动批阅结果与解释模块的解释性信息,经过与参考答案进行对比和可视化设计,可以共同在交互模块中进行呈现,实现对自动批阅结果的用户端解释。交互模块由批阅流程、得分解析、题目解析三部分构成。其中,批阅流程呈现评分的具体过程,得分解析呈现自动批阅结果的依据,题目解析呈现题目的参考答案。批阅流程与得分解析的部分截图见图3。在批阅流程部分,针对学生A的作答,交互模块会自动计算其答案中所有单词关联值绝对值的平均值,并将大于平均值的单词作
24、为得分判断依据进行高亮显示。在得分解 102Att-Grader 预测值f(2)0.3570.453计算预测差距LZ,2E2图2 LIME方法解释Att-Grader模型预测得分步骤失哪些得分点等。通过该交互模块,学习者可以了解自己答案中哪些部分得到分数且对最终得分的影响较大,从而理解自动批阅功能的评分结果。此外,如果发现有不合理的内容,交互模块也为学习者提供了申诉和人工批阅途径。五、可解释自动批阅模型应用成效(一)实验设计与实施本研究采用准实验研究方法,将所设计和实现的可解释自动批阅模型嵌人智能导学系统,作为实验组系统。原有智能导学系统具有相同的自动批阅功能,但不具备解释模块及相应的交互能力
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可解释 自动 批阅 模型 构建 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。