大语言模型在学科知识图谱自动化构建上的应用.pdf
《大语言模型在学科知识图谱自动化构建上的应用.pdf》由会员分享,可在线阅读,更多相关《大语言模型在学科知识图谱自动化构建上的应用.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月北京邮电大学学报(社会科学版)()收稿日期:项目基金:北京邮电大学 年教育教学改革项目()北京市高等教育本科生教学改革与创新项目作者简介:唐晓晟()男 河南开封 博士 副教授:./.大语言模型在学科知识图谱自动化构建上的应用唐晓晟 程琳雅 张春红 朱新宁(北京邮电大学 信息与通信工程学院 北京)摘 要:人工智能技术的飞速发展推动了教育领域的智能化 涌现出一些利用知识图谱技术进行学科知识体系构建的研究 利用知识图谱构建的知识体系 可以建模知识点之间的关联性 形成课程知识脉络 有助于学习者对知识点的记忆与深层次理解 然而 学科课程的教学资源多样且分散 现有的自动构建方法往往使用
2、单一的数据资源 资源利用率低 难以对专业知识体系的构建提供有效指导 构建方法自动化程度较低 构建成本大 需要开发不同的模块对非结构化文本进行处理并生成图谱 可复现性和可移植性较差 因此 提出了一种基于大语言模型的学科知识图谱构建优化流程 高度融合大语言模型的优势和各学科知识的逻辑关联 具体以通信专业为例 借用 大语言模型的强大功能 使用多种知识来源 通过学科知识分析设计知识系统本体 自动化提取基于教学资源的知识实体和知识关系形成最终的学科知识体系 可方便地推广至其他学科领域关键词:大语言模型 知识图谱 智能化教育 自动化图谱构建中图分类号:文献标识码:文章编号:()随着人工智能技术的快速发展
3、大语言模型在多个领域展现出惊人的应用潜力 在教育领域中利用人工智能技术进行知识图谱()的自动化构建已成为研究的热点之一 以人工智能、大数据为代表的新一轮科技革命和产业变革 已成为推动经济社会发展的新动力 其中 知识图谱技术目前已在产业界得到广泛应用 知识图谱是结构化的语义知识库 用于描述世界中的概念及其相互关系 知识图谱将分散在教科书各个位置的分布式知识概念联系在一起 形成一个庞大的知识库 以结构化的形式描述客观世界中实体之间的复杂关系 将数据粒度从文档级别降到知识点级别聚合大量知识 从而实现针对知识的检索和推理在教育教学领域 也涌现出一些利用知识图谱技术进行课程知识体系构建的研究 知识图谱可
4、以充分利用现有的学习资源和教育资源 以可视化的方式展现多种教学资源中知识点之间的结构关系 然而 传统的知识图谱构建技术面临着资源利用率低、构建成本高以及自动化程度有限等问题随着大语言模型()的崛起 自然语言处理和生成能力得到很大提升 这些大语言模型不仅可以生成具有语义和逻辑关联的文本 还可以通过对大量学科知识的学习 理解学科领域的知识结构和关系 因此 将大语言模型与传统的知识图谱构建技术融合起来 可以为高校学科知识图谱的自动化构建带来新的技术提升首先 大语言模型的语义理解能力可以更好地分析学科知识的结构和组织方式 通过对学科领域的文献、教材、幻灯片等多种知识来源的学习和分析 大语言模型能够捕捉
5、到知识点之间的逻辑关系和语义联系 从而设计出更精确的知识系统本体 这样构建的学科知识图谱更具有准确性和完整性 能够为学习者提供更优质的知识展示和学习路径 其次 大语言模型的自动化提取能力可以极大地简化知识实体和知识关系的获取过程 传统的知识图谱构建方法通常需要开发不同的模块来处理非结构化的文本数据 并生成图谱所需的实体和关系 然而 大语言模型的自动化提取功能使得从多种资源中提取知识实体和知识关系变得更加高效和便捷 这不仅提高了资源的利用率 也降低了构建知识图谱的成本因此 本文旨在探索大语言模型在高校学科知识图谱自动化构建上的应用 通过融合 的优势 笔者将设计一种优化的自动化构建流程 以高校的学
6、科为例 自动提取基于教材、幻灯片、教学大纲的知识实体和知识关系 形成最终的学科知识体系 通过梳理学科知识框架 帮助学生了解各个专业课程之间的知识点关联 快速掌握课程知识要点 并且能够精准回溯知识学习脉络 快速查漏补缺 该方法将为高校教育的改革和优化提供有力的数据支撑 促进学习者对知识的更深入理解和应用本文主要的贡献包括:()笔者提出了一种基于 的学科知识体系构建流程 高度融合各学科知识的连贯性 从而推动了专业知识纵向深入挖掘和横向拓展延伸 可移植性强 可快速推广至其他学科领域()使用多种知识来源 包括教材、幻灯片、教学大纲及学位论文 分别自动化构建知识来源不同的图谱 归纳学科教学知识体系 整体
7、把握学科内涵()在建立的知识图谱上进行数据统计应用 探究课程间的相互关系以及学位论文与高校课程的紧密联系 为教育教学目标提供有力的数据支撑一、教育知识图谱构建现状(一)教育知识图谱目前 面向通用领域的知识图谱有很多 如国内的 、搜狗的“知立方”国外的、等 都被广泛应用于搜索、推荐、问答等互联网应用中 而在教育领域利用知识图谱进行数据建模也成为当前的热点研究问题 等提出了一个自动构建教育知识图谱的系统 来支持教学 还有研究者从多个 网站上获取课程信息 并进行实体提取和关系提取 构建一个高等教育知识图谱 在终生学习领域 等提出了一种利用知识图谱和数据分析技术整合元数据的科学出版物管理模型的设计 基
8、于该模型 可以实现跨学科跨区域的科学资源检索和分析应用平台目的是提高科学检索效率 降低科学领域的学习难度 鼓励非研究人员利用科学资源进行自己的研究、学习和工作 除此之外 一些公司也基于教育知识图谱进行应用 如百度公司的 教育知识图谱、美国 自适应学习平台的教育知识图谱等(二)知识图谱构建无论是一般域还是特定域 通常构建知识图谱有两种方法 也是构建知识图谱的两大关键步骤分别是对结构化文本或非结构化文本的实体识别和关系识别首先 实体识别旨在从数据中提取客观概念 尤其是当数据是非结构化的情况时这项任务变得很有挑战性 机器学习模型条件随机场()广泛地应用于命名实体识别任务包括术语识别和中文实体识别 近
9、年来 一些深度模型如、和 在实体识别上也取得了令人满意的结果其次 关系识别或者关系抽取旨在检测非结构化文本中实体之间的关系 关系识别这项任务通常被视为一个多类分类问题 但由于缺乏丰富的标记训练数据 有部分研究提出了远程监督的范式该方法试图通过将文本语料库与给定的知识图谱对齐来解决这一限制 由于不是所有对齐都是合理北京邮电大学学报(社会科学版)年第 期的 远程监督的范式也存在着局限性另外 最近关于大规模预训练语言模型的工作 如、和 等表明即使不调整参数 只用几个例子作为指令 也能在各种下游任务中表现良好 基于此 本文利用大语言模型设计一系列适合教育领域学科知识要点提取需求的模板提示作为 的输入
10、对电子教材、教学大纲和 等教学资源进行专业领域的命名实体识别以及零样本关系三元组提取 凭借高效处理和分析大量文本信息的能力 可以提取出有用的知识点和信息 为用户提供更加便捷、高效的信息服务 这种能力的优势在于可以大大节约人力和时间成本 提高工作效率 为高等教育领域的教学和研究带来了新的机遇和挑战 在信息抽取方面 可以通过对大量文本数据的分析和学习 自动抽取知识图谱中的知识点实体以及实体之间的关系 并通过对话生成的方式与用户进行交互和反馈 从而优化关系抽取的准确性和效率二、学科知识图谱构建首先以文本形式获取三种具有不同特征的主要教学资源 其次进行实体识别、属性提取和关系识别 利用 来优化以前使用
11、的模型算法 从教学资源和一些网络资源中获取知识实体、属性和关系然后经过数据处理以确保获得的知识实体的准确性 最后进行学科知识图谱的自动化构建并在构建的图谱中进行重要的数据统计应用(一)本体构建通常在构建知识图谱时确定本体 本体的设计能够构建层次性强、冗余度低的统一知识结构 为了构建一个能够反映大学课程知识水平和知识内容核心概念的本体结构 笔者一是定义类和类继承一个类包含许多知识实体 不同的类意味着不同的级别或粒度 二是定义实体之间的关系类型 以获得本体关系 从而在结构上表示知识关联 类和属性类用于区分通信工程专业知识的内容和知识粒度 考虑到学科知识特点 笔者将类分为层级类和其他类 层级类是本文
12、本体类的主要组成 其构建参考当前一些关于课程知识图谱本体构建的研究成果 以教科书的层级结构为主要依据 按照传统的知识细化思维 从层级最高的知识元开始 根据知识的上下级关系进行细化 初始知识元的抽象程度较高 细化过程就是按层级结构逐级降低 其抽象程度也逐渐降低 直到不能划分为止 通过划分知识的粒度 笔者将学科内部知识的涵盖范围由广到细 按照树状结构进行类别细化 设计出五层结构:课程()知识单元()知识章节()知识块()知识点()对于前四个层级的本体构建 笔者对格式不同的文本数据资源分别编写适用于本体设计的正则匹配脚本以提取目录 该方法为知识层级提取 对于第五层级的知识点抽取 笔者使用语言大模型来
13、代替以往的命名实体识别()相关技术在分级已完成的文本上进行实体识别除此之外 对不同类型或粒度的本体属性进行限制 可以增强本体类型本身包含的价值 同时有利于区别不同类别 笔者为每一类知识元设计了相应的属性集合 如知识点包含名称、标识符、具体描述、别名等数据属性 展示知识元更全面具体的信息 关系在通信专业课程知识体系中 知识元并不是独立存在的 而是通过各知识元之间的语义关系建立关联 从而形成一个有机整体 这有助于学生对跨课程知识形成更深层次的累积理解 为教师进行课程改革提供清晰的知识结构 为了挖掘课程内及课程间的知识关联 辅助优化课程大纲 笔者定义了知识元之间的几种关系类型 比如包括()、先修()
14、、后继()和含有唐晓晟等:大语言模型在学科知识图谱自动化构建上的应用()包括课程间关系和课程内关系 其中 包括关系是针对五类具有明显知识粒度区分的层级类知识元 如课程包括知识单元包括知识小节上述本体结构从教育视角出发 通过对领域知识体系进行分析 为后续专业学科知识图谱的构建过程提供了很好的指导作用(二)数据来源本文的数据来源包括:教科书、幻灯片、教学大纲以及学位论文教材是课程知识的传统载体 具有详细的权威知识描述 课件是教师自行制作的教学工具 使教师能够根据教学计划清晰地呈现课程知识 突出重点知识 帮助学生有效地学习课程 课程大纲是课程管理者制定的半结构化教学计划文件 它根据课程目标 严格规定
15、了课程的教学内容 从专业角度反映了课程的关键知识 具有严谨、简洁的特点 为了充分利用资源 笔者在这些教学资源的基础上分别构建知识图谱 然后将它们融合成一个统一的课程知识图谱另外 为了查看课程对毕业论文的知识支撑情况 探索科研指导教学内容 并为教学支撑科研提供依据 笔者将 篇学位论文也作为知识图谱的数据来源 以同样的方式构建适用于论文结构的知识图谱 探究这些论文与本专业课程之间的关联(三)知识实体提取在知识系统本体的指导下 笔者需要从教学资源的文本中提取与本体类相对应的知识实体 这里重点关注分层类的知识实体提取 其中实体可以分为课程级和概念级()课程级知识实体 课程级知识主体是四个类的实体 即课
16、程、知识单元、知识章节和知识块 其中 课程实体很容易获取 也就是课程的名称 对于其他三个类的实体获取 笔者提取不同级别目录的标题 这些目录是粗粒度的知识实体 用于支持课程的知识系统 由于教科书中的目录标题与正文相比具有显著的区别特征 本文使用正则表达式来分层匹配和提取标题的特殊格式()概念级知识实体 概念级知识主体也称为知识点()是指知识点类的实体与课程级知识实体相比更细粒度 这些细粒度的实体对于丰富知识图谱并为教师和学生提供更深入的知识结构至关重要 根据类的层次结构 知识点位于知识块之后 从第三级部分的文本中提取概念级知识实体 知识点 在之前的传统构建流程中 笔者选择了一些核心课程的教科书
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 模型 学科 知识 图谱 自动化 构建 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。