基于蜜蜂知识图谱智能问答系统.pdf
《基于蜜蜂知识图谱智能问答系统.pdf》由会员分享,可在线阅读,更多相关《基于蜜蜂知识图谱智能问答系统.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 7 期108计算机应用信息技术与信息化基于蜜蜂知识图谱智能问答系统曾 攀1 袁黎晖1ZENG Pan YUAN Lihui 摘要 针对农业信息化在蜜蜂领域缺失的问题,提出了一定规模的蜜蜂领域知识图谱的构建。首先,通过爬虫程序获取到真实有效的数据集,再经过相似度计算进行知识融合。然后,利用图数据库 Neo4j 对知识进行存储,完成蜜蜂领域的知识图谱的构建。最后,通过命名实体识别和问句意图识别任务分解智能问答,并通过 Flask 框架搭建可视化的页面,最终实现了智能问答系统。实验结果表明,所设计的智能问答系统在蜜蜂知识问答领域,在一定程度上弥补该领域的空白,也为农业信息化落地提供了
2、思路。关键词 知识图谱;农业信息化;命名实体识别;预训练语言模型;智能问答系统 doi:10.3969/j.issn.1672-9528.2023.07.0271.江西农业大学南昌商学院 江西九江 3320200 引言蜜蜂作为我国主要的资源昆虫之一,具有重大的经济价值和生态价值。由于其养殖区域广、覆盖种类复杂多样,养殖户在养殖过程中会遇到各种各样的问题,受限于各种客观原因,他们难以解决。随着互联网的高速发展,农业信息化的需求正爆炸式增加,但受限于农业资源离散且质量不高,市面上并没有一些好的解决办法。知识图谱1是一种能够描述真实世界客观存在的实体、概念及实体之间关联的关系的语义网络。知识图谱技术
3、提供了一种更好的组织、管理和推理互联网海量信息的能力,目前知识图谱与深度学习结合在一起,已经成为推动人工智能发展的核心驱动力。知识图谱分为开放领域知识图谱和垂直领域知识图谱,开放领域知识图谱侧重于知识的广度,囊括了海量常识性数据,其典型代表有大规模开放的知识图谱 Yago、DBPedia 和 Freebase等;垂直领域知识图谱通常规模较小且更侧重于领域内的知识,其典型代表有地理领域知识图谱 Geonames、中医药领域ZhongKG。在蜜蜂领域,目前业界与学术界都少有相关的开源的知识图谱。如从头构建一个垂直领域知识图谱,通常需要业内专家人工设计好 schema 并标注数据,通常需要一定的时间
4、周期和人力物力。为此本研究基于多源异构数据2,对数据进行结构化处理,利用图数据库 Neo4j3构建蜜蜂领域知识图谱,并利用命名实体算法和对属性链接算法等关键步骤实现了智能问答系统,为增强用户体验与系统可视化程度,本研究又利用 Flask 框架实现了前端智能问答页面。1 蜜蜂知识图谱的构建1.1 数据的获取与预处理数据质量和数据规模是影响知识图谱的两个极其重要的因素,对于垂直领域知识图谱而言,如何获取高质量大规模的数据仍然是一个具有挑战性的问题。为了获取高质量大规模的蜜蜂数据,本研究采用多源异构数据充实数据的质量与规模。其数据来源于两个方面:1)基于 CN-DBpedia 中文通用百科知识图谱,
5、CN-DBpedia 是由复旦大学知识图谱团队研发并维护的一个当前中文领域最大规模的通用化结构化百科知识图谱。由于 CN-DBpedia 是对百度百科的数据进行一系列复杂清洗后的高质量数据,其涵盖了各类领域的知识,有金融、医疗、地理、人文、农业等领域专业知识,本研究对农业领域知识进行筛选抽取4,最终处理为“实体,属性,属性值”这种形式的数据集。2)基于蜜蜂垂直网站酷蜜蜂网站()的开源数据,通过爬虫框架 Scrapy编写爬虫程序,对获取到的数据进行数据去重和异常值处理,最终为与上述同样形式的数据集,以方便后续对数据进行融合。图 1 为处理后的没有噪音的文本语料。图 1 处理后的文本语料 2023
6、 年第 7 期109计算机应用信息技术与信息化1.2 基于 Word2vec 的相似度计算为了保证图谱的质量与规模,本研究选用了多源异构的数据,这也导致数据存在一定程度的碎片化。如“中华蜂”这一实体及其属性与属性值重复出现在 CN-DBpedia 和酷蜜蜂网站中。为了保证图谱的质量,需要避免知识过度碎片化,本研究利用蜜蜂相关书籍作为文本语料。通过 Word2vec 训练好的词向量模型5将词转换成向量以达到自然语言向数值数据转换的目的。在此基础上,通过对文本相似度的计算以达到知识融合的目的。文本相似度6的计算方法主要有基于余弦相似度计算方法、基于逆文本频率和余弦相似度计算方法以及基于 BM25相
7、关性评分计算方法7。余弦相似度计算是将两个自然问句经过 Word2vec 转化成向量后,计算向量之间的夹角,夹角的余弦值越大相似度越高,两个文本内容重合度也越高。假定 t1和 t2是两个 n 维向量,即 t1=(x1,x2,xn),t2=(y1,y2,yn),它们的余弦相似度计算计算公式如下:()()()()=niniiiniiiyxyx11221cos (1)对于两个自然语言文本做相似度计算,关键词的相似度计算是极其重要的考虑因素。逆文本频率 idf 是衡量词汇是否是关键词的决定性指标,因此可将一个词 idf 作为其权重参与文本的相似度计算。N 为语料库中文档的数量,Di为词w 出现文档的数
8、量,v(wi)是自然语言文本句子中第 i 个词 wi的向量。idf 计算公式和句子向量公式如公式(2)和公式(3)所示。()+=1logidfiDNw (2)()()()=miiiwidfwvsvectors (3)BM25相关性评分计算是基于概率检索模型提出的算法,其主要思想是对句子 X 分词,得到分词后的词表 wi,wi 与需要比较的句子 T 计算相关性得分,最后 wi 与 T 的相关性得分进行加权求和,权重为词的 idf 值。fi是词 wi在句子 X中出现的频率,avgl是所有句子平均长度,tl是句子T的长度,k1是调节因子,通常设置为 0.75。X 与 T 的相关性评分公式如公式(4)
9、所示。()()()+=avglt lbbffkfwidfTXiiiinii11,score (4)经过多次实验发现,BM25 相关性评分较为依赖语料库中词的 idf 值,其效果也不符合现实语义,偏差较大;余弦相似度计算方法是最简单最常用的方法,其效果取决于语料库的质量与规模;基于逆文本频率和余弦相似度虽然计算量是几种方法中最大的,都是其效果确实最好的。因此本研究使用基于逆文本频率和余弦相似度计算对多源异构的数据进行知识融合8。1.3 基于 Neo4j 存储蜜蜂知识图谱知识图谱的存储目前有三种存储方式,第一种是基于RDF 三元组的存储,第二种是基于图数据库的存储,最后一种是基于传统关系型数据库的
10、存储。由于传统关系型数据库无法适应知识图谱动态变化的知识,且在较大规模的知识量,其检索效率低下,一直是其被人诟病的原因。因此工业界主流的存储方式只有上述的前两种,二者的具体特点如表 1 所示。表 1 知识图谱存储方式地具体对比存储类型形式数据库代表具体特点基于 RDF三元组的存储以三元组的形式存储gStore、Blaze-Graph、RDF-3X图模型更适应 RDF 模型的语义结构更多的图算法、图数据库存储方案和查询方法基于图数据库的存储以边和节点以及属性的形式存储Neo4j、Dgraph、Tiger-Draph较高的查询效率更适应知识图谱动态的知识简洁直观地展示了知识实体基于下游的智能问答任
11、务,本研究选用基于图数据库的存储方式,以图数据库的典型代表 Neo4j 作为蜜蜂知识图谱的存储平台。由于知识规模较大,需要依次将实体表、关系表通过“LOAD”方式导入到 Neo4j 中,如图 2 是部分蜜蜂知识图谱展示形式。图 2部分蜜蜂知识图谱展示形式2 智能问答的设计与实现2.1 智能问答系统的设计智能问答一直是知识图谱落地的重要应用之一,其表现形式是用户向系统输入自然语言问句,系统通过理解命名实体识别与问句意图识别等关键步骤理解用户的问句,并在知识图谱搜索最佳答案,反馈给用户。本研究智能问答系统的构建拆分为命名实体识别任务、问句意图识别任务、答案封2023 年第 7 期110计算机应用信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 蜜蜂 知识 图谱 智能 问答 系统
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。