基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf
《基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf》由会员分享,可在线阅读,更多相关《基于Neo4j的肺癌中医诊疗知识图谱构建研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 第二十五卷 第四期 Vol.25 No.4 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 基于Neo4j的肺癌中医诊疗知识图谱构建研究徐安迎1,胡孔法1,2,杨涛1(1.南京中医药大学人工智能与信息技术学院 南京 210023;2.江苏省中医药防治肿瘤协同创新中心 南京 210023)摘要:目的基于Neo4j探究肺癌中医诊疗知识图谱构建。方法收集整理中国知网名老中医治疗肺癌医案的文献,采用自底而上的构建方式,运用BiLSTM-CRF、人工定义规
2、则、内容分析法和Neo4j技术构建肺癌中医诊疗知识图谱。结果共检索376篇名老中医治疗肺癌医案的文献,抽取实体有5901个,定义关系有5种,构建了“病-证-症-方-药”名老中医治疗肺癌医案的知识图谱。结论肺癌中医诊疗知识图谱能够更直观地呈现了肺癌医案中疾病、证候、症状、方剂、中药之间的关联,为深入开展肺癌领域相关研究和实体间潜在的关系发掘奠定一定基础。关键词:Neo4j 肺癌 知识图谱 名老中医doi:10.11842/wst.20220311005 中图分类号:R256.1 文献标识码:A近年来,肺癌的发病率随着现代生活质量的提高和环境的改变而逐年升高,成为世界上致命率高的疾病和威胁人类健康
3、的公共卫生问题1。中医药在肺癌治疗、术后调理等方面具有优势,研究表明中医药在治疗肺癌方面已经取得显著成效2-3,尤为显著的是名老中医治疗肺癌的疗效,因此,深入挖掘肺癌中医诊疗规律有着重要意义。知识图谱是人工智能领域最前沿的技术之一,其应用越来越得到中医药领域重视,学者们对中医药领域结合知识图谱开展了相关的研究4-7,但目前,对名老中医治疗肺癌医案的知识图谱构建鲜有人研究,尤其是融合证候、症状、方剂和药物等信息,因此,本研究尝试以名老中医治疗肺癌医案为研究对象,运用Neo4j图数据库技术,以可视化的方式呈现出名老中医治疗肺癌医案所包含的知识结构及其它们之间的联系,构建出名老中医治疗肺癌医案诊疗的
4、“病-证-症-方-药”知识图谱,为后期研究提供一定参考和借鉴意义。1 基本概念 1.1知识图谱知识图谱概念最早是Google于2012年提出并且应用在搜索引擎8。它是以“语义网络”为基础构建的一个知识库,能够捕获并呈现领域概念之间的语义关系9。构建方式主要分为自顶向下和自底而上两种方式10,其中自顶向下的构建方式是在将肺癌医案信息中各种实体加入到知识库前,需预先定义所需要的知识图谱模式;而自底而上方式是首先从医案信息中抽取出知识实体,然后再筛选出置信度较高的知识实体去构建顶层的模式11。它用于描述客观事物中的实体、实体与实体之间的关系,用节点表示语义符号,用边表示语义之间的关系,得到一个类似“
5、多关系图(multi-relational Graph)”的巨大语义网络12。本研究应用知识图谱主要是构建一个基于肺癌医案数据创建的多元“病-证-症-方-药”的混合型知识库,将疾病、证候、症状、方剂和中药等要素之间的多样组合规 收稿日期:2022-03-11 修回日期:2022-10-18 国家自然科学基金委员会面上项目(82074580):基于知识图谱的现代名老中医诊治肺癌用药规律及其机制研究,负责人:胡孔法。通讯作者:胡孔法,教授,博士生导师,主要研究方向:物联网与云计算、中医药人工智能与大数据分析研究。1456 Modernization of Traditional Chinese M
6、edicine and Materia Medica-World Science and Technology 世界科学技术-中医药现代化中医诊疗研究律直观地展示出来。知识图谱13一般将知识图谱表述为G=(E,R,S),E=e1,e2,e|E|是知识图谱中实体的集合,总计包含|E|种不同的实体;R=r1,r2,r|R|是知识图谱中关系的集合,包含|R|种不同关系;S属于ERE,代表知识图谱中三元组的集合。知识图谱中三元组集合的表现形式包含实体1,关系,实体2、实体,包含,属性等,知识图谱在本质上表示了实体之间的语义关系,是对现实世界中事物和关联的描述14。1.2Neo4jNeo4j是一个可以在
7、网络上而非表中存储结构化数据的高性能NoSQL图数据库15,可以存储包含节点和关系两种基本的数据类型,每个节点代表一个实体,可能包含0个或多个属性,关系表述两个节点间的关联,可以有属性16。它具有高性能、实用性强、轻量级等优点备受关注,也是目前最常用的图数据库17。节点、关系、属性和标签是构成Neo4j的4个基本组成部分,节点通常在Neo4j中是用“(ID:Label)”的形式来表示;用“”的形式来表示边。另外,Neo4j图数据库技术通过Cypher查询语言能够实现结构化编程,对节点、边进行增加、删除、修改和查询等基础性操作,从而实现了数据的导入、增加、删除、修改和查询等操作。2 基于Neo4
8、j的肺癌医案知识图谱的构建 2.1数据来源及构建思路本研究数据是选取中国知网(CNKI)数据库,以“TKA=(肺积+肺癌)AND SU=(名老中医+名老经验+经验)AND TKA=治疗”为检索式进行检索,检索时间为2016-2021年所有期刊文献,共检索376篇,共纳入符合要求的文献219篇。其中纳入标准:符合中医“肺癌”诊断标准的医案,诊断标准参照 中医内科学18教材;中医辩证、症状、方药组成明确的医案。排除标准:合并其他心脑血管及精神障碍等疾病的医案;中医辩证、症状、方药组成信息不完整的医案。本研究构建名老中医治疗肺癌医案知识图谱选取自底向上的方式,具体流程主要分为数据获取、知识抽取、知识
9、存储和知识可视化展示,构建思路首先是数据获取,对中国知网数据库检索名老中医治疗肺癌医案信息,对检索到的肺癌医案信息进行预处理,主要是剔除无效、无用、无关的数据;其次是将肺癌医案信息基于 BiLSTM-CRF 模型进行实体抽取和基于人工定义规则对实体关系抽取,接着将抽取后的知识基于内容分析法进行融合,最后利用Neo4j技术将实体和实体间的关系通过知识图谱形式展现出来,具体构建流程见图1。2.2基于BiLSTM-CRF和人工定义规则的肺癌医案知识抽取本研究针对名老中医治疗肺癌知识抽取,其目的是从清洗后的肺癌医案信息中抽取与肺癌诊疗相关知识,将肺癌医案词典与命名实体识别技术相结合,抽取出结构化的数据
10、,构造若干条型数据组合连接。本文采用 BiLSTM-CRF 模型对肺癌的医案信息进行实体抽取,抽取的实体主要包括证候、症状、方剂和中药。首先本文将收集到的医案信息进行jieba分词,如:“咳嗽咳痰,舌淡红”经过jieba分词后得“咳嗽”、“咳痰”、“,”、“舌淡红”。其次是将分词后的结果进行序列标注,采用BIO的表示方法,B代表的是开始的标记、I代表的是中间和结束的标记、O代表的是非实体的标记,如:“咳B-sym嗽I-sym咳B-sym痰I-sym,O舌B-sym淡I-sym红I-sym”。最后是生成字向量矩阵,采用word2vec方法对已经按要求完成相应标注的词进行嵌入19,在其作为BiLS
11、TM的输入层x,通过前向LSTM和后向LSTM将字组成词语,并获得每个词语对应实体类型的概率C,最终通过CRF层进行概率的计算,确定每个词语所属的实体类型,具体流程见图2。共抽取到5901个实体,其中证候图1名老中医治疗肺癌医案知识图谱构建流程图1457 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 2023 第二十五卷 第四期 Vol.25 No.4 实体有280个,症状实体有1399个,中药实体有4501个,方剂实体有171个。表1为名老中医治疗肺癌
12、医案信息实体抽取结果示例20。实体关系抽取是构建名老中医治疗肺癌医案信息的知识图谱过程中的重要环节之一,通过查阅文献21,本文采用人工定义规则对医案信息中的实体关系抽取,定义的关系规则是采用“is_a”形式,定义了四类实体关系:is_ syn、is_ sym、is_ pre、is_tcm,其中定义is_ syn关系有280个,定义is_ sym关系有1698个,定义is_ pre关系有171个,定义is_tcm关系有901个。表2为名老中医治疗肺癌医案“实体-关系-实体”表。综上,基于BiLSTM-CRF和人工定义规则方法实现了对肺癌医案信息的实体抽取和实体关系抽取,图3为构建名老中医治疗肺癌
13、医案诊疗的“病-症-证-方-药”知识图谱的RDF模型。2.3基于内容分析法的肺癌医案知识融合本文通过 BiLSTM-CRF 和人工定义规则方法实现了对名老中医治疗肺癌医案信息的实体抽取和实体关系抽取,但由于名老中医治疗肺癌医案的文本复杂、隐晦的特殊性,这些数据可能还存在大量的冗余和错误信息,为此本文对其进行清理和整合,提高知识图谱的数据质量。通过翻阅相关文献,本文采用内容分析法22进行肺癌医案知识融合,结合国家制定中医临床诊疗术语标准23、中医临床常见症状术语规范24、中药学25和 中华人民共和国药典26,对抽取到的证候、症状等实体名称进行规范和统一,从而达到歧义、冗余和错误概念消除目的。如“
14、痰热阻肺证”、“痰热壅肺型”统一为“痰热壅肺证”。由于同种中药材经过不同方法处理会产生多种衍生药材,同类中药方剂由于制剂方法、药材成分的细微差异会衍生出不同的中药产品,为此参考 中药炮制学27,采用“实体-子实体”的知识融合方法28,如:法半夏、生半夏都是由半夏制备而成,炮制方法不同,具备不同功效(见表3)。2.4基于Neo4j的肺癌医案知识存储及可视化展示本研究采用Neo4j图数据库技术对RDF模型数据进行存储,构建名老中医治疗肺癌医案“病-证-症-方-药”知识图谱。利用Cypher语言命令对实体和实体关系进行设计并实现医案中医诊疗知识图谱的构建、查询和编辑,从而呈现出清晰的多元“病-证-症
15、-方-药”混合型知识图谱。Cypher语言命令的使用方法如下:用create命令将具体的疾病、证候、症状、方剂和中药节点创建,return命令用于检索节点的属性,如创建症状的多个节点并返回节点的属性:create(n:症状name:”胸痛”),(:症状name:”咳嗽”)return n。用match检索节点与节点的属性,再进行关系的创建,return 命令用于检索节点与关联关系的属性,如:match(a:证候 name:痰瘀互结证),(b:症状name:胸痛)create(a)-r:Symptom-(b)return r。除了这些命令外,以下命令也可以用于加工处理知识图谱,如where命令用
16、于提供条件过滤检索数据、delete命令用于删除节点及关系、remove命令用于删除节点和关系的属性。如删除节点关系:MATCH(n:疾病 name:肺癌)-r:上下位关系-(m:证候 name:阴虚毒热证)DELETE r。如用match、where和create创建节点关系:MATCH(a:疾病),(b:证候)WHERE a.name=肺癌 AND b.name=气血两虚证图2名老中医治疗肺癌医案知识抽取流程图1458 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Tec
17、hnology 世界科学技术-中医药现代化中医诊疗研究CREATE(a)-r:上下位关系-(b)RETURN r。图4为名老中医治疗肺癌医案知识图谱可视化展示,可以通过知识图谱展示发现,肺癌疾病可以关联到“气阴两虚证”、“痰热壅肺证”、“痰瘀互结证”等证候,证候可以关联到症状和方剂,方剂又可以关联到中药,从而构建出名老中医治疗肺癌医案的“病-证-症-方-药”的知识图谱。为了解决肺癌中医诊疗知识图谱关联过多的节点而影响可视化效果问题,为此,本研究将知识图谱按照中医疾病、证型、症状、方剂和中药分层次划分,并以不同颜色给予辨别,从而获得更清晰更有条理的展示效果。与常规的知识检索相比,知识图谱技术的优
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Neo4j 肺癌 中医 诊疗 知识 图谱 构建 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。