面向淋巴水肿疾病的电子病历命名实体识别应用研究.pdf
《面向淋巴水肿疾病的电子病历命名实体识别应用研究.pdf》由会员分享,可在线阅读,更多相关《面向淋巴水肿疾病的电子病历命名实体识别应用研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、面向淋巴水肿疾病的电子病历命名实体识别应用研究汤昊苏万春冀秀元信建峰夏松孙宇光徐毅沈文彬(中国科学院自动化研究所北京 首都医科大学附属北京世纪坛医院北京 )摘要目的 意义 探讨人工智能技术应用于淋巴水肿患者电子病历非结构化文本数据的关键实体识别问题。方法 过程 阐述样本稀缺背景下模型微调训练的解决方案,选取首都医科大学附属北京世纪坛医院淋巴外科既往收治患者 例为研究对象,依据临床医生标注的 种关键实体类别,微调 模型的预测层,借助其全局指针识别嵌套和非嵌套的关键实体。分析实验结果的准确性和临床应用可行性。结果结论 微调后模型总体精准率、召回率和 均值分别为 、和 ,为淋巴水肿电子病历数据精准挖
2、掘奠定基础。关键词淋巴水肿;电子病历;命名实体识别;自然语言处理;医学 中图分类号 文献标识码 ,;,;修回日期 作者简介汤昊,工程师,发表论文 篇;通信作者:徐毅,沈文彬。基金项目科技创新 “新一代人工智能”重大项目(项目编号:);北京市科学技术委员会项目(项目编号:)。医学信息学杂志 年第 卷第 期 ,引言淋巴水肿主要表现为局部体液滞留和组织肿胀,是全球致残率最高的疾病之一,严重危害人体健康,及时准确的诊断是阻断疾病恶化、提升术后康复痊愈率的关键。伴随着人工智能技术的飞速发展,疾病相关数据驱动的精准医学研究为此提供了行之有效的解决方案。研究者基于文本数据 、图像数据 在临床疾病辅助诊断领域
3、已取得显著效果。患者电子病历 是医务人员借助医疗信息系统对临床治疗经过的记录,包括患者检查、诊断和治疗过程等重要医疗信息,通常以半结构化或非结构化形式存储,是构建智能化诊疗分析系统的数据基础。但是电子病历记录具有明显的子语言特性 ,例如包含大量专业术语和行业习惯用语、表达模式化、数字和单位混合(如 )、句子语法结构不完整等,数据噪声显著,呈异质性分布,尤其是针对同种疾病,不同医生遵循不同标准或习惯书写病历,存在一词多义和多词一义等不规范的现象,并且相较于英文语料缺乏明显的边界分隔符,词频分布呈现厚尾效应,严重影响双向编码器表征(,)等序列化语义分析技术的使用。因此,电子病历文本数据挖掘往往需要
4、人工提取关键信息,依赖于高年资临床医生的精细标注,标注过程耗时费力,电子病历标注语料稀缺,尤其体现在亚专业学科。由此可见,针对淋巴水肿电子病历文本数据的智能化预处理或信息提取尤为重要。命名实体识别(,)技术可以从文本中检测关键实体的范围和语义类别,是目前从非结构化文本数据中进行信息抽取的关键技术之一 。在电子病历数据中,实体重叠是相当普遍的现象,见图 。“左下肢”与“淋巴水肿”首尾不相交,为非嵌套实体,而“手术后淋巴水肿”包含更细粒度的“淋巴水肿”实体,为嵌套实体。如果忽略嵌套实体,则无法捕获底层文本中更细粒度的语义信息。针对该问题,基于超图 、序列标注 和区域设置 的方法存在计算复杂度高、错
5、误级联、准确率低等问题。而 模型 无需复杂的特征工程,采用全局指针在中文嵌套实体识别任务中取得了最优效果。因此,本研究利用 模型和模型微调方法实现少量标注样本背景下的淋巴水肿电子病历命名实体识别模型训练,并选取基准模型进行比较,建立高质量电子病历标注文本语料库,构建人工智能技术辅助淋巴水肿疾病精准诊断、分期研究和应用的关键数据基础。图 命名实体识别任务分类 模型介绍 预训练语言模型 模型以预训练语言模型为编码器提取文本特征。是预训练语言模型之一,由多层编码器堆叠而成,采用完全自注意力机制,计算每个词与其他所有词的关联,在自然语言处理领域取得了显著效果,但其时间和空间复杂度与序列长度为二次方关系
6、 (),可以处理的最大序列长度为 字符,长文本处理能力受限。模型 是另一种预训练语言模型,同样由多层编码器堆叠构成,但区别于 普通的多头注意力机制,其采用稀疏的多头注意力机制,将时间和空间复杂度降低为线性 (),运行效率更高,可以处理的最大序列长度为 字符,是 的 倍,适用于本研究中的长文本电子病历。因此,采用 模型作为 模型的编码器。注意力值计算方式如下:()()()()()其中,和 分别是查询函数和键函数,是医学信息学杂志 年第 卷第 期 ,值函数,是评分函数,表示头数(),()表示所有需要计算的词。模型传统嵌套实体识别方法设计两个模块分别识别实体的头、尾位置,未考虑实体片段的内在关系,模
7、型构造文本长度的方形矩阵,同时考虑首、尾位置,通过行和列索引位置来判断文本片段是否为一个实体,更具全局性,见图 。第 行第 列属于病程类型的实体“年前”,赋予标签,其余部分为 。此外,方形矩阵的数量与实体类别数量相同,每一个方形矩阵用来判别一种实体类别。命名实体识别任务方向为从前向后,如要判别“年前”是否为实体,无需考虑“前年 ”是否为实体的情况。基于此特性,矩阵左下三角为空白,无需赋予标签,训练时亦无需计算损失。图中每个小方框代表 个待识别的实体,对于长度为 的文本,若仅需要识别一种实体,则有 ()个不同的连续片段(待识别实体),因此,研究任务可转化为从中选择 个实体的多标签分类问题。图 模
8、型示例 模型由学习层和预测层两部分组成,学习层由 编码器构成,输入文本 ,经过预训练语言模型 编码得到语义表示 ,其中:,(,)()令 :表示文本的片段序列,表示开始位置索引,表示结束位置索引,经过前馈层变换后得到用于识别 类型实体的向量表示 ,(开始位置,矩阵中的行)和 ,(结束位置,矩阵中的列):,(),()模型利用稀疏的多头注意力机制将每一个头视为一种实体类型识别任务,从而实现多个实体类型的识别任务,将 和 的内积作为最后的打分(舍去注意力机制的值部分),(,),表示文本第 个元素到第 个元素组成的连续片段属于 类型实体的得分。在此基础上,采用基于变换矩阵原理的旋转位置编码引入相对位置信
9、息,用位置关系来限制实体长度,提升模型对实体长度的敏感性。例如,输入文本为“下肢核磁示右下肢继发性淋巴水肿”,对于识别“身体”类型的实体,真正实体为“下肢”“右下肢”,而模型的可能预测结果为“下肢核磁示右下肢”,引入相对位置信息后,有利于分辨出真正的实体:医学信息学杂志 年第 卷第 期 ,(),(),()由于电子病历文本长度 较长,()个待识别实体中包含的真正实体(标签为 )数量往往占比较小,会带来极其严重的类别不均衡问题。采用多标签分类的损失函数解决此问题:(,)(,)(,)(,)()其中,表示 类型实体的首、尾集合,表示非实体或者非 类型实体的首、尾集合,因此,损失函数的优化方向为属于 实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 淋巴 水肿 疾病 电子 病历 命名 实体 识别 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。