深度电子病历分析研究综述.docx
《深度电子病历分析研究综述.docx》由会员分享,可在线阅读,更多相关《深度电子病历分析研究综述.docx(15页珍藏版)》请在咨信网上搜索。
1、 深度电子病历分析研究综述 蒋友好摘要:伴随医院信息化建设,大量的电子病历数据得以保存,但如何分析和利用这些数据成为医疗健康领域一个重要的研究课题。深度电子病历分析以深度学习技术为基础,通过特征自学习,避免了在数据预处理和特征工程上耗费大量时间,而且还能有效捕获数据间的未知关系,提高算法性能。本文首先概述了5类常用的深度学习模型及其变体,其次详细分析了这5类模型在电子病历分析上的应用情况,最后从数据异质性、公开数据集和模型可解释性三个方面对这一领域当前的机遇和挑战做了总结。关键词:电子病历;深度学习;卷积神经网络;循环神经网络:TP311 :A :1009-3044(2018)15-0301-
2、04An Overview of Research on Deep Electronic Health Record AnalysisJIANG You-hao1,2(1.Department of Control Science and Engineering School of Electronics and Information Engineering Tongji University,Shanghai 201804,China;2.Shanghai Putuo District Central Hospital, Shanghai 200062, China)Abstract:Wi
3、th the development of hospital informatization, the vast amounts of raw electronic health records have been saved. But how to analyze and utilize these data becomes an important research topic in the field of healthcare. Based on deep learning technologies, deep electronic health record analysis mod
4、els not only can learn features directly from the data itself, avoiding the cost of time on data preprocessing and feature engineering, but also can gain high performance by effectively capturing latent relationships between data. In this paper, five commonly used deep learning models and their vari
5、ants are firstly discussed, and then analyzes some electronic health record analysis applications in detail. Finally, we summarize the current opportunities and challenges from three aspects: data heterogeneity, public datasets and model interpretability.Key words: Electronic Health Record (HER); De
6、ep Learning; Convolutional Neural Networks (CNN); Recurrent Neural Network (RNN)引言隨着医院信息化建设不断深入,电子病历(Electronic Health Record,EHR)系统在临床诊疗过程中得到了广泛应用,也因此产生了大量的医疗数据。这些数据记录了患者所有的诊治历史,包括人口统计学信息、诊断、实验室检验结果、放射影像、处方、临床记录等1。之前,电子病历数据主要被用来提高临床诊疗效率,并方便医院管理。但随着大数据和人工智能技术的飞速发展,许多研究者认为电子病历数据对提高医护质量、保障患者安全、降低治疗费用等
7、方面大有裨益2-4。尽管电子病历数据越来越容易获取,但其异质的特性给分析带来了巨大的挑战。从表示形式上来看,电子病历数据有以下5种类型:1)数值型,如年龄、体重;2)时间日期型,如入院时间、处方开立日期;3)类别型,主要是受控词表中的代码,如性别、国际疾病分类代码ICD-10;4)自然语言书写的自由文本,如放射学报告、出院小结;5)时间序列,即按时间顺序排列的一段数值或一组文本,如生命体征监护记录、病程记录5。面对这些异质的数据类型,传统的机器学习与统计技术通过从数据中抽取一组特征来表征数据,并作为模型的输入,训练各种分析模型。但上述方法存在两点不足:1)特征是人手工抽取,依赖于专家的领域知识
8、,这些知识通常都是已知的,不能发现数据间的未知关系;2)80%的工作用于数据的清洗、预处理等,大大限制了模型的可伸缩性4。近年来,深度学习在许多领域都取得了巨大的成功,通过深层次的分层特征构建,有效地捕获数据间的未知关系6。相比于传统的机器学习方法,深度学习通过直接从数据本身习得最优特征,不需要人工指导,实现了特征的自学习,并能自动发现那些数据间未知或隐含的关系。当前,已有研究人员将深度学习应用在电子病历分析上,取得了比传统机器学习方法更好的结果,而且在数据预处理和特征工程上耗费更少的时间。基于前人工作,本文从深度学习模型的角度回顾了深度电子病历分析领域取得的众多研究成果。在接下来的部分,第2
9、节概述5类常用的深度学习模型及其变体,第3节详细分析这5类模型在电子病历分析上的应用情况,最后第4节总结当前面临的挑战并展望未来的发展方向。1 深度学习模型概述经过多年发展,深度学习已包含各种各样的技术。本节中,我们将简要概述最常见的5类深度学习模型,这些模型已在深度电子病历分析上被广泛使用。从模型架构的角度,这5类模型可划分成两大类,一类使用监督架构(包括多层感知机、卷积神经网络、循环神经网络),另一类使用无监督架构(包括自编码器、受限玻尔兹曼机)。下面我们对这5类模型逐一进行介绍。1.1 多层感知机多层感知器(Multilayer Perceptron,MLP)是一类包含多个隐层的人工神经
10、网络,第i层的神经元与第i+1层神经元完全连接。其中,每个隐层的神经元将前一层的输出加权求和,再经过一个非线性激活函数,其结果作为神经元的输出。常见的非线性激活函数有sigmoid和tanh,现在更多地使用ReLU函数。经过模型的训练,隐层神经元的权重得到优化,网络也从学到了输入x和输出y之间的关系。随着隐层的增加,输入数据也会以更抽象的形式表达出来。虽然MLP模型结构很简单,但其他神经网络架构经常会在最后包含一个由全连接神经元组成的MLP结构。1.2 卷积神经网络卷积神经网络(Convolutional Neural Network,CNN)是近几年最流行的一个网络模型,特别是在图像处理领域
11、。相比于MLP的全连接结构,CNN只做局部连接。例如,一张50x50的图片,MLP会将其展开成一个2500维的向量作为网络的输入,而CNN将其看成是局部像素块的集合,对每个相同大小的像素块乘以一组权值,该过程称为“卷积”,这组权值称为“卷积核”。当卷积核在整个图片上移动时,可以从中提取出有意义的特征。CNN的特性可总结为:局部连接、权值共享。由于卷积核比完整的输入要小,所以CNN的参数更少。而且卷积核在整个图片上移动时,每个像素块乘以的都是一组相同的权值,所以权值是共享的。卷积操作所在的层称为卷积层,卷积层之后,通常会跟一个池化层用于聚合卷积层提取到的特征。常见的池化有最大池化和平均池化。1.
12、3 循环神经网络当输入数据具有清晰的空间结构(如图片)时,卷积神经网络是一个合理的选择。但当输入数据按顺序排列(如自然语言或时间序列数据)时,循环神经网络(Recurrent Neural Network,RNN)则更合适一些,因为它具有处理长时间依赖关系的特性。RNN在更新隐态ht时,不仅依赖当前时刻t的输入xt,也依赖前一刻的隐态ht-1。依此类推,ht-1依赖于xt-1和ht-2。通过这种方式,最后输出的隐态包含先前所有输入元素的信息。流行的RNN变体有长短时记忆单元(LSTM)和门控循环单元(GRU)模型,这两者都被称为门控循环神经网络。标准RNN由相互连接的隐藏单元组成,而门控RNN
13、中每个隐藏单元被一个包含内部循环的特殊单元和一组控制信息流的门所取代。相比于标准RNN,循环RNN在建模长时间依赖关系上更有优势。1.4 自编码器自编码器(Auto-Encoder,AE)是一个无监督表示学习模型,最初被用于有监督深度学习模型的预训练,对那些标记数据很少的情况特别有用,但自编码器依旧可以应用在完整的无监督学习任务中。自编码器包含编码和解码两部分,输入x先被编码为一个低维空间表示z,再通过解码重建x的近似表示x。自编码器训练时,通过最小化重建误差x-x,学习表示z。训练完成之后,只使用编码部分获得输入的编码表示。由于自编码器将输入数据转换成低维的、只存储重要信息的向量,因此它和標
14、准的降维技术(如主成分分析、奇异值分解)很像。但自编码器优势在于隐层的非线性激活函数,这种非线性变换可以用来解决许多复杂问题。研究者常使用堆叠的方式构建深度自编码器网络。常见的自编码器变体有降噪自编码器(DAE)、稀疏自编码器(SAE)、变分自编码器(VAE)等。1.5 受限玻尔兹曼机另一个无监督表示学习模型是受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)。与自编码器不同之处在于,RBM通过一个随机视角来估计输入数据的概率分布,以此来对数据的生成过程进行建模。因而,RBM也被看作生成模型。在标准玻尔兹曼机中,所有单元之间采用全连接的方式,而在RBM中,任何两
15、个可见单元或任何两个隐藏单元之间没有连接。RBM的训练常采用随机优化,如Gibbs采样,生成输入数据的表示。此外,RBM可被分层堆叠形成一个深度置信网络(DBN),用于监督学习任务。2 深度学习模型在电子病历分析上的应用介绍完上述5种常见的深度学习模型,本节将详细分析这些模型在电子病历分析研究中的应用情况,包括应用于哪些任务,对模型做了哪些适配,以及取得的成果有哪些。表 1从深度学习模型的角度,给深度电子病历分析研究做了一个分类。2.1 多层感知机由于多层感知机比较简单,它在电子病历分析中多作为基础模型存在。Choi等7使用嵌入患者向量的MLP模型来预测心脏衰竭,其中患者向量通过临床事件的分布
16、式表示获得。患者一次就诊过程可以看作一个有序的临床事件集合,从入院、检查、手术、医嘱到出院,使用临床事件集合表示患者的方法称为患者向量表示。文献7和8均借鉴词向量分布式表示中的skip-gram方法来获取临床事件的分布式表示。2.2 卷积神经网络卷积神经网络在入院概率预测和命名实体识别任务中均有应用。Nguyen等9使用CNN来预测出院后无计划的再入院概率,网络输入为离散的临床事件代码,结果显示他们的方法优于Bag-of-Codes和Logistic回归两个基准模型。有趣的是,他们发现输入序列中的长时间间隔并不会影响预测的准确性,他们也没有对数据做特殊的预处理。Wu等10将CNN应用在中文临床
17、记录文本的命名实体识别任务中,他们使用CNN对文本进行词向量的预训练,以此提高基准模型的准确率。2.3 循环神经网络循环神经网络因适用于时间序列建模,特别是处理文本,众多面向临床记录文本的研究均使用了循环神经网络。为从临床记录文本中抽取临床事件及其时间,Fries11使用了一个标准RNN,并结合从两大临床语料库预训练出的词向量和人工构造的特征。Jagannatha等12, 13尝试多种RNN模型来从临床记录文本中抽取概念,他们将此视为一个序列标记任务,为每个单词分配药物或疾病标签。他们尝试的RNN模型有LSTM、GRU、双向LSTM、LSTM与条件随机场(CRF)的多种组合。他们实验发现,所有
18、RNN模型的结果都比基准的CRF有大幅度提升,尤其是在检测那些细微属性(如服药时长和频率、疾病严重程度)上表现更好。与文献7任务类似,Pham等14也研究了患者向量表示,不同的是,他们使用改进的LSTM对时间、入院方式、诊断结果和治疗措施进行建模,以此表示完整的疾病史。在结果预测方面,RNN也有广泛应用,如疾病预测15、肾移植的术后并发症预测16。Choi等15提出了Doctor AI框架对医生行为进行建模,从而实现疾病预测。他们在患者的(临床事件,时间)观测对数据上训练一个GRU网络,目标是预测下一个临床事件及其时间,以及未来患病情况。实验结果表明,Doctor AI框架recall30的值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 电子 病历 分析研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。