大型综合性医院生物样本信息资源大数据科研平台的建设与应用.pdf
《大型综合性医院生物样本信息资源大数据科研平台的建设与应用.pdf》由会员分享,可在线阅读,更多相关《大型综合性医院生物样本信息资源大数据科研平台的建设与应用.pdf(6页珍藏版)》请在咨信网上搜索。
1、大 型 综 合 性 医 院 生 物 样 本 信 息 资 源 大 数 据科研平台的建设与应用刘辉蔡宏伟高娟娟张琳那天王亚文(西安交通大学第一附属医院西安 )摘要目的 意义 通过整合临床与生物样本信息,构建生物样本信息资源大数据科研平台,为科研人员提供一站式数据检索、集成、分析服务,建立数据治理体系,提升医院临床科研基础设施建设水平。方法过程 采用通用数据模型和数据治理技术,通过抽取、转换、加载等步骤整合来自不同厂商的数据源,提供统一数据访问入口。结果 结论 该生物样本信息资源大数据科研平台具备多维数据筛查和快速集成分析的优势,可为临床科研提供支撑。关键词生物样本;医疗大数据;数据治理;通用数据模
2、型 中图分类号 文献标识码 ,;修回日期 作者简介刘辉,博士研究生,工程师,发表论文 余篇;通信作者:王亚文,教授,博士生导师。基金项目陕西省重点研发计划一般项目(项目编号:)。引言生物样本是疾病研究的重要基石。近年来,对其管理与利用的监管不断加强。年我国首个“生物经济五年规划”提出要强化生物资源利用平台支撑 。现代生物样本库作为生物样本资源保存医学信息学杂志 年第 卷第 期 ,的主要实体,应具备生物样本的全过程管理(“湿库”),以及相关临床数据资源的整合系统(“干库”)。整合多组学与临床数据“干库”对推动精准医学研究发展具有重要价值 。医疗大数据的快速增长与科学应用逐步深入使“干库”建设尤为
3、重要。目前国内生物样本库“湿库”信息系统建设相对成熟,“干库”建设基础较薄弱,亟须进一步加强。整合医院多个信息系统的临床数据是“干库”建设关键环节。各临床业务系统数据标准化程度不足,系统架构、数据库等不同 ,临床医疗大数据的多源异构使“干库”建设面临巨大挑战 。近年来,国内一些大型研究型医院通过信息科或大数据中心推进医疗大数据平台建设,并取得一定成果 。目前整合临床数据和样本信息资源(“干库”建设)仍处于探索阶段,缺乏标准化的建设和应用方案。本文以西安交通大学第一附属医院(以下简称医院)的全院级生物样本信息资源大数据科研平台为例,介绍对生物样本及相关临床数据的整合、治理和应用案例。该平台旨在最
4、大化挖掘战略性医疗数据资源价值,实现与实体生物样本融合,为医学临床研究提供从生物样本到临床数据的一体化科研服务。生物样本信息资源大数据科研平台设计以样本数据和临床数据为核心,建立以样本为中心的分子数据模型和以患者为中心的临床数据模型 ,以支持患者全生命周期浏览、科研灵感发现、人群精准检索、统计分析、科研项目管理、科研随访等多种功能,见图 。图 生物样本信息资源大数据科研平台总体设计 生物样本信息资源大数据科研平台实践利用通用数据模型(,)解决医院临床数据资源多源异构和数据整合复杂性的问题。从多种电子数据库中提取特定信息的结构和框架,通过标准化的变量表单从海量数据中快速、准确地提取所需关键信息
5、。其定义了统一的数据标准,并通过数据的抽取、转换和加载(,)过程形成标准化数据结构 。的应用有效解决了数据整合难题。本文基于 构建临床表型数据库,使用机器学习模型将医学数据映射到临床表型 中。医学信息学杂志 年第 卷第 期 ,同时,设计标准化表型研究智能处理方法和医疗大数据挖掘与分析方法。通过 高效识别医疗数据中核心实体,并充分利用其关系构建事件图谱,实现医疗大数据的结构化和事件序列化,见图 。关键技术模块包括数据采集与存储、映射转换和智能挖掘、医学元数据检索引擎构建、应用数据模型(,)开发与使用。图 临床表型通用数据模型 多源异构临床表型数据采集与存储 多源异构临床表型数据采集本文构建的多模
6、态数据库能够提取和存储患者基本信息、病历信息、病理报告和影像报告等各种类型数据,涉及文本、图像、数字和符号等多种形式。然而,临床表型数据来源为医院信息系统(,)、检验信息系统(、)、影像存储与传输系统(,)、电子病历(,)系统等,每个系统采集数据的标准和规范不同。为解决这一问题,将采集的数据分为历史数据和实时数据,历史数据通过厂商镜像库推送到本地中心库,而实时数据通过 工具访问厂商实时镜像库进行抽取,或采用符合医疗信息系统互操作性协议等标准协议的前置技术进行实时抽取。本地原始数据存储库构建采用前置机技术从不同厂商以数据表为维度 抽取临床数据,并以此构建本地原始数据存储库。对于基于文档的非结构化
7、电子病历数据,通过转换配置将其以数据文件形式存储到本地中心库。对于 中的图像非结构化数据,通过对其报告文本数据进行结构化和文档化处理,建立起报告文档数据与图像数据之间的映射连接,并将其存储到本地中心库。由此有效地管理和利用临床数据,并建立报告文档数据与图像数据之间的关联。临床表型本体数据库整合与智能挖掘 患者主索引建立根据医院业务系统汇总患者基本信息数据,建立患者主索引(,),使用患者的原始 号、身份证号、护照号、住院号、门诊号、姓名、性别、出生年月、手机号等信息来判断不同 或住院号的患者是否为同一人,并生成主索引号,见图 。生物样本信息以捐献者(患者)为维度进行组织和管理,每个捐赠者赋予唯一
8、标本号,样本赋予唯一样本编号,样本编号是构成数据信息的最小颗粒标识符。通过样本编号可以追踪和管理样本,并与临床信息关联。医学信息学杂志 年第 卷第 期 ,图 服务总体框架 统一 建立通过建立统一的数据结构和标准通用模型,实现各临床业务系统数据标准化处理。模型包括两部分:结构化数据模型转换和非结构化电子病历解析入库。采用机器学习模型将结构化和非结构化的临床医疗数据映射到临床表型 上,以提高临床医疗数据的可管理性和可共享性。数据清洗和质量控制数据清洗对后续研究的模型效果和最终结论至关重要。数据清洗包括字段清洗、正则表达式清洗和复杂逻辑清洗。通过数据清洗将不同来源的数据整合到一个参考体系下。本文使用
9、数据质控模块检验数据质量,包括完整性(检验空值率)、规范性(验证字段格式和数据是否符合规范要求)、有效性(验证业务发生时间的先后关系)、一致性(校验数据总量,确保数据一致性)、唯一性(进行重复数据校验)、关联性(校验孤儿数据,确保其与引用数据的完整性关联)和分布性(根据分布字段进行分组统计,分析数据的时间和值域分布)等。数据脱敏为保护患者隐私,根据 个人信息保护法 信息安全技术 个人信息安全规范等相关法律法规和标准,对临床数据中的个人信息(如姓名、身份证号等)进行脱敏处理。脱敏过程中严格控制数据的使用权限和获取范围。根据数据的敏感程度,采用加密、匿名化、去标识化等方法进行数据处理,如用“”代替
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大型 综合性 医院 生物 样本 信息资源 数据 科研 平台 建设 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。