医学人工智能产品测试数据集通用化描述方法研究.pdf
《医学人工智能产品测试数据集通用化描述方法研究.pdf》由会员分享,可在线阅读,更多相关《医学人工智能产品测试数据集通用化描述方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、窑医疗卫生装备窑 2023年7月第44卷第7期悦澡蚤灶藻泽藻 酝藻凿蚤糟葬造 耘择怎蚤责皂藻灶贼 允燥怎则灶葬造 窑 灾燥造援 44 窑 晕燥援 7 窑 July 窑 2023医学人工智能产品测试数据集通用化描述方法研究车贺宾1,薛万国1,徐洪丽1,董敬1,汪安安1,刘广东2*(1.解放军总医院医学大数据研究中心,北京100853;2.解放军总医院第六医学中心卫勤部,北京100037)摘要介绍了目前医学人工智能产品测试数据集的构建情况及存在的问题,提出了设计底层通用医学数据模块并通过模块灵活组配所需测试数据集的构建模式,制订了具有一定灵活性的测试数据集通用化描述方法,为有效检测医学人工智能产品
2、的准确性、实用性等性能提供了数据支撑。关键词医学人工智能产品;测试数据集;医学数据模块;通用化描述中国图书资料分类号R318曰R197.39文献标志码A文章编号1003-8868渊2023冤07-0074-05DOI院10.19745/j.1003-8868.2023143Generalized method for describing test datasets of medical artificialintelligence productsCHE He-bin1,XUE Wan-guo1,XU Hong-li1,DONG Jing1,WANG An-an1,LIU Guang-don
3、g2*(1.Medical Big Data Research Center,Chinese PLA General Hospital袁Beijing 100853,China;2.Health Service Department,the Sixth Medical Center of Chinese PLA General Hospital,Beijing 100037,China)AbstractThe construction and problems of the medical artificial intelligence product test datasets were i
4、ntroduced.A newmode for establishing medical artificial intelligence product test datasets was put forward involving in development of ageneral medical data modules and requirement-based arrangement of test datasets.A generalized test dataset descriptionmethod with a certain degree of flexibility wa
5、s formulated to provide data support for measuring the accuracy and practicalityof medical artificial intelligence products.悦澡蚤灶藻泽藻 酝藻凿蚤糟葬造 耘择怎蚤责皂藻灶贼 允燥怎则灶葬造袁2023袁44渊7冤院74-78Key wordsmedical artificial intelligence product;test dataset;medical data module;generalized description0引言人工智能(artificial in
6、telligence,AI)在社会生活中发挥着重要的作用。我国高度重视AI的发展,要求抓住机遇,积极推进政策落实,加快AI技术发展和产品部署实施1。自国家 新一代人工智能发展规划 重点提出要发展智能医疗以来,我国医学AI产业进入了全新的高速发展轨道,且呈现三大特征:(1)数据模态多样化:数据类型由单一影像扩展到影像、文本、信号、视频等模态及模态组合;(2)技术架构多样化:包含基于特征的模式识别、基于深度学习的数据挖掘、基于知识图谱推理的临床辅助决策等;(3)产品迭代常态化:随着技术、数据和需求的变化,产品迭代和更新后再评价的内容也变得愈加常态化2。当前医学AI产品检测服务还普遍存在局限性,比如
7、以单一病种为维度的标准数据集建设无法覆盖多目标、多用途产品的检测需求;业内很多公司自行尝试建立测试集来满足中试加速和针对性调优的需求,导致重复投入、方法不一、数据集质量和产品指标缺乏可比性,大大影响了我国新兴医学AI产业的创新发展3-4。为实现测试数据集快速建设、打破数据模态与病种单一导致难以适应繁杂多变的产品检测需求的困境,亟须建立统一管理不同主题的基础测试数据集体系,以便针对不同的产品生成具体的测试数据。基于此,本文提出医学人工智能产品测试数据集通用化描述方法,为有效检测产品的准确性、实用性等性能提供数据支撑。1测试数据集通用化描述思路本文通过调研7家国内AI医学影像典型公司、7家国内AI
8、辅助诊断典型公司、7家国内外AI药物研发典型公司、5家AI健康管理典型公司、2家AI疾病基金项目院国家重点研发计划项目(2019YFB1404801);中国人民解放军总医院医学工程实验室自主科研课题(2022SYSZZKY28)作者简介院车贺宾(1991),男,硕士,工程师,主要从事医学大数据治理、专病数据库研发方面的研究工作,E-mail:chehe原。通信作者院刘广东,E-mail:窑学术论坛窑栽澡藻泽蚤泽论著车贺宾,薛万国,徐洪丽,等.医学人工智能产品测试数据集通用化描述方法研究J.医疗卫生装备,2023,44(7):74-78.74 窑医疗卫生装备窑 2023年7月第44卷第7期悦澡蚤
9、灶藻泽藻 酝藻凿蚤糟葬造 耘择怎蚤责皂藻灶贼 允燥怎则灶葬造 窑 灾燥造援 44 窑 晕燥援 7 窑 July 窑 2023预测典型公司,梳理各企业旗下标志性产品,以及其需要的数据和产品功能,总结出当前市场医学AI产品的检测需求及热门的医学AI产品研发方向。结合专家经验,抽象融合真实世界中医院数据结构和门诊、体检、急诊、住院等诊疗流程,提炼出医学AI产品相关数据项,并归纳组合为不同的医学数据模块。为实现医学AI产品测试数据集统一管理,本文提出通过构建底层通用医学数据模块、高层配置基础测试数据集的2层架构解决医学数据模块通用化和测试数据集专用化的矛盾,制订具有一定灵活性的测试数据集通用化描述方法
10、,将多元化的测试需求统一到一个规则体系下,实现底层通用可组配、约束不同主题的产品测试数据集构建,如图1所示。不同医学AI产品根据不同需求对不同主题的基础测试数据集进行文本分词、图像标注、特征筛选等加工处理,从而生成具体的测试数据,满足不同的医学AI产品检测数据需求。2医学数据模块描述测试数据集所包含的测试用例定义为样本,1个样本为1个测试用例。样本数据中某一类型医疗观察的数据定义为医学数据模块。在原有医学多源数据结构化的基础上,调研多家医学AI企业旗下标志性产品的功能和所需测试数据。在此基础上,以医疗多源异构性的全域思想为指导,统筹多系统电子病历系统、实验室(检验科)信息系统、医学影像信息系统
11、等、多模态(文本、影像、视频、信号等)数据,对有研究价值的构成医学AI产品测试数据集的13类医学数据模块及其内容结构进行了规范化约定,形成 医学人工智能产品测试数据集医学数据模块描述规范。13类医学数据模块包括样本基本信息、生命体征、疾病诊断、手术记录、用药记录、检验结果、检查报告、病历记录、医学波形、医学数字影像、医学图片、门诊病历知识图谱问答集和标注记录,覆盖了市面典型AI医学产品研发所需(除组学数据外)测试数据和标注数据类型。每个数据模块包含模块名称和数据元,数据元包含中文名称、字段名、数据类型、长度、必填项、说明和值域等属性,值域取值范围参考WS 364.92011卫生信息数据元值域代
12、码第9部分:实验室检查、WS 445.102014电子病历基本数据集第10部分:住院病案首页、WS 5382017医学数字影像通信基本数据集 等卫生行业数据标准5-7。其中值域是数据元的允许值,包含可枚举值域、不可枚举值域2种类型。医学数字影像数据模块的数据元构成及属性见表1。13类医学数据模块按照数据结构化的形式要求、语义理解的简易化要求制订,并考虑以下几点:(1)去隐私化。与医院信息系统数据结构相比,不纳入可能泄露个人隐私且与医学AI产品检测不相关的数据元。如样本基本信息不涉及姓名、手机号、身份证号码、地址、婚姻状态、医保类型等;对于医学数字影像,同样将DICOM文件的患者姓名、机构名称进
13、行删除,将患者ID修改为新生成的虚拟ID。(2)去过程化。AI产品训练数据主要是结果数据,一般不含有业务过程数据,如医生、技师、中间结果、临时状态等。如疾病诊断不区分门诊初诊和住院诊断;病历记录不区分门诊、急诊和住院,只包含样本标识、病历记录代码、病历文本内容和病历内容记录日期时间。(3)数据元质控。质控依赖规范中的数据类型、长度、是否必填项、值域范围等属性。除此之外,医学数字影像头文件包含的影像序列可补充校验。(4)兼顾具体数据元和不确定数据元。具体数据元指市面已有医学AI产品的测试数据常用字段,值域明确;不确定数据元指未来医学AI产品可能需要的测试数据字段,值域未做限制。如医学数字影像模块
14、包含检查类型、检查部位等值域受限的数据元,也包含检查参数等未做值域限制的数据元,满足在13类医学数据模块外的不确定数据元存储要求。(5)数据来源为医疗器械。在检验结果、检查报告、医学波形、医学数字影像、医学图片等模块加入医疗器械唯一标识编码体系名称、设备标识、设备名称等数据元。3测试数据集构建描述通过调研医学AI产品检测需求与临床对于测试数据集构建的专业意见,测试数据集具有短期的相对稳定与长期的动态更新的特征。为了实现测试数据集开放共享,必须保证数据集构建的通用性和可灵活配置。本文在规范化的数据模块基础上,通过图1不同主题的基础测试数据集通用化描述思路不同主题的基础测试数据集测试数据集构建描述
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 人工智能 产品 测试数据 通用 描述 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。