基于互联网数据的传染病预测模型研究进展.pdf
《基于互联网数据的传染病预测模型研究进展.pdf》由会员分享,可在线阅读,更多相关《基于互联网数据的传染病预测模型研究进展.pdf(6页珍藏版)》请在咨信网上搜索。
1、基于互联网数据的传染病预测模型研究进展何琪乐张瑾瑶吴卓存杨予青赵伟胡红濮(中国医学科学院 北京协和医学院医学信息研究所北京 北京市垂杨柳医院北京 )摘要目的 意义 系统梳理基于互联网数据的传染病预测模型相关研究,助力实现传染病监测关口前移,为构建传染病智慧化立体防治体系提供参考。方法 过程 对 核心数据库和中国知网收录的近 年基于互联网数据的传染病监测预警研究发展历程及研究方向进行梳理,分析当前主要问题与挑战,总结常见预测模型及其优化方向。结果 结论 互联网传染病监测研究呈监测疾病多样化、数据来源精细化和专业化等趋势。由于互联网数据的复杂性和不确定性,现有模型大多仅适用于短时或实时预测。通过构
2、建组合模型、加强多源数据融合、完善关键词与影响因素选择等方式,可进一步优化模型,加强拟合效果和预测能力。关键词传染病监测预警;流行病情报学;预测模型;搜索引擎;互联网 中图分类号 文献标识码 ,;,;修回日期 作者简介何琪乐,硕士研究生,发表论文 篇;通信作者:胡红濮,研究员,博士生导师。基金项目国家社会科学基金重点项目(项目编号:);国家社会科学基金重大项目(项目编号:);中国医学科学院医学与健康科技创新工程(项目编号:)。医学信息学杂志 年第 卷第 期 ,引言对传染病进行监测预警是控制其传播的重要手段。传统传染病监测主要依靠各级医疗机构、疾控中心和监测哨点医院等构成的监测网,虽然准确性高但
3、监测速度通常滞后于传播速度,且应对新发传染病时数据来源较少。基于 核心期刊数据库和中国知网,以 ()(“”“”)“”)和(主题 (传染病 流行病)(监测 预测 预警)(“搜索引擎”“大数据”“互联网”)(主题 “信息流行病学”)为主题词检索式,对 年发表的基于互联网数据的传染病预测相关文献进行检索,查得英文文献 篇,中文文献 篇。分析检索结果发现,互联网数据可用于传染病监测预警已成为研究共识 ,且相关论文发表数量趋势,见图 。在既往研究基础上,本研究从基于互联网数据的传染病监测预警研究发展历程、应用场景、常见预测模型、主要问题与挑战、发展趋势等方面进行探讨,旨在为进一步建立基于大数据、人工智能
4、等新技术的智慧公共卫生应急管理模式提供参考依据。图 年国内外基于互联网数据的传染病预测相关论文发表数量趋势 基于互联网数据的传染病监测预警应用场景互联网传染病监测数据源可分为搜索引擎结构化数据和社交媒体文本数据。基于搜索引擎数据的研究主要开展基于关键词检索指数和传染病上报数据的时差相关性分析,构建不同滞后期的复合关键词及搜索指数 。文本数据主要来源于推特、微博等社交媒体。在前期文献检索的基础上,补充结合文献计量主题词相关结果,统计 年国内外热点疾病相关论文年发表数量,共计 篇,分类绘制气泡图,圆圈直径大小反映论文数量的多少,见图 。分析可得,流感、肺结核、艾滋病、登革热、埃博拉、寨卡、乙型病毒
5、性肝炎(乙肝)等疾病为研究热点。图 年国内外各传染病相关论文发表数量及趋势流感是最早将网络搜索数据纳入监测系统的传染病,以谷歌流感趋势最具代表性。但由于其准确性会受到用户搜索行为、传染病季节性等因素影响,其预测的流感发病率高于美国疾控中心的实际报告值 。等 融合多来源搜索数据预测 年甲型 流感的流行规模,发现较单一搜医学信息学杂志 年第 卷第 期 ,索引擎的拟合效果更优;等 以医学专业网站 及医学专业词汇作为数据源和关键词预测流感,发现专业网站可靠性更强。搜索数据融合地理位置及环境因素可进一步获得较理想的监测效果。等 提出谷歌登革热趋势,发现在高流行地区和登革热传播适宜气候中准确性更高;等 分
6、别拟合并比较动态模型和线性回归模型在不同地域层次上的肺结核监测能力;唐家博 以手足口病为监测预警对象,对互联网和气象数据进行挖掘。基于互联网的传染病预测模型种类与比较 简单回归预测模型多元线性回归是常见的简单回归模型之一。等 将其用于流感监测,发现可以通过为每个检索关键词分配不同权重减少干扰词汇产生的噪声。但解释变量之间可能有多重共线性,且向后剔除变量时会减少原数据信息。时序预测模型 统计学模型常用于互联网数据传染病监测的统计学模型包括自回归移动平均(,)模型和动态线性模型(,)。可将非平稳的时间序列平稳化,将因变量对其滞后值和随机误差项的现值和滞后值进行回归,有效提取具有季节性和趋势性的数据
7、中的线性信息,但对非线性、无规律、波动大的数据和长期预测效果较差 。是一种高斯线性状态空间模型,可用于对非平稳时间序列进行建模,包括测量方程和状态方程。测量方程可以根据某时刻的参数向量描述此时对应的因变量,状态方程可以建立该时刻的参数向量和下一时刻的参数向量之间的联系,从而进行预测 。传统机器学习模型()随机森林(,)。是对多个弱分类器进行组合的有监督学习,具有较高准确性和泛化性能 。等 通过分析 年推特中关于疾病情绪的社交媒体文本,监测登革热和流感,并发现 在提高准确度、精度、召回率等方面均优于比较模型。张金宇 以 年登革热流行情况为研究对象,发现 预测效果整体较好,但不足以预测发病高峰。这
8、可能是由于 虽然能更好地削弱异常值对结果的影响,但导致差异度小的正确决策被淹没。()极端梯度提升(,)。是一种基于决策树的提升算法,使用多个分类树和回归树来学习输入变量和结果之间的非线性和复杂关系,可以更灵活地调整更多参数,整体上寻求最优解,在一定程度上避免过度拟合 。等 针对手足口病建立了 和 预测模型,发现从整体来看,较 模型具有更好的预测能力。()支持向量机回归(,)。特点是通过非灵敏损失函数测量拟合优度,而非使用常规的二次损失函数(均方差)。等 在进行流感相关推特文本分析时发现,具有最高精度和最短训练时间。但黄泽颖 发现多元线性回归模型相较于 能更好地拟合 年 亚型禽流感新增病例数且预
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 互联网 数据 传染病 预测 模型 研究进展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。