基于机器学习方法的商业医疗险赔付预测研究——引入健康行为偏好的新视角.pdf
《基于机器学习方法的商业医疗险赔付预测研究——引入健康行为偏好的新视角.pdf》由会员分享,可在线阅读,更多相关《基于机器学习方法的商业医疗险赔付预测研究——引入健康行为偏好的新视角.pdf(13页珍藏版)》请在咨信网上搜索。
1、随着人们健康意识不断增强,医疗保障需求呈现多元化特点.为进一步推动商业医疗保险健康可持续发展,对商业医疗险赔付的精准预测研究很有必要.基于包括个人行为偏好的经验数据,构建并对比商业医疗险的创新预测机器学习模型,分析与医疗险赔付风险相关的重要因素,研究发现,个人对健康信息的关注等行为因素与赔付风险高度相关,可以为年龄、性别、受教育水平、婚姻状况、地区等传统赔付经验分析因素提供很好的补充.与索赔发生关联最大的是年龄,与案均医疗赔款关联最大的是赔付次数,远高于其他因子.当赔付次数多于次时,预测案均医疗赔款呈发散性分布.被保险人为女性、学历更低的人更易发生索赔.疾病负担呈现区域不平衡特点.据此提出完善
2、商业医疗险风险管理等建议.关键词行为数据;机器学习;医疗险;赔付预测D O I:/j c n k i 基金项目教育部人文社会科学重点研究基地重大项目“中国特色多层次养老保障体系研究”(J J D )一、引言虽然我国医疗事业发展取得一定成绩,但是医疗费用的快速增长给社会和个人带来了巨大压力.年我国个人卫生支出占卫生总费用的比例达到 ,即我国有近三成的医疗需求没有得到有效保障.党的二十大报告提出,要“健全社会保障体系”,“积极发展商业医疗保险”.但商业医疗险作为个人医疗费用风险保障的重要提供者,目前发展并不充分.银保监会 年底数据显示,我国商业医疗险覆盖人数 亿,不足总人口的.商业医疗险覆盖面的不
3、足,一方面是因为我国基本医保实现了广覆盖,且保费较低,低收入者在有限的费用预算下较少购买商业医疗险.调查数据显示,约有 中高净值家庭配置了商业健康险,中高净值家庭中成员拥有商业健康险比例为;但是,在非中高净值家庭这两种比例分别为 和.另一方面,商业医疗险发展缓慢,也与其经营特点密切相关.由于存在广泛的信息不对称,被保险人比保险公司拥有更多个人信息,保险公司难以识别高风险人群,由此采取的分离均衡策略使得低风险人群投保意愿较低,致使商业医疗参见国家卫健委:年我国卫生健康事业发展统计公报,年月 日.参见中国人寿保险股份有限公司、北京大学中国社会科学调查中心:中高净值家庭资产配置和保险保障白皮书,年月
4、 日.参见J D a v i dC u m m i n s a n dL a u r e l J W i l t b a n k,“E s t i m a t i n g t h eT o t a lC l a i m sD i s t r i b u t i o nU s i n gM u l t i v a r i a t eF r e q u e n c ya n dS e v e r i t yD i s t r i b u t i o n s,”J o u r n a l o fR i s ka n dI n s u r a n c e,v o l ,n o ,p p ;M a r
5、kJ B r o w n e,“E v i d e n c eo fA d v e r s eS e l e c t i o n i n t h e I n d i v i d u a lH e a l t hI n s u r a n c eM a r k e t,”J o u r n a l o fR i s ka n dI n s u r a n c e,v o l ,n o ,p p ;V D a r d a n o n i a n dPLD o n n i,“I n c e n t i v ea n dS e l e c t i o nE f f e c t so fM e d i
6、g a pI n s u r a n c eo nI n p a t i e n tC a r e,”J o u r n a l o f H e a l t hE c o n o m i c s,v o l ,n o ,p p ;P B a j a r i,HH o n ga n dAK h w a j a,AS e m i p a r a m e t r i cA n a l y s i so fA d v e r s eS e l e c t i o na n dM o r a lH a z a r di nH e a l t hI n s u r a n c eC o n t r a c
7、 t s,W o r k i n gp a p e r,华中师范大学学报(人文社会科学版)第 卷险市场萎缩.也因为个人健康风险信息匮乏,保险公司难以充分挖掘并满足客户的差异化需求,致使商业医疗保险发展结构单一,同质化竞争现象严重,也难以获得愿意投保的潜在客户.这意味着科学、准确的医疗险赔付风险建模对中国保险公司和行业来说是至关重要的.积极探索可用于识别和预测的数据源,并获得关于模型方法与结果的相关规律,是大数据时代实现精准医疗风险建模的重要路径.对于医疗风险的预测一直是学界、业界的难题之一,然而由于我国保险公司经验数据积累有限,相关方法发展不足,精细化识别风险能力有待提升.总体来看,根据数据的
8、可选范围,目前商业医疗险的赔付风险建模有两种主要形式.第一种是根据一定时期内,人口整体的疾病发生率作为预测医疗需求的基础,这种方法的数据可得性较好,但由于存在选择效应,其结果的参考价值非常有限.第二种是根据医疗险过往的理赔数据,结合被保险人的特征数据直接预测索赔,这样的预测结果更具有针对性.而从建模方法来看,目前医疗险多依据大数法则确定医疗险赔付风险.学者利用矩估计、变换矩估计、极大似然估计和蒙特卡洛马尔柯夫链(MCMC)法估计住院费用,发现在住院费用分布接近正态分布时,各个方法的估计水平相近.接着,针对医疗险赔付风险的研究围绕着广义线性模型展开.部分研究运用广义帕累托模型来分析大额医疗险的定
9、价.另有利用广义线性模型分析理赔成本的研究发现,除了考虑年龄和性别风险因素外,还需要考虑婚姻状况、职业、地区等其他风险因素.但此类基于统计学的传统估计模型对样本的分布有一定要求,而且在拟合相当复杂的多项交互或非线性关系的数据时,缺乏灵活性.伴随着大数据与人工智能的飞速发展,机器学习方法得到了广泛应用.机器学习方法具有对数据分布要求较少、灵活度与预测精准度较高等特点,不仅可以较好地拟合非线性关系,还能够在保障预测准确性的同时,运用高维非结构化数据,可以广泛应用于医疗险发生率预测和医疗险赔付费用预测中.学者将广义线性模型与随机森林、L A S S O回归、L i g h tG BM三种机器学习方法
10、对比,预测老年痴呆症患者的医疗险住院费用,结果显示机器学习模型预测效果明显优于传统的广义线性模型.随着数据维度的逐步增加,个人行为信息作为风险偏好的主要表现,已被证实有助于提高预测精准度.学者基于大数据技术构建变换的隐马尔可夫模型,将被保险人多维度健康管理数据合理引入,实现了更精准的健康风险预测.本文观察到,鉴于保险公司越来越多地使用微信公众号、官方A P P等工具,在征得客户同意的前提下,收集了客户的触点行为信息,在一定意义上可以描述客户行为偏好.客户触点行为数据包括多种维度,涵盖接触内容、接触模块、险种名称、客户编码等.此类行为数据的好处是,它能够提供传统客户特征指标无法涵盖的、有关客户行
11、为偏好的宝贵信息,有助于更深入地了解客户需求.但是,由于客户触点行为数据获取相对困难,且保险保障过程中,保险公司与客户接触频率较低,客户触点行为信息可得性受限,目前基于此类数据的预测研究比较匮乏.因此,本文尝试运用某国内寿险参见陈滔等:商业医疗保险的保费计算方法研究,保险研究 年第期.参见陈滔等:住院医疗保险精算中预期住院费用和天数估计,中国卫生统计 年第期.参见A n aC C e b r i a n,M i c h e lD e n u i t a n dP h i l i p p eL a m b e r t,“G e n e r a l i z e dP a r e t oF i t
12、t oT h eS o c i e t yo fA c t u a r i e sL a r g eC l a i mD a t a b a s e,”N o r t hAm e r i c a nA c t u a r i a lJ o u r n a l,v o l ,n o ,p p 参见仇春涓、陈滔:我国补偿型住院医疗保险费率研究 基于理赔成本假设的分析,上海经济研究 年第期.参见孟生旺等:基于机器学习算法的车险索赔概率与累积赔款预测,保险研究 年第 期.参见AV i m o n t e t a l,“M a c h i n eL e a r n i n gv e r s u sR e
13、 g r e s s i o nM o d e l l i n g i nP r e d i c t i n gI n d i v i d u a lH e a l t h c a r eC o s t sf r o maR e p r e s e n t a t i v eS a m p l eo f t h eN a t i o n w i d eC l a i m sD a t a b a s e i nF r a n c e,”T h eE u r o p e a nJ o u r n a l o fH e a l t hE c o n o m i c s,v o l ,n o ,p
14、p 参见赵颖旭等:考虑老年痴呆症的医疗险住院费用预测与比较 基于机器学习模型,保 险研 究 年第期.参见Y J K i ma n d HP a r k,“I m p r o v i n gP r e d i c t i o no fH i g h C o s tH e a l t hC a r eU s e r sw i t h M e d i c a lC h e c k U pD a t a,”B i gD a t a,v o l ,n o ,p p 参见完颜瑞云等:大数据背景下健康保险动态定价机制研究 基于变换的隐马尔可夫模型,保险研究 年第 期.第期刘莹等:基于机器学习方法的商业医疗险
15、赔付预测研究 引入健康行为偏好的新视角 公司的某报销型医疗险产品的各类历史经验数据,并特别收集医疗险客户的在线触点行为数据,来探究客户健康行为偏好与赔付风险的关系,比较不同机器学习方法预测医疗险的索赔发生率与案均医疗赔款的效果,以找出最优预测模型,提高预测精准度,期待可以为保险公司在精准定价、差异化产品设计、稳定医疗险盈利能力等方面提供参考.与已有文献相比,本文的创新点和主要贡献在于:第一,本文将机器学习法作为风险识别工具,克服了传统模型的不足,提高了风险预测的准确性和科学性,是对传统计量方法的有益补充;第二,本文创造性地将客户在线健康行为纳入模型分析,为商业医疗险探索新型健康管理方式提供思路
16、;第三,本文还直观地展示模型因子重要性排序,从而为后续精准识别风险提供依据.二、数据(一)变量描述本文选取某寿险公司某一年期个人医疗险数据进行研究.该医疗险是主险,可报销被保险人在保障期间内因疾病和意外产生的必要且合理的住院、门诊医疗费用,保险责任年度限额 万元.该险种保单数据预处理后累积了共计 条投保数据,地理范围覆盖全国 省、直辖市、自治区,时间跨度为 年,数据量充足,数据维度丰富,为研究结果的可靠性提供保障,并且数据经过脱敏处理,不涉及隐私问题.由于文章关注的是医疗险赔付风险预测,所以选择是否发生索赔(C l a i m,是;C l a i m,否)以及实际赔付金额作为目标变量;在已有研
17、究的基础上选择充足的解释变量,根据解释变量属性可以划分为分类变量、连续变量,根据含义可以划分为三类:一是社会性变量,包括投保省份、投保渠道、被保险人与投保人关系、被保险人婚姻状况、投保人婚姻状况、被保险人学历、被保险人职业类型、保单年度、续保类型;二是生理性变量,包括投保人性别、年龄;三是在线行为变量,包括健康生活习惯行为、健康意识行为、就医倾向行为.在线行为变量是本文重点关注的个人行为偏好变量,其中健康生活习惯行为是指客户在微信公众号、官方A P P等移动客户端点击接触与健康有关的生活习惯信息(比如“健走”、“起居”、“体重”等)的行为;健康意识行为是指客户点击接触健康资讯类信息(比如“养生
18、”、“健美”、“合理膳食”等)的行为;就医倾向行为是指客户点击接触医疗服务(比如“在线问诊”等)的行为.在医疗费用预测模型中,特征变量还包括赔付次数.表对各类变量进行了详细的描述.图、图、图描述了样本数据的整体情况.可以看出,被保险人年龄总体呈正态分布,学历主要分布在初中、高中、中专、大专这个范围;三类在线行为数据呈现不平衡特点,这可能是由于触点数据的收集还处于初始阶段,信息推送与采集规模有限.从投保人性别分布看,女性稍多于男性,这可能意味着女性更倾向于成为家庭保障的组织者.被保险人与投保人关系中,本人投保占比最多,其次以直系家庭关系为主.投保人、被保险人的婚姻大多数处于已婚、未婚状况.另外,
19、绝大部分是续保保单,说明多数被保险人满足自动续保或人工续保条件.从保单数看,保单相对较多分布在(,、(,、(,、(,这些年龄段,合计占比超过;而索赔更易发生在(,、(,、(,、(,等年龄段,保单发生率平均在 以上.总体上,在 个保单中,有 个保单发生了索赔.经统计,单个保单赔付次数最多 次,保单平均索赔发生率为 ,实际案均医疗赔款 元,最大值为 元.由于数据集较大,我们选择保留正常的最大值样本,从而更好地为模型带来泛化效果.参见赵颖旭等:考虑老年痴呆症的医疗险住院费用预测与比较 基于机器学习模型,保险研究 年第期.参见潘兴:我国商业健康保险风险管理研究,对外经济贸易大学博士毕业论文,年.参见李
20、庆霞:长期健康保险精算研究,厦门大学博士毕业论文,年.参 见AL u oe ta l,“T h eE f f e c to fO n l i n e H e a l t hI n f o r m a t i o nS e e k i n go n P h y s i c i a n P a t i e n tR e l a t i o n s h i p s:S y s t e m a t i cR e v i e w,”J o u r n a l o fM e d i c a lI n t e r n e tR e s e a r c h,v o l ,n o ,e 华中师范大学学报(人文社
21、会科学版)第 卷表变量描述表类别名称解释属性取值传统特征行为特征生理性变量社会性变量在线行为变量性别被保险人性别分类 女;男年龄被保险人年龄定量,投保省份保单投保所在地分类 个省、直辖市、自治区渠道保单销售渠道分类 个人营销;团险直销;银行代理;网络销售;电话直销;经代渠道被保险人与投保人关系被保险人与投保人关系分类 本人;父 子;父 女;母 子;母 女;祖孙;夫妻;兄弟;兄妹;姐弟;姐妹;叔侄;姑侄;外甥;媳;婿;姐夫;朋友;同事;师生;雇佣;其他;法定;无指定;子女被保险人婚姻被保险人婚姻状况分类 未婚;已 婚;丧 偶;分 居;再 婚;同居;离婚投保人婚姻投保人婚姻状况分类 未婚;已 婚;
22、丧 偶;分 居;再 婚;同居;离婚学历被保险人学历程度定量 博士以上;硕士;本科;大专;中专;高中;初中;其他保单年度该指标为保单生效的投保年份定量 续保类型续保标志分类 非续保;续保;人工续保被保险人职业类型第一类:职员;第二类:教师;第三类:销售;第四类:技师;第五类:财务;第六类:医护及其他分类,健康生活行为被保险人在线点击行为接触的数据中,接触与记录健康生活习惯有关触点的行为分类 有;无健康意识行为被保险人在线点击行为接触的数据中,接触健康资讯、健康知识普及等与健康意识有关信息的次数连续客户实际点击的总次数就医倾向行为被保险人在线点击行为接触的数据中,接触在线问诊、脸医等医疗服务触点的
23、次数连续客户实际点击的总次数目标变量索赔次数将索赔次数大于等于次的记为发生索赔分类连续 是;否/,实际赔付保单实际赔付的金额定量,表描述性统计变量数量均值标准差最小值 分位数 分位数 分位数最大值性别 年龄 渠道 被保险人与投保人关系 被保险人婚姻 在训练模型时,为了降低虚拟变量分类数,将地区变量划分为华东、华南、华北、华中、东北、西南、西北七个地区.华东地区:江苏、浙江、安徽、福建、江西、山东、上海;华南地区:广东、广西、海南;华北地区:河北、山西、北京、天津、内蒙古;华中地区:湖北、湖南、河南;东北地区:辽宁、吉林、黑龙江;西南地区:四川、云南、贵州、重庆、西藏;西北地区:宁夏、新疆、青海
24、、陕西、甘肃.第期刘莹等:基于机器学习方法的商业医疗险赔付预测研究 引入健康行为偏好的新视角 续表变量数量均值标准差最小值 分位数 分位数 分位数最大值投保人婚姻 学历 续保类型 被保人职业类型 健康生活行为 健康意识行为 就医倾向行为 赔付次数 实际赔付金额 图年龄、年份、学历、行为分布图投保省份分布图性别、关系、婚姻、续保分布表某公司某医疗险 年总计赔付情况年龄区间保单件数保单占比发生件数发生次数发生率(保单)发生率(次)(,(,(,(,(,华中师范大学学报(人文社会科学版)第 卷续表年龄区间保单件数保单占比发生件数发生次数发生率(保单)发生率(次)(,(,(,(,(,(,(,(,总计 (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习方法 商业 医疗 赔付 预测 研究 引入 健康 行为 偏好 新视角
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。