医保欺诈行为的主动发现-数学建模论文.doc
《医保欺诈行为的主动发现-数学建模论文.doc》由会员分享,可在线阅读,更多相关《医保欺诈行为的主动发现-数学建模论文.doc(47页珍藏版)》请在咨信网上搜索。
1、2015 年深圳杯数学建模竞赛论文医保欺诈行为的主动发现参赛队员:姓名学号学院所在系联系电话戴鑫10131629信息学院自动化15356573010吴倚天10132376理学院数学与应用数学13764861265马先强10131048药学院制药工程187212918022015 年 5 月 30 日摘要中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭,但 随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为,这使得国 家医疗体系支出增多,医疗体系经济压力增大。要解决这一问题,防止医疗骗保, 医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病 人信息太过
2、庞大,且变化十分迅速,不可能使用传统的方法逐一检查病人的行为 记录和背景信息,而必须使用高效和自动化的数据库挖掘工具,扫描病人行为, 找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为, 防止危害的进一步扩大。数据挖掘是很好的处理大量数据,从中挖掘信息和知识的工具。对骗保行为 来说,这一违规行为的病人在整个病人数据库中所占比例较小,且这部分病人的 拿取药时间和开药金额等信息往往表现异常,与正常用户很不一样。就开药金额 单张处方费用问题来说,如果将整个病人数据库视为一个点集,这部分病人就可 以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常 点之间的差异性找
3、到他们。本论文采用基于分辨率的孤立点挖掘算法(RB 算法),建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库,并且无需引入参数。但是 RB 算法 仅从数据集全局出发寻找孤立点,会导致孤立点的寻找过程中忽略了数据点所在 的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的 分辨率孤立点挖掘算法(WRB 算法),WRB 算法计算每个孤立点相距最近的类的稠 密度测度作为分辨率的权重。从全局和局部出发,综合考虑数据点周围的点的个 数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立 程度。就病人取药时间的问题,将病人的取药时间看作一个个点,将点的个
4、数以及 密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度 算法对其密集度进行度量,从而排序,最后结合实际,进一步提出了混合密度算 法。最后我们将病人数据代入模型,通过 MATLAB,利用 RB 算法、WRB 算法以及 密集度算法得出可疑病人,RB 算法以及 WRB 算法的交集即为可能用高额处方骗 保的病人,而利用混合密度算法得出的孤立程度较大的点,即为可能存在骗保的 病人。最后我们给出了每个科室的孤立程度最大的前十名,供有关部门进行调查, 同时也给出总体前 10 名,在人力物力不足情况下,可优先调查。本文的创新点在于从孤立点挖掘的 RB 算法出发,考虑密集程度对孤立点的
5、影响,在 RB 算法的基础上引入权重参数,构造了 WRB 算法。同时在考虑费用的 基础上,考虑了拿药时间,从多角度验证嫌疑用户的欺诈行为。关键词:医疗骗保,数据挖掘,孤立点,孤立因子,密集度一、问题重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。我 们已经拥有了病人资料、费用明细表、费用费表等核心的
6、一些数据,我们需要在这些数据中找到可疑的病人或处方。二、数据处理与分析2.1 数据预处理输入数据是孤立点挖掘的一个重要特征。模型的输入,一般是数据记录的整 合,每个数据实例可以用一组属性值(也称特征,变量,维度等)来描述。属性 值可以有不同的类型,如布尔型,连续型和离散型等。每个数据可以包含一个或 多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如, 对于基于统计学的挖掘模型必须输入连续型或离散型额数据。本次的实验数据来自附件的 excel 中,由于数据存在着不完整,不规范,不匹配 等问题,为了提高数据挖掘的质量,去除会对结果产生影响的因子,需要对数据 进行预处理,数据预处
7、理的过程包括三个步骤: (1)数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关键要素则 删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项,如药 品单价与费用为负值。 (2)目标数据提取:第一题研究的单张处方药费特别高,而材料只给出了账单 中的一个个条目,通过对 30 万条记录的比对,我们发现一张处方对应一个账单 号,于是我们以同一账单号为条件,对数据进行条件加和,得到一个个对应一定 费用的账单。此外我们对于每个病人的取药次数与分布也进行了提取。 (3)数据规范化:由于附件中给出的费用数据范围太大,造成计算复杂度大大 提高,故将数据属性数据按比例缩放,使之落入一个小的特定
8、区间,本次实验采 取的是最小-最大规范化方法,即对原始数据进行线性变换。假定属性 A 的最小 最大值分别为 minA 和 maxA,那么规范后的 A 的属性值为Vv - minAmaxA - minA2.2 数据情况概述在建立模型之前我们希望通过观察数据的分部情况来决定采取什么算法去 估计哪些用户为可疑用户,以八号科室为例,如下图由上述数据点可以看出,点的分布在一定程度上出现在一些区间集聚的特 征,也就是如图所示的几个明显的条带,并且在最大点处,虽然寻找过大点的最 直接思路是找最大的点,但我们可以看到,在最大值附近,有三个点,呈现了一 定薄的层的特征,也就是说可能这虽然是个大的处方,但它可能也
9、是正常的,比 如是对一些严重疾病的处方,是正常处方,只不过概率比较小罢了。所以判断过 高点不能仅从价格来判断,应该结合他的分布,一个感冒药的处方过高时,会脱 离他的正常区间,在此过程中很可能停在一个不属于任何区间的“中间区域”, 这种处方虽然可能价格不高,但它也应属于“过高点”的概念。通过以上分析, 我们决定利用孤立点的概念,通过计算与点的孤立程度的方式来寻找这些不寻常 的过高点。并且考虑到科室皆有集聚现象,但集聚情况并不相同,又为了防止一 个科室的集聚遮住另一个科室的孤立点,我们采用了分科室讨论的方式。模型假设(1)不考虑科室中只有一个人得某种病,比如儿科中只有一个孩子得小儿麻痹 的数据,导
10、致此数据与儿科中其他数据明显不同,默认为每种病都有几个可用的 数据。(2)不考虑某病人分开多次配药,我们默认每个病人配药就配一次或者极少次。 即一个处方对应一个账单号。 (3)只考虑费用的总和,某种费用有问题视为总费用有问题 (4)不考虑由于特殊情况而出现的需要过多取药的情况四、符号说明1.对于过大问题名次含义符号相对价格x孤立因子ROF每一步的分辨率大小r1,r2,r3Smin 到Smax 之间所有分辨率变化次数R簇所包含的所有点的个数ClusterSize分辨率未变化钱r0分辨率变化次数t分辨率变化到当前步骤T2.对于取药过多问题设一个病人共有 n 次取药记录,且记录分别落入 m1,m2,
11、m3,m4.mj 的日子,由于本次数 据的日期只有 1 月 1 日到 1 月 31 日,以及 3 月 24 日,所以使其分别对应 1,2,3.31 以及83,因为 3 月 24 日数下来就是 83(31+28+24),于是 m1,m2,m3,m4.mj,落于1,2,3.31,83的区间,设各个日子有 gj 个记录,即有 gj 个点,把一个点记为 amjii ,即为该病人的第 i 个数据,且其落入 mji 日子,ji 表示这第 i 个点对应的日子序号。此外,在一维格子分布密集度算法下,定义 Mi 为第 i 个点的密集度分数,而 D 为所研 究的那一个病人的总体密集度分数而在本文的改进算法中,取
12、E 表示该病人的最终合成密度分数 ,R 表示日间系数,表 示病人数据在天与天之间分布的密集程度。而 k 表示单日最高次数占最终合成密度分数的比 例,而(1-k)表日间系数所占比例。五、模型建立1.对于过大问题RB 算法:基于分辨率的孤立点挖掘思想,当分辨率十分高时,所有的点都可以被视作孤立点,当分辨率十分低时,所有的店都属于同一个类,即不存在孤 立点。当分辨率增大的时候,相对更孤立的店就更容易被抛出。当分辨率逐步降 低时,孤立度不高的点会被抛进一个类里去。因此,当分辨率不断变化,数据集 中的每个点都会有一个累积的属性,可以用某个点的累积的类属性来度量这个点 对于离它最近的类的孤立程度。首先定义
13、邻近点的概念:在一个 k 维的数据空间 D 中,如果距离点 O 最近的 P 与点 O 之间的距离小于等于 1,那么 P 点就被定义是点 O 的邻近点,且 P 所有 的邻近点也是 O 的邻近点。这里阀值被设为 1,而实际上其倒数就为分辨率,事 实上这个阀值的初值的设定并不重要,因为当分辨率变化时,空间两点之间的距 离是一个相对值。分辨率算法可以找到一个分辨率值使得所有点相互之间的距离 大到没有一对能成为邻近点,也可以找到另外一个分辨率值使得所有点都是邻近 点。下面定义基于分辨率的孤立因子(ROF):当一数据集的分辨率在最大值和最 小值之间变化的时候,数据集中某个点的孤立因子为,分辨率变化时,前后
14、两个 包含这个点的簇的大小的比率的累积值,即:ROF(O) R ClusterSize(O,rl -1)-1l 1 ClusterSize(O, rl )WRB 算法:RB 算法虽然具有无参数,鲁棒性高,实时性,更新能力强等优点 , 但 是 有 两 个 缺 点 ( 1 ) 判 断 孤 立 点 的 依 据 测 度RClusterSize(O,rl -1)-1ROF(O),完全依赖聚类产生的类所包含的点的个ClusterSize(O, rl )l 1数。而没有考虑到不同的的类有不同的稠密性,在聚类的时候,也只是由全局设 定的分辨率以及两点之间的欧式距离来决定目标点是否应该被划入某个簇。在对 孤立点
15、按孤立程度排序时,往往因为忽略类的稠密度,和数据点周围的局部环境 使得孤立点的排序不正确,也就是说一个点在对一个较密集与较疏集欧式距离相 同的情况下,其相对于较密集的孤立程度应比相对于较疏集的孤立程度要大,所 以体现在算法上,其算法的等效距离要大。于是,在 RB 的基础上我们提出了WRB 算法给定一个数据集 D,在当前分辨率下设定每个类的初始稠密度=1 If(在当前的分辨率下,类没有融合进新的数据点)该类的密集度不变Else 类的稠密度=clustersize/M M=已经变化的分辨率值和倒数和当每个类如果融合进了新的点,类所在的范围必定也会变大。而当分辨率越来越当前分辨率变化数小,范围测度
16、M1就会越来越大,每个类融入的点越来越多,l 1rlclustersize稠密度值 Dc M 也会随之变化。1D t -T最后的稠密度权重值即为: Wi cMdWRB 聚类算法思路:在当前分辨率 r 和数据集 D:1.对于每个点 O,对于所有与点 O 间的距离小于等于阀值的点,找出每个维度正 负方向与点 O 最近的领近点。 2.选择没有被打标记的数据点,为其赋上类标记 C。为其设定一个初始临近点数 组 nChain,将 C 的类大小设置为 13.对该数据点的邻居点进行扫描,对于每个邻居点:如果该邻居点没有被打标记, 则将该邻居点放入数组 nChain,并打上类标记为 C,将 C 的类大小加 1
17、,如果该 邻居点已经被打上类标记为 C,则将类 C的类大小加到类 C 的类大小上,并 删除 C4.将指针移到 nChain 的下一个点,重复步骤 3 知道 nChain 中所有的点都被遍历过5.记录类 C 的大小6.重复步骤 2-5 直到所有的数据点都被打上类标记7.更新每个点的 ROF 值2.对于取药过多其实所谓的取药过多并一定是总量多,指的应是不正常的频率,依据一维格 子分布密集度算法,将一个点的密集度定义为i-1nMi 1(/| mji - mjk | +1)+ 1(/| mji - mjk | +1)k 1k i+1n而一个病人的密集度D = M k , 以下图为例k 1以上点分别得分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医保 欺诈 行为 主动 发现 数学 建模 论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。