半参数双重Tweedie复合泊松回归模型的贝叶斯分析.pdf
《半参数双重Tweedie复合泊松回归模型的贝叶斯分析.pdf》由会员分享,可在线阅读,更多相关《半参数双重Tweedie复合泊松回归模型的贝叶斯分析.pdf(8页珍藏版)》请在咨信网上搜索。
1、应用数学MATHEMATICA APPLICATA2024,37(1):272-279半参数双重Tweedie复合泊松回归模型的贝叶斯分析段星德,伍震寰,张钟妮,张文专(贵州财经大学数学与统计学院,贵州 贵阳 550025)摘要:为了分析健康保险行业中出现的半连续卫生保健费用数据,本文提出一类半参数双重Tweedie复合泊松回归模型.在分析中,首先采用修正鞍点逼近的数值方法去近似Tweedie复合泊松分布的密度函数;其次,利用Gibbs抽样技术和Metropolis-Hastings(MH)算法的混合算法获得了模型参数的联合贝叶斯估计;最后,给出了几个模拟研究以及把这些方法用来分析兰德健康保险
2、实验中的卫生保健费用数据.关键词:卫生保健利用;复合泊松分布;半连续数据;MH算法;Gibbs抽样;贝叶斯P-样条中图分类号:O212.8AMS(2010)主题分类:62F15;62J12文献标识码:A文章编号:1001-9847(2024)01-0272-081.引言在对健康保险行业进行研究时,人们常常分析卫生保健利用费用数据.而部分被保人在保险期间没有到医院进行医学治疗,因此这部分个体没有产生卫生保健利用费用.上述的卫生保健费用数据就是典型的半连续数据,即由零和正的连续数据所构成.近年来,对卫生保健利用费用数据进行统计建模,已取得了大量的研究成果.首先,Mihaylova等1综述了分析卫生
3、保健资源及费用数据的各种统计方法,这些数据具有偏态、零过多、多峰、重右尾等特点;Smith等2利用边际两部分模型分析半连续卫生保健服务数据;Neelon等3-4综述了在卫生保健服务领域中零调整计数数据和半连续数据的建模方法及其应用;Merlo等5利用两部分分位数回归模型来分析半连续卫生保健费用纵向数据.上述文献中使用的两部分模型分别对零数据和连续数据进行建模,这样的分割处理给半连续数据整体属性的解释带来困难.其次,Kurz6利用Tweedie回归模型对半连续卫生保健费用数据进行建模,并与Tobit模型、泊松回归模型及两部分模型进行比较分析.众所周知,Tweedie复合泊松分布是分析半连续数据的
4、一个重要工具并且具有可解释半连续数据整体属性的优势,因此对Tweedie复合泊松回归模型的研究引起众多统计工作者的青睐.一方面,Smyth和Jrgensen7以及Andersen和Bonat8分别研究了双重Tweedie复合泊松回归模型(即对Tweedie复合泊松分布的均值和散度参数联合建模)统计推断问题并用这类模型分析半连续保险数据;Halder等9在双重Tweedie复合泊松回归模型引入空间效应并收稿日期:2023-02-26基金项目:国家自然科学基金项目(12161014);全国统计科学研究项目(2021LY011);贵州省省级科技计划项目资助(黔科合基础20201Y009);贵州省教育
5、厅自然科学基金资助项目(KY2021134)通讯作者:段星德,男,彝族,云南人,教授,研究方向:贝叶斯统计计算.第 1 期段星德等:半参数双重Tweedie复合泊松回归模型的贝叶斯分析273用它分析半连续保险费率制定数据.另一方面,在贝叶斯框架下,利用Markov Chain MonteCarlo(简称MCMC)技术对各类Tweedie复合泊松回归模型进行统计推断.比如:Peters等10利用Dunn和Smyth11给出的的数值方法去逼近Tweedie复合泊松分布的密度函数,并给出这类模型的贝叶斯分析;ZHANG12,Swallow等13以及YE等14研究了Tweedie复合泊松随机效应模型的
6、贝叶斯估计问题;段星德等15研究了Tweedie复合泊松回归模型的贝叶斯数据删除影响问题.在本文中,基于上述研究工作提出一类半参数双重Tweedie复合泊松回归模型,进一步对这类模型进行贝叶斯估计,最后利用这类模型分析卫生保健费用数据以及影响因素.2.统计模型本节将首先介绍Tweedie复合泊松分布以及逼近它的密度函数的数值方法,其次引入它们所对应的双重广义线性模型:带有异质结构的Tweedie复合泊松回归模型.Tweedie复合泊松分布指数分布族是一类常见的分布族,在某些条件下Tweedie复合泊松分布是它的特殊情形.指数分布族的概率函数具有如下的一般形式:p(y;,)=a(y,)expy
7、k(),(2.1)其中,a()和k()的形式是已知的;常被称作自然参数,常被称作离散参数且 0.另外,指数分布族的均值和方差分别为:=E(Y)=k(),var(Y)=k(),其中k()和k()表示k()关于未知参数的一阶导数和二阶导数;特别地,函数k()称为方差函数.进一步,如果方差和均值有如下关系var(Y)=p,其中参数p是取值范围为(1,2)的幂指标参数,则有k()=p,=1p/(1 p)和k()=2p/(2 p).因此,(2.1)式可以表示为16:p(y;,p,)=a(y,p)exp1(y1p1 p2p2 p),(2.2)如果一个随机变量Y 的概率密度函数具有(2.2)的形式且1 p
8、0)+(y+v0)pI(y=0),这里v0是一个给定的较小的正数9,17.半参数双重Tweedie复合泊松回归模型在本文中考虑以下半参数双重Tweedie复合泊松回归模型,即对Tweedie复合泊松分布的均值参数和散度参数进行联合建模:Yi Twp(i,i)log(i)=xiT+g(ti)log(i)=ziT(2.5)其中,Y=(Y1,Y2,Ym)T是m维响应变量且相互独立,xi=(xi1,xi2,xik)T表示均值模型中的协变量,zi=(zi1,zi2,ziq)T表示散度模型中的协变量.=(1,2,k)T,=(1,2,q)T分别是k 1和q 1维未知待估参数向量,且k m,q m,g()是未
9、知的光滑可导的连续函数.另外,E(Yi)=i,var(Yi)=pi,p (1,2).为了估计参数 和,首先需要估计光滑函数g().根据Lang等18的结论,我们用如下的贝叶斯P-样条去逼近光滑函数:g(t)=Jj=1Bj(t)j=BT(t),(2.6)274应用数学2024其中,Bj(t)表示第j个B样条基函数,J表示B样条的条数(等于变量t的节点数与B样条的阶数之和);且有B(t)=(B1(t),BJ(t)T,=(1,J)T表示待估的样条系数.为了估计样条系数,我们对j定义如下的一阶随机游动模型j=j1+j,其中j独立且服从N(0,2/j),j=2,J.这里,我们称方差参数2/j为自适应光滑
10、参数来控制非参函数的光滑程度.令=(2,J),可把样条系数的先验分布表示为|2,exp(122TQ),其中,Q表示惩罚矩阵.3.贝叶斯分析先验分布与后验分布令Y=(Y1,Y2,Ym)T,X=(x1,x2,xm)T,Z=(z1,z2,zm)T,T=(t1,t2,tm)T,=(,p,2,j:j=2,J).在贝叶斯框架下,参数的后验分布可表示为:p(|Y,X,Z,T)mi=1p(yi|xi,zi,ti,)p()mi=1(2iV(yi)1/2expd(yi,i)2ip(),(3.1)其中p()为参数的先验分布且给定为:p()N(,),p()N(,),log(p12p)N(0,100),|2 exp(1
11、22TQ),p(2)IG(a,b),p(j)(a,b),(3.2)其中,a,b,a,b为已知的超参数,IG表示逆Gamma分布,(a,b)表示服从参数为a和b的Gamma分布.此外,本文在抽样过程中使用的条件分布、Gibbs抽样、MH算法如附录所示.贝叶斯估计为了得到平稳的随机序列,我们舍弃序列的前D个值,并保留来自联合后验分布p(|Y,X,Z,T)的随机样本(n):n=D+1,N,则有b=1N DNn=D+1(n),cvar(|Y,X,Z,T)=1N D 1Nn=D+1(n)b)(n)b)T.(3.3)上式中b可作为参数的联合Bayes估计,而用样本协方差矩阵cvar(|Y,X,Z,T)的对
12、角线元素来估计参数的标准差.4.数值例子模拟研究在模拟研究中,假设从如下模型结构中产生半连续响应数据yi,i=1,2,m,即:Yi Twp(i,i),log(i)=0+1xi+g(ti),log(i)=0+1zi,其中样本量m=200,协变量xi N(0,1),zi N(0,1),ti U(0,1).令参数和非参数真实值为=(0,1)T=(0.5,1.5)T,=(0,1)T=(1,0.4)T,p=1.6,g(ti)=1.5 cos(2ti).在贝叶斯框架下进行的模拟研究中,我们通常研究下面三种不同先验信息对贝叶斯估计的影响,即:类型(良好的先验信息)设超参数的取值为的真值,即=(0.5,1.5
13、)T,协方差阵=0.25I2,I2表示2阶单位阵;=(1,0.4)T,=0.25I2;a=1,b=0.005,a=0.5,b=0.5.第 1 期段星德等:半参数双重Tweedie复合泊松回归模型的贝叶斯分析275类型(不准确的先验信息)设=1.5 =1.5 (0.5,1.5)T,协方差阵=0.75I2,I2表示2阶单位阵;=1.5 =1.5 (1,0.4)T,=0.75I2;其它超参数的取值和类型一致.类型(无先验信息)设=(0,0)T,协方差阵=100I2,I2表示2阶单位阵;=(0,0)T,=100I2;其它超参数的取值和类型一致.基于上述三种类型的先验信息,我们分别做100次实验的模拟研
14、究,且每次实验都迭代10000次,为了避免最初产生的非平稳样本序列对后验推断的影响,我们舍弃前面产生的5000次迭代值,利用后面的5000 次迭代值来进行贝叶斯估计.另外,在实施MH算法时,我们选择方差调节参数2=4,2p=0.7,2=2,2=0.6使得在抽样过程中所有参数的平均接收率在区间0.26,0.35上.表1给出了所有参数的Bayes估计、标准差和RMS(表示参数的Bayes估计与真值的偏差的平方的平均值的算术平方根).从表1中发现:在三类不同先验信息下,所有参数的贝叶斯估计与真值的偏差都很小,说明我们模拟研究中所得到的贝叶斯估计都具有较高的精度且对先验信息不敏感;另外,参数的标准差和
15、RMS 值也比较接近.我们在图1中列出类型、类型和类型先验下非参数g(t)的估计值与真实值的拟合图形,从图1中发现,非参数部分关于真实函数的拟合是比较好的,说明我们所使用的贝叶斯P-样条方法是有效的.表1随机模拟研究中未知参数的Bayes估计Type IType IIType IIIPar.BiasSDRMSBiasSDRMSBiasSDRMS0-0.00250.08750.0871-0.00290.08810.0877-0.00280.08840.08801-0.00160.03750.0373-0.00040.03760.0374-0.00170.03760.037500.07380.10
16、650.12910.06840.10990.12900.07730.11040.134410.01840.11530.11620.02200.11820.11970.01920.12110.1220p-0.05210.04590.0692-0.05180.04620.0692-0.05210.04590.0693RMS0.43890.44300.451200.10.20.30.40.50.60.70.80.91tij-1.5-1-0.500.511.5g(tij)true valueestimate00.10.20.30.40.50.60.70.80.91ti-1.5-1-0.500.511.
17、5g(ti)true valueestimate00.10.20.30.40.50.60.70.80.91ti-1.5-1-0.500.511.5g(ti)true valueestimate图1类型I(左图),类型II(中图),类型III(右图)时非参数函数g(t)拟合图实证分析研究的数据来源于兰德健康保险实验(RAND HIE),该实验是对美国医疗成本、卫生保健利用率及相关结果的一个综合研究.6为了设计可靠的实验和得到精准的数据,该项研究跟踪了随机分配到不同计划的人群并记录了他们的医疗费用及个人信息.这里,我们选择了第五年观察期的1713个个体作为样本,并用ID标识不同个体.数据集中,卫生
18、保健费用包括如下5种:门诊费用(outpdol)、药物费用(drugdol)、供应费用(suppdol)、心理治疗费用(mentdol)和住院费用(indol),我们把每个个体的5种276应用数学2024卫生保健费用之和作为响应变量,并记为yi.另外,把个体信息:性别(female:1=女性,0=男性)、种族(black:1=户主是黑人,0=户主不是黑人)、家庭收入对数(linc)、身体缺陷数(physlm)、慢性病数(disea)、家庭规模对数(lfam)、户主受教育年限(educdec)和表示自评健康状况良好的虚拟变量(hlthg)、保险特定变量包括对数共同保险率加1(logc)、个人免赔
19、额计划(idp)的虚拟值、参与激励支付(lpi)的对数和最大支出函数(fmde)作为协变量,并把每个个体对应的12个协变量表示为xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12,把年龄(age)作为非参数函数里的时间变量进行考虑并记为ti.在建模过程中,假定zij=xij,j=1,2,12,则用如下的模型拟合上述数据集:yi Twp(i,i),log(i)=0+1xi1+2xi2+3xi3+4xi4+5xi5+6xi6+7xi7+8xi8+9xi9+10 xi10+11xi11+12xi12+g(ti),log(i)=0+1zi1+2zi2+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 双重 Tweedie 复合 回归 模型 贝叶斯 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。