拉普拉斯分布参数的近似贝叶斯估计.pdf
《拉普拉斯分布参数的近似贝叶斯估计.pdf》由会员分享,可在线阅读,更多相关《拉普拉斯分布参数的近似贝叶斯估计.pdf(15页珍藏版)》请在咨信网上搜索。
1、应用概率统计第 40 卷第 1 期2024 年 2 月Chinese Journal of Applied Probability and StatisticsFeb.,2024,Vol.40,No.1,pp.18-32doi:10.3969/j.issn.1001-4268.2024.01.002拉普拉斯分布参数的近似贝叶斯估计杨彦娇王立春(北京交通大学数学与统计学院,北京,100044)摘要:拉普拉斯分布是刻画尖峰厚尾数据的重要分布之一.本文提出拉普拉斯分布两参数具有显式解的线性近似贝叶斯估计,通过理论证明和数值模拟验证了线性近似贝叶斯估计相比其他估计的优越性,并考察了线性近似贝叶斯估计随
2、着样本量增加的渐近性质.关键词:拉普拉斯分布;线性贝叶斯方法;Gibbs 采样;二次损失中图分类号:O212.8英文引用格式:YANG Y J,WANG L C.Approximate Bayesian estimation of the parameters ofLaplace distributionJ.Chinese J Appl Probab Statist,2024,40(1):1832.(in Chinese)1引言拉普拉斯分布通常又被称为拉普拉斯第一错误定律,由拉普拉斯于 1774 年提出,用于描述错误出现的频率和误差之间的函数关系.假设 X 服从参数为(,)的拉普拉斯分布,其密
3、度函数为f(x;,)=12exp(|x|),其中 x R,R 为位置参数,0 为尺度参数.拉普拉斯分布的密度函数是不光滑的函数,其对数函数关于 求导,导数并不是处处存在的,所以拉普拉斯分布也不属于Cramer-Rao 正则族.这些数学性质都给拉普拉斯分布的参数估计带来了困难.一直以来,在统计文献中,拉普拉斯分布经常被用作其他(主要是正态)分布的反例,对该分布的研究也远远不及正态分布.然而,从图 1 中我们可以看到拉普拉斯分布具有尖峰厚尾的分布特点,所以当在数据中观察到比正态分布尾巴重的“东西”,它就会迅速成为首选分布.近年来,拉普拉斯分布被广泛地应用到许多领域,从图像、语音识别(输入分布)到海
4、洋工程(导航误差的分布)和经济(商品对数收益的分布).Kotz 等1在The Laplace Distributionand Generalizations一书中收集整理了关于拉普拉斯分布理论以及应用研究的 400 多篇文献.国家自然科学基金项目(批准号:11371051)资助.通讯作者,E-mail:.本文 2021 年 1 月 4 日收到,2022 年 10 月 14 日收到修改稿.第 1 期杨彦娇,王立春:拉普拉斯分布参数的近似贝叶斯估计1910505100.00.10.20.30.40.5=0,=1=0,=2=0,=4=5,=4LaplaceNormal(0,1)图 1拉普拉斯分布和正
5、态分布密度函数图参数估计方面,在大样本情况下,对拉普拉斯分布常用的有极大似然估计和矩估计.除此之外,Asrabadi2研究了位置参数已知时拉普拉斯分布函数的一致最小方差无偏估计,进而给出尺度参数的估计量;Rao 等3推导出了完备和截尾样本下拉普拉斯分布尺度参数的最佳线性无偏估计量.在小样本情况下通常使用贝叶斯方法,二次损失函数是贝叶斯方法下统计决策问题中用得最多的损失函数,记b 为参数 的估计,则其数学形式为L(b,)=(b )D(b ),其中 D 为正定矩阵.记 h(,|x)为(,)的联合后验密度,则在二次损失下,参数 和 的贝叶斯估计分别为b BE=h(,|x)dd,bBE=h(,|x)d
6、d.因为 h(,|x)中存在绝对值的数学形式,这使得积分过于复杂,无法得到显示解.针对这种在贝叶斯估计中常出现的问题,一种处理方法是 Lindley4提出的近似计算两个积分比值的方法,它可以给出估计的近似数值解,但拉普拉斯分布并不满足其所需的正则条件;另一种常用方法是马尔可夫链蒙特卡罗方法(MCMC),但它往往需要迭代求解.因此,目前关于贝叶斯的相关研究主要局限在单参数或是没有显示解的估计上,如丁晓和韦来生5利用非参数方法构造了拉普拉斯分布位置参数的经验贝叶斯估计;徐美萍和段景辉6给出了单参数拉普拉斯分布的贝叶斯估计.和上述文献不同,本文利用线性贝叶斯方法构造了拉普拉斯分布的双参数的线性近似贝
7、叶斯估计.该方法同时给出两个参数的估计,既20应用概率统计第 40 卷采纳了先验信息,但又不要求具体的先验分布,并且具有显示解,相对于迭代算法得到的贝叶斯估计具有稳健性的优势.本文安排如下:在第 2 节中,我们给出了拉普拉斯分布两参数的线性近似贝叶斯估计的表达式.第 3 节给出了线性近似贝叶斯估计相比其他估计的优越性的理论证明和数值模拟结果.第 4 节是结论部分.2线性近似贝叶斯估计线性贝叶斯方法最早由 Hartigan7提出,后由 Rao8从线性最优化角度进行了推广,随后线性贝叶斯方法又经过了很多贝叶斯统计学者的研究.如 Samaniego 和 Vestrup9使用线性经验贝叶斯方法来改进标
8、准估计量;Wei 和 Zhang10将线性贝叶斯方法应用在线性回归模型中;周静雯和韦来生11将线性贝叶斯方法应用在生长曲线模型中;Zhang等12将对线性贝叶斯估计的研究扩展到多元线性模型;Wang 和 Singh13给出了型截尾下双参数指数族的线性贝叶斯估计.作为实际应用中贝叶斯估计的一种很好的近似,相比贝叶斯估计,线性近似贝叶斯估计相当于舍弃了全局最优,通过限定估计为线性结构,使得估计具有显示解.虽然线性贝叶斯方法是“局部最优”,但往往通过选择合适的统计量,可以得到相比 MCMC 方法更加稳定、便于使用的估计,因此统计量的选择至关重要.假设 X1,X2,Xn为来自拉普拉斯分布的简单随机样本
9、.记 =(,2)是要估计的参数向量,T 为构造线性近似贝叶斯估计的统计量,且令T=(XS2/2),其中 X=(ni=1Xi)/n 和 S2=ni=1(XiX)2/(n1).易见有 E(X|)=,E(S2|)=22.定理 1T 的条件协方差阵为对角矩阵,即 Cov(X,S2|)=0.证明:Cov(X,S2|)=Covni=1Xin,ni=1(Xi X)2n 1?=1n(n 1)ni=1Cov(Xi,ni=1X2i?)1nCovXi,(ni=1Xi)2?.由于 E(Xi|)=,E(X2i|)=2+22和 E(X3i|)=62+3,因此Cov(Xi,ni=1X2i?)=Cov(Xi,X2i|)+nj
10、=1,j=iCov(Xi,X2j|)第 1 期杨彦娇,王立春:拉普拉斯分布参数的近似贝叶斯估计21=E(X3i|)E(Xi|)E(X2i|)+(n 1)E(XiX2j|)E(Xi|)E(X2j|)=42.又有Cov(Xi,ni=1nj=i+1XiXj?)=(n 1)22,于是Cov(Xi,ni=1X2i?)1nCovXi,(ni=1Xi)2?=0,从而 X 和 S2不相关.?注记 2定理 1 说明了选择(X,S2)为T可以确保我们最终得到的估计不会过于复杂.而事实上,如果选择(X,S)为 T,则其条件协方差矩阵无法求得显示解.结合以上两点,我们设计估计参数为(,2)而不是(,).在实际应用中得
11、到(,2)的估计后,再对第二项开根号就可以得到对 的估计.假设参数(,)的先验分布 G(,)满足 E(2+4)Cov(),从而得到MSEM(bM)MSEM(bLB)LWL+(L I)Cov()(L I)Cov()Cov(T)1Cov(T)Cov()=LCov(T)L 2LCov()+Cov()Cov(T)1Cov()=LCov(T)1/2 Cov()Cov(T)1/2LCov(T)1/2 Cov()Cov(T)1/2=UU 0.第 1 期杨彦娇,王立春:拉普拉斯分布参数的近似贝叶斯估计25定理得证.?因为均方误差矩阵准则下bLB优于bM是 MSE 准则下bLB优于bM的充分条件,所以我们可以得
12、到结论:MSE 准则下bLB优于bM.数值模拟将在后面 3.3 节给出.3.2贝叶斯估计我们考虑以下情况的先验分布:面对只知道参数、的取值范围分别为 a,b,c,d 的情况时,我们可以取区间上的均匀分布作为其信息先验,这是由 Laplace14首先提出和使用的.则联合后验密度函数为H1(,|x)ne(ni=1|xi|)/,a b,c d.相应的贝叶斯估计为b BE=ne(ni=1|xi|)/ddne(ni=1|xi|)/dd,bBE=n+1e(ni=1|xi|)/ddne(ni=1|xi|)/dd.因为被积函数中有绝对值项,使得我们无法得到显示解.利用 Gibbs 取样方法,此时 和 的满条件
13、分布为1(|,x)e(ni=1|xi|)/I(a b),2(|,x)ne(ni=1|xi|)/I(c d).通常情况下,计算没有显示解的贝叶斯估计常常先使用 Laplace 近似算法(参见文献15)获取初始值,再用该初始值进行 Gibbs 取样,这样可以减少 Gibbs 取样需要迭代的次数.因为对 f 取对数后 Hessian 矩阵不存在,导致这种情况下不能使用 Laplace 近似算法取初始值,所以我们使用无偏估计 T 作为 Gibbs 取样的初始值,进而得到贝叶斯估计.具体流程如下:1)给出两参数,的初始值,记为 0,0,并将第 j 步产生的 和 分别记为 j和 j;2)产生服从 1(|j
14、,x)的 j+1;3)产生服从 2(|j+1,x)的 j+1;4)重复 2)和 3)N次;5)通过(N m0)1Nj=m0+1(j,j)计算(,)的贝叶斯估计值,其中 m0为无效样本的次数.26应用概率统计第 40 卷0.00.51.01.52.01.51.00.50.00.51.0log()图 2 和 ln()的联合后验密度的 0.1%、1%、10%的等高线及采样点图 2 显示 Gibbs 取样产生的参数样本点都落在了 10%的等高线内,即 MCMC 链是收敛的,因此 Gibbs 算法有效.由于贝叶斯估计没有显式解,我们通过数值实验来比较 MSE 准则下线性近似贝叶斯估计和贝叶斯估计的优劣,
15、并考察线性近似贝叶斯估计随样本量增加的渐近性质.记eLB=(e LB,eLB),其中 e LB为bLB中的第一项,eLB为bLB第二项的算术平方根,bBE=(b BE,bBE)为(,)的贝叶斯估计.这里均匀先验下线性近似贝叶斯估计的表达式为bLB=n(b a)2X+4(a+b)(c2+cd+d2)8(c2+cd+d2)+n(b a)2n(n 1)(d c)2(4d2+4c2+7cd)S2+6(5n 3)(4i=0aib4i)(c2+cd+d2)2n(n 1)(d c)2(4d2+4c2+7cd)+18(5n 3)(4i=0aib4i).我们分别考察eLB和bBE的 MSE 随样本数和先验的分散
16、程度变化而变化的情况.定义数值实验所用样本 MSE 为MSE=mi=1(b )(b )m,其中b 指的是估计值,为真实值,m 是估计的总次数.MSE 既考察了估计值和真实值的近似程度,又反映了估计本身的波动情况.实验一:考察随样本量 n 增加线性近似贝叶斯估计和贝叶斯估计的表现.取 a=1,b=1,c=0.5,d=1,则 和 分别来自 U(1,1)和 U(0.5,1),并作为 Laplace 分布的参数.样本量 n 的取值范围为 10 到 1000,间隔为 5.令 Gibbs 抽样迭代次数 N 为 3000,m0取 1000,m=50.第 1 期杨彦娇,王立春:拉普拉斯分布参数的近似贝叶斯估计
17、27020040060080010000.000.050.100.15nMSEBayesLinear Bayesn(3/2)n(4/5)图 3实验一下eLB,bBE的 MSE 随样本量增加的变化从图 3 可以看出随着样本量的增加线性近似贝叶斯估计和贝叶斯估计的 MSE 十分接近,且均以介于 n4/5和 n3/2之间的速度逐渐趋于 0.表 1 展示了图 3 中 n=10,50,100,500,1000 的具体结果.表 1实验一下eLB、bBE的 MSEn10501005001000MSE(eLB)0.1164416870.0222325430.0147342310.0044918040.0016
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 拉普拉斯 分布 参数 近似 贝叶斯 估计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。