基于贝叶斯估计的广义Gamma收入分布模型.pdf
《基于贝叶斯估计的广义Gamma收入分布模型.pdf》由会员分享,可在线阅读,更多相关《基于贝叶斯估计的广义Gamma收入分布模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、D O I:1 0.3 9 6 9/j.i s s n.1 0 0 1-5 3 3 7.2 0 2 3.4.0 4 7*收稿日期:2 0 2 2-0 5-2 3第一作者:李蕾,女,1 9 9 8-,硕士研究生;研究方向:概率统计;E-m a i l:l i l e i 1 2 3 l e i l i b u p t.e d u.c n.通信作者:杨娟,女,1 9 8 3-,博士,副教授;研究方向:随机微分方程;E-m a i l:j u a n y a n g b u p t.e d u.c n.基于贝叶斯估计的广义G a mm a收入分布模型李 蕾,杨 娟(北京邮电大学理学院,1 0 0 8
2、 7 6,北京市)摘要:利用广义G a mm a分布拟合中国西北地区(除新疆外)各省的收入分布,分布的参数使用贝叶斯方法估计,并通过G i b b s抽样得到每个参数的后验分布.估计的广义G a mm a分布都通过了K-S检验.在拟合的收入分布的基础上,测算了收入不平等指数.结果表明,甘肃省和内蒙古自治区的收入不平等程度相对其他省份较严重.关键词:广义G a mm a分布;贝叶斯分析;K-S检验;收入不平等指数中图分类号:O 2 1 2.8 文献标识码:A 文章编号:1 0 0 1-5 3 3 7(2 0 2 3)0 4-0 0 4 7-0 60 引 言本文以西北地区(除新疆外)为例,研究了陕
3、西省、宁夏回族自治区、青海省、甘肃省和内蒙古自治区的收入分布.基尼系数是最常用来衡量收入不平等程度的指标.计算基尼系数大多是基于离散分组的收入数据,但是由于中国人口数量非常庞大,分组计算的方法会带来很大的误差1,所以本文选择将个人收入看作连续的随机变量,用连续函数拟合收入分布.除了基尼系数,泰尔指数和P i e t r a指数也可以用来衡量收入不平等程度.泰尔指数和基尼系数之间有互补性,泰尔指数对上层收入的变化敏感,而基尼系数对中等水平收入的变化明显.常见的收入分布函数有很多,比如P a r e t o分布2、指数分布3、对数正态分布4和G a mm a分布5等.P a r e t o分布是最
4、常用来描述收入水平的分布,但是P a r e t o分布只对高水平收入的拟合效果好,对低水平收入的拟合效果不好6.本文选择广义G a mm a分布来拟合收入的分布7.广义G a mm a分布的参数个数多,形式变换更灵活,应用更广泛.在估计广义G a mm a分布的参数时,大多数文献使用了极大似然估计方法7,9.与极大似然方法相比,贝叶斯估计将参数看作不固定的,从而可以得到参数更多的特征.本文用广义G a mm a分布拟合陕西省、宁夏回族自治区、青海省、甘肃省和内蒙古自治区的收入分布,用贝叶斯方法估计参数,然后利用得到的广义G a mm a收入分布计算基尼系数、泰尔指数和P i e t r a指
5、数,对西北地区(除新疆外)的居民收入情况进行分析.1 数据和方法1.1 数据来源本文使用的数据是来自2 0 1 8年中国综合社会调查(C G S S 2 0 1 8)的微观收入数据.该调查涉及到2 8个省份(自治区、直辖市)居民的工作、家庭、身心健康等多个方面.我们取调查结果中西北地区的个人收入数据,分析西北地区的收入情况.由于C G S S 2 0 1 8的调查对象不包括新疆维吾尔自治区,所以本文最终选定陕西省、宁夏回族自治区、青海省、甘肃省和内蒙古自治区的收入数据进行分析,得到陕西省、甘肃省、青海省、宁 第4 9卷 第4期2 0 2 3年1 0月 曲阜师范大学学报J o u r n a l
6、 o f Q u f u N o r m a l U n i v e r s i t y V o l.4 9 N o.4O c t.2 0 2 3 夏回族自治区、内蒙古自治区的有效样本量分别为3 1 4个、1 4 8个、7 7个、6 4个和9 1个.1.2 广义G a mm a分布广义G a mm a分布由S t a c y在1 9 6 5年提出1 4,它的密度函数是f(x|)=()x-1e x p(-(x),(1)其中x0,=(、),0,0是形状参数,10是尺度参数,()是G a mm a函数.如果随机变量X(0)服从G a mm a分布,那么X服从广义G a mm a分布.广义G a mm
7、 a分布的分布函数是F(x|)=(,(x)(),(2)其中(s,t)=t0ws-1e-wdw是下不完全G a mm a函数.在拟合收入分布时,与上述的两参数和单参数分布模型相比,广义G a mm a分布不仅具有形式多样,灵活性大的优点,而且适用于相交的洛伦兹曲线的情况,但是这些二参数和单参数分布模型有时不适用于相交的洛伦兹曲线1 5.1.3 贝叶斯方法与传统的频率学派的观点不同,贝叶斯统计将参数看作不固定的,认为需要用一个分布来描述参数,这个分布结合了先验知识和样本数据,称为参数的后验分布.假设样本为x=(x1,x2,xn),未知参数的先验分布为().当给定时,x的条件分布为p(x|),x的边
8、缘密度函数为m(x),那么的后验分布为(|x)=p(x|)()m(x)=p(x|)()p(x|)()d.(3)公式(3)被称为贝叶斯公式.本文利用贝叶斯公式估计广义G a mm a分布的参数,取=(,)的先验分布分别为:U(a,b)、G a mm a(,)、U(c,d)1 2,1 3,那么先验密度函数为()=1b-a,0,(4)()=()-1e-,0,(5)()=1d-c,0.(6)又由(1)式可以得到广义G a mm a分布的似然函数为L(;x)=nn()n ni=1x-1ie x p-ni=1(xi).(7)利用贝叶斯公式(3),可得、的满条件后验分布分别为(|x,)nn ni=1x-1i
9、e x p-ni=1(xi),(8)(|x,)n+-1e x p-ni=1(xi)-,(9)(|x,)1n()n ni=1x-1i.(1 0)根据C G S S 2 0 1 8中相关收入数据的特征对超参数取值,得到的具体的先验分布为:U(0.0 1,1)、G a mm a(7,1)、U(1,6).本文利用O p e n B UG S软件实现对参数=(,)的G i b b s抽样,得到参数后验分布的样本.每个参数迭代2 00 0 0次,同时去掉前1 0 0 0个抽样样本,实现模型的退火,所以最后每个参数的后验样本的个数为1 90 0 0个.表1展示了参数、的后验分布的一些特征,包括9 5%H P
10、 D可信区间和后验中位数.本文的损失函数取绝对值损失函数L(,)=|-|,此时参数的贝叶斯估计为后验中位84 曲阜师范大学学报(自然科学版)2 0 2 3年数.将参数的后验中位数代入广义G a mm a分布,可得到估计的收入分布.估计的每个省的收入分布如图1所示.图1 估计各省的收入分布1.4 K-S检验K-S检验是一种非参数拟合优度检验方法,它通过计算一组数据的经验分布函数和某特定分布函数的差值,来检验这组数据是否来自该特定分布.假设有n个随机样本x1,x2,xn,则经验分布可以记为S(x)=xix的个数n.如果要检验该样本是否来自某给定的分布F0(x),那么假设检验问题可以写为H0:对所有
11、x,F0(x)=S(x);H1:对至少一个x,F0(x)S(x),取检验统计量为Dn=m a x1inm a x(|S(xi)-F0(xi)|,|S(xi-1)-F0(xi)|).对于显著性水平,通过查表可以得到临界值d(n,),如果检验统计量Dnd(n,),则接受原假设,认为样本服从分布特定分布F0(x),否则拒绝原假设,认为样本不服从分布F0(x).本文分别用基于贝叶斯估计的广义G a mm a分布,基于极大似然估计的对数正态分布、P a r e t o分布、G a mm a分布和指数分布来拟合西北地区收入分布,然后用R S t u d i o软件对得到的分布进行K-S检验,得到相应的P值
12、,P值越大说明拟合的效果越好.不同分布的K-S检验结果如表2所示.1.5 不平等指数的计算基尼系数、泰尔指数和P i e t r a指数是常用的衡量收入不平等程度的指标,它们的数值越大,表示收入不平等程度越高.基尼指数在0.40.5之间表示收入差距过大,大于0.5表示收入差距悬殊.假设收入Y是一个连续的随机变量,密度函数为f(y),分布函数为F(y),均值为Y=E(Y),那么基尼系数、P i e t r a指数和泰尔指数的定义分别为1 5,1 6G i n i=12YE(|Y-X|)=2Y0y F(y)f(y)dy-1,(1 1)P i e t r a=12YE(|Y-Y|)=12Y0|y-Y
13、|f(y)dy,(1 2)T h e i l=E(l n(Y/Y)Y/Y)=0yYl nyYf(y)dy.(1 3)M c D o n a l d1 5推导出了收入服从广义G a mm a分布时,基尼系数、P i e t r a指数和泰尔指数的表达式.但是推导出的基尼系数和P i e t r a指数的表达式中含有级数,因为级数的计算比较复杂,所以本文采用蒙特卡罗方法来近似计算基尼系数和P i e t r a指数.根据蒙特卡罗方法,(1 1)和(1 2)式可写为G i n i=2YEf(y F(y)-12Y1NNi=1y(i)F(y(i)-1,(1 4)P i e t r a=12YEf(|y-
14、Y|)12Y1NNi=1|y(i)-Y|,(1 5)其中y(1),y(2),y(N)是从分布f中随机抽取的样本.对于本文来说,是从贝叶斯方法估计出的广义94第4期 李蕾,等:基于贝叶斯估计的广义G a mm a收入分布模型 G a mm a分布中随机抽样,取N为1 0 00 0 0.由广义G a mm a分布的均值可知,Y=E(Y)=1+1(),其中,分别为广义G a mm a分布参数、的贝叶斯估计值.对于泰尔指数的计算,由M c D o n a l d1 5可得T h e i l=1+1+l n1 Y,(1 6)其中(x)是d i g a mm a函数,(x)=l n(x)x.根据参数、的后
15、验分布和(1 6)式,可以得到泰尔指数的后验分布.基尼系数、泰尔指数(中位数、9 5%H P D可信区间)和P i e t r a指数的计算结果展示在表3中.2 结 果2.1 基于贝叶斯估计的收入分布由表1可知,对于被研究的5个省份,=1和=2都没有包含在的9 5%H P D可信区间内,=1也没有包含在的9 5%H P D可信区间内,并且的9 5%H P D可信区间的上边界没有趋近于,所以估计出的广义G a mm a分布不能被相关的两参数分布(对数正态分布(),G a mm a分布(=1),W e i b u l l分布(=1),N a k a g a m i分布(=2)替代,说明本文选择广义
16、G a mm a分布来拟合收入分布是合理的.表1 广义G a mm a分布参数的9 5%H P D可信区间和后验中位数省份9 5%H P D可信区间中位数9 5%H P D可信区间中位数9 5%H P D可信区间中位数陕西(0.4 0 27,0.5 0 54)0.4 5 09(2.7 9 7,1 3.1 6)7.4 4 1(2.5 2 0,3.7 6 6)3.1 4 6甘肃(0.3 8 82,0.5 0 63)0.4 4 39(2.5 3 0,1 2.7 7)7.1 5 5(2.2 4 1,3.5 0 3)2.8 7 5青海(0.4 2 30,0.5 5 43)0.4 8 61(2.3 1 0
17、,1 1.7 4)6.8 6(3.8 0 3,5.9 0 1)4.8 4 9宁夏(0.4 1 03,0.5 6 92)0.4 8 57(2.0 4 0,1 1.9 0)6.5 6 3(2.5 1 0,4.3 6 0)3.4 3 4内蒙古(0.4 1 55,0.5 7 10)0.4 8 68(2.2 4 8,1 1.9 9)6.6 2 1(2.2 1 7,3.7 2 4)2.9 6 7 因为有9 9.4 2%的样本在02 0万的范围内,所以图1仅展示了02 0万区间的收入分布的图像.由图1可以看出,青海省拖尾最长,且峰值最小,说明收入集中程度小.青海省的极值点最大,说明收入集中在相对其它4个省份
18、来说较高的收入水平,这和青海省的样本均值最大是一致的.甘肃省的峰值最大,并且尾部最短,说明收入的集中程度最大.被研究省份的收入分布的图像都明显右偏,说明收入主要集中在低收入水平.这是因为被研究的省份位于中国西北部,属于经济发展水平较低的地区.为了促进经济的发展,西北地区可以在注重可持续发展的前提下,充分利用自身丰富的矿产资源、旅游资源等,发展特色产业.西部大开发和“一带一路”政策都弥补了西北地区不利的地理条件,促进了西北地区和其他地区的经济交流.2.2 分布拟合检验表2展示了分别用广义G a mm a分布、对数正态分布、G a mm a分布、指数分布和P a r e t o分布拟合收入数据的K
19、-S检验结果.取显著性水平为0.0 5,从表2可以看出,贝叶斯估计的广义G a mm a分布通过了K-S检验,且拟合效果比对数正态分布、G a mm a分布、指数分布和P a r e t o分布好,适合用来表示西北地区(除新疆外)2 0 1 7年的个人收入分布.05 曲阜师范大学学报(自然科学版)2 0 2 3年表2 常见的收入分布的K-S检验的P值陕西甘肃青海宁夏内蒙古广义G a mm a分布0.0 5 69 9*0.2 9 65*0.1 1 52*0.2 7 55*0.5 2 98*对数正态分布0.0 0 02 4 030.0 7 67 5*0.1 0 96*0.4 1 38*0.2 1*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 贝叶斯 估计 广义 Gamma 收入 分布 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。