基于半马氏的无限阶段指数效用最优模型.pdf
《基于半马氏的无限阶段指数效用最优模型.pdf》由会员分享,可在线阅读,更多相关《基于半马氏的无限阶段指数效用最优模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、应用概率统计第 39 卷第 4 期2023 年 8 月Chinese Journal of Applied Probability and StatisticsAug.,2023,Vol.39,No.4,pp.577-588doi:10.3969/j.issn.1001-4268.2023.04.008基于半马氏的无限阶段指数效用最优模型温鲜霍海峰(广西科技大学理学院,柳州,545006)摘要:本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为 Borel 集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续
2、紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略.关键词:半马氏决策过程;指数效用;值迭代;最优方程;最优策略中图分类号:O211.62英文引用格式:WEN X,HUO H F.The exponential utility optimality for infinite horizon semi-Markov decision processesJ.Chinese J Appl Probab Statist,2023,39(4):577588.(in Chin
3、ese)1引言众所周知,基于状态逗留时间服从任意概率分布的特征,半马氏决策过程是一类更广泛的随机最优控制模型,已经应用于金融1、通讯2、生产储存24等方面.目前,半马氏决策过程的研究主要集中于经典期望准则,例如有限阶段4,5,无限阶段1,68,平均准则7,9,10.这些准则主要关注系统在给定时间内获得总收益的期望值,是总收益的线性函数,但无法有效展示决策者对于收益风险的厌恶态度,因此有必要引入一些可以度量决策者风险厌恶度的准则,例如,风险灵敏准则(指数效用情形).风险灵敏准则(指数效用情形)自 Howard 和 Matheson11引入到马氏决策过程以来,已被许多学者关注和研究,例如,离散时间
4、情形6,12,13,连续时间情形1416,半马氏情形17,18.更具体的来说,Ch avez-Rodr guez 等17基于半马氏风险灵敏平均准则,在连续紧条件下建立了值函数满足的最优方程,以及最优平稳策略的存在性.近年来,Huang等18等利用凸分析和占有测度方法分别求解约束和无约束情形的有限阶段半马氏风险灵敏最优问题,建立了贝尔曼最优方程以及最优策略的存在性.区别于文献 17,18 关注最优国家自然科学基金项目(批准号:11961005)、广西科技基地与人才专项(批准号:桂科 AD21159005)、广西自然科学基金项目(批准号:2020GXNSFAA297196)和 2022 年度广西高
5、校中青年教师科研基础能力提升项目(批准号:KY2022KY0342)资助.通讯作者,E-mail:.本文 2021 年 9 月 3 日收到,2021 年 10 月 24 日收到修改稿.578应用概率统计第 39 卷策略和最优方程的存在条件,本文更加关注最优策略和值函数的计算部分.具体的来说,不同于有限阶段情形5,18需要考虑时间阶段,这里需要定义相应随机的和确定性历史、马氏、平稳策略,见定义 1,建立相应的概率空间、状态过程以及指数优化准则.其次,建立标准正则性条件确保状态过程非爆炸,建立连续紧条件确保策略存在.基于这些条件,不同于文献 14,15 的 Feyman-Kac 公式法,文献 16
6、 的简化法,以及文献 18 的凸分析和占有测度法,本文利用嵌入链和值迭代技术,证明了值函数是相应最优方程的解,以及指数效用最优策略的存在.这里需要特别指出仅利用状态过程非爆炸建立了新的结果(见定理10),进而证明值函数是最优方程的唯一解.最后,建立值迭代算法计算值函数以及最优策略,见定理 11,并通过具体实例计算展示了算法的可行性和有效性.本文主要内容安排如下:第 2 节介绍无限阶段半马氏指数效用模型和优化准则.第 3节介绍一些记号说明和预备知识,并展示主要结果:最优方程解的唯一性,最优策略的存在性和计算部分.最后一节通过例子解释说明主要结果和算法的可行性.2最优控制模型半马氏无限阶段指数效用
7、模型由下列基本元素组成:S,A,(A(x),x S),Q(u,y|x,a),r(x,a),(1)其中S,A分别表示Borel状态和行动空间,其分别拥有Borel 代数B(S)和B(A).A(x)B(A)表示系统状态为 x S 时所有可允许的行动集.K:=(x,a)|x S,a A(x)表示所有可允许的状态行动对集合.Q(,|x,a)表示给定 K 时定义于 R+S 的半马氏核,即当系统状态为 x,选取行动 a A(x)时,Q(u,D|x,a)表示系统状态 x 的逗留时间不超过 u R+与系统状态 x 转移进入集合 D 的联合概率分布,其中 u R+,D B(S),R+:=0,).定义于 K 的非
8、负可测函数 r(x,a)表示报酬率.无限阶段半马氏指数效用模型的演化过程如下:决策者在初始时刻 t0=0 依据系统的初始状态 x0 S,从决策集合 A(x0)中选择行动 a0.这个行动选择后,系统会在状态 x0停留至 t1时刻.此时,系统将会以概率 p(x1|x0,a0):=limuQ(u,x1|x0,a0)转移到状态x1 S,同时获得报酬 r(x0,a0)(t1 t0).在新的决策时刻 t1,依据系统的历史信息(x0,a0,x1),决策者会选择新的行动 a1 A(x1),系统也会以类似的方式进行演化,且会产生一系列的决策信息.记 hk:=(x0,a0,t1,x1,a1,tk,xk)表示系统在
9、决策时刻 tk的决策历史信息,其中 k+1:=tk+1 tk表示系统状态 xk的逗留时间,其服从任意给定的概率分布;ak表示 tk时刻决策者选择的行动.记所有历史信息 hk的集合为 Hk(k 0),即:H0:=S,Hk:=(S A (0,+)k S.为了准确描述最优问题,首先定义依赖于历史、马氏、平稳的随机和平稳策略.第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型579定义 1序列 =k,k 0 称为依赖历史的随机策略,如果对于任意 k=0,1,2,hk Hk,随机核满足:k(A(xk)|hk)=1.记 表示所有依赖历史的随机策略集合.记 表示给定 x S 时,定义于 A 的所有
10、随机核 的集合,且 满足:(A(x)|x)=1.记 F 表示由 S 到 A(x)的所有 Borel 可测函数 f 的集合.对于任意 k 0,hk Hk,k,策略 =k 称为随机马氏策略,如果存在一系列随机核序列 k 满足:k(|hk)=k(|xk),且简记为 =k.随机马氏策略 =k 称为平稳的,如果所有 k都独立于 k.随机马氏策略 =k 称为确定的,如果对于任意 k 0,xk S,fk F,k(|xk)为集中于 fk(xk)A(xk)的 Dirac 测度,且简记为 =fk.确定性马氏策略 =fk 称为平稳的,如果所有 fk都独立于 k,为了方便,将此策略简记为 f.此外,所有随机马氏,随机
11、平稳,确定马氏,确定平稳策略的集合分别记为 RM,RS,DM,DS.显然,=RSRM 以及 F=DS DM.以模型(1)的元素为基础构造新概率空间.首先,定义样本空间如下:=(x0,a0,t1,x1,a1,tk,xk,ak,)|x0 S,a0 A(x0),tl(0,xl S,al A(xl),1 6 l 6 k,k 1.记 F 表示样本空间 的 Borel 代数.对于任意 :=(x0,a0,t1,x1,a1,tk,xk,ak,),在测度空间(,F)上分别定义随机决策时刻、状态、行动变量 Tk,Xk,Ak如下:Tk():=tk,Xk():=xk,Ak():=ak,T():=limkTk().为了
12、方便,通常省略.此外,定义状态过程 xt,t 0 和行动过程 At,t 0 如下:xt:=k0ITk6tT,At:=k0ITk6tT,其中 IB()表示定义于集合B的示性函数,a表示一个孤立行动.假设 T后过程 xt,t 0 的状态为吸收态 E.对于任意 以及初始状态 x S,依据 Ionescu Tulcea 定理(文献 3 命题 C.10)可知,存在唯一概率空间(Px,F)满足:Px(Ak|T0,X0,A0,Tk,Xk)=k(|T0,X0,A0,Tk,Xk),Px(Tk+1 Tk6 u,Xk+1 D|T0,X0,A0,Tk,Xk,Ak)=Q(u,D|Xk,Ak),(2)其中 u R+,B(
13、A),D B(S),k 0.记与概率测度 Px相对应的期望算子为 Ex.为了避免状态过程在有限时间内出现无限多次跳跃,建立下列非爆炸条件.条件 2对于任意 ,x S,Px(T=)=1.580应用概率统计第 39 卷为了方便验证条件 2,依据半马氏核,类似文献 4,5,18 经典期望准则,建立如下标准正则性条件.引理 3对于任意(x,a)K,如果存在一些常数,0 满足:Q(,S|x,a)6 1,则条件 2 成立.证明:类似文献 5 命题 2.1 证明可得.?任取 x S 以及 ,定义无限阶段指数效用准则如下:V(x):=Ex(e+0r(xt,At)dt),其中 0 为风险厌恶系数,说明决策者是风
14、险爱好者.定义 4如果策略 满足V(x)=supV(x),x S,(3)则称此策略为最优策略.相应地 V(x)=supV(x),x S 称为值函数.3主要结果记 Vm表示由 S 到区间 0,1 所有 Borel 可测函数的集合.任取 x S,V Vm,a A(x),定义算子 MV 以及 MV 如下:MaV(x):=S+0er(x,a)uV(y)Q(du,dy|x,a),MV(x):=A(x)(da|x)MaV(x),MV(x):=supaA(x)MaV(x).对于 ,类似定义算子(MnV,n 1),(M)nV,n 1)如下:Mn+1V=M(MnV),(M)n+1V=M(M)nV),n 1.既然
15、状态空间和行动空间为Borel集,为了保证最优策略存在,参考文献3,4,18,建立如下连续紧条件.特别地,状态空间可数,行动集合A(x),x S 有限时,条件5显然成立.条件 5任取 x S,a A(x),V Vm,A(x)为紧集,且S+0er(x,a)uV(y)Q(du,dy|x,a)在 K 上半连续且下紧.引理 6当条件 2 和 5 成立时,对于 U,V Vm,x S,a A(x),算子 Ma以及 M满足下列性质:(a)如果 U V,则 MaU(x)MaV(x)以及 MU(x)MV(x).第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型581(b)对于任意确定 V Vm,x S
16、,存在策略 f F 满足 MV(x)=MfV(x).证明:(a)由算子 Ma和 M 定义直接可证结论(a).(b)对于任意 x S,由可测选择定理(文献 4 定理 B.6)可知,存在策略 f F 满足:MfV(x)=MV(x)=supaA(x)MaV(x).?既然状态过程 xt,t 0 非爆炸,报酬函数非负,由控制收敛定理可将 V(x)改写为如下:V(x)=Ex(e+0r(xt,At)dt)=Ex(em=0Tm+1Tmr(xt,At)dt)=limnEx(enm=0Tm+1Tmr(xt,At)dt):=limnVn(x).因此,可得单调非增序列 Vn(x),n=1,0,1,其中 V1(x):=
17、1,x S.命题 7对于任意 =0,1,x S,存在策略=0,1,RM满足:V(x)=V(x).证明:对于 =0,1,x S,既然 V(x)=Ex(em=0Tm+1Tmr(xt,At)dt),仅需证明:存在随机马氏策略=0,1,RM满足:Px(Xk D,Tn+1Tn u,Ak)=Px(Xk D,Tn+1 Tn u,Ak),其中 k=0,1,u R+,D B(S),B(A).依据式(2),仅需要证明 Px(Xk D,Ak)=Px(Xk D,Ak).类似文献 4 定理 5.5.1 证明,利用归纳法可证得.?命题 7 表明:最优问题(3)的最优策略只需在随机马氏策略集 RM内确定.为了建立值函数满足
18、的最优方程,首先建立下列引理.引理 8当条件 2 和 5 成立时,对于任意 x S,n 1,以及 =0,1,RM,下列结论成立:(a)Vn Vm以及 V Vm.(b)Vn+1(x)=M0V1n(x)和 V(x)=M0V1(x),其中1:=1,2,为策略 的1-shift 策略.特别地,对于 f F,Vfn+1(x)=MfVfn(x)以及 Vf(x)=MfVf(x).证明:(a)任取 x S,RM,当 n=1 时,既然 V1(x)=1 Vm,结论显然成立.假设当 n 6 k 时,结论成立.由概率测度式(2)以及条件期望的性质可得:Vk+1(x)=Ex(ek+1m=0Tm+1Tmr(xt,At)d
19、t)=ExEx(ek+1m=0Tm+1Tmr(xt,At)dt?T0,xT0,A0,T1,xT1)582应用概率统计第 39 卷=A(x)0(da|x)S+0Ex(eT10r(xt,At)dt+k+1m=1Tm+1Tmr(xt,At)dt?T0=0,xT0=x,A0=a,T1=u,xT1=y)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uE1y(ekm=0Tm+1Tmr(xt,At)dt)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uV1k(y)Q(du,dy|x,a):=M0V1k(x),结合归纳假设可知 Vn(x)可测,且 Vn Vm,n 1
20、.进一步,由可测函数序列的极限仍可测,则 limnVn=V Vm.(b)由结论(a)可知:任取 x S,n 1,Vn+1(x)=M0V1n(x).令 n ,由单调收敛定理可得:V(x)=M0V1(x).特别地,当 =f F 时,Vf(x)=MfVf(x).?注记 9任取 x S,f F,n 0,由引理 8 可得计算 Vf(x)的算法如下:Vf1(x):=1,Vfn+1(x)=MfVfn(x),Vf(x)=limnVfn(x).定理 10当条件 2 和 5 成立时,下列结论成立:(a)如果 U,V Vm,x S,f s,且 U(x)V(x)6 Mf(U V)(x),则 U(x)6 V(x).(b
21、)任取 f s,Vf Vm是方程 V=MfV 的唯一解.证明:(a)对于任意 U,V Vm,x S,f s,由归纳法证明下列结论:(Mf)n(U V)(x)6 Pfx(Tn 1.(4)当 n=1 时,既然 U,V Vm,由算子 M 的定义可得:Mf(U V)(x)=S+0er(x,f)u(U V)(y)Q(du,dy|x,f)6+0Q(du,S|x,f)=Pfx(T1).假设 n=k 时,式(4)成立.依据归纳假设和报酬率非负可得:(Mf)k+1(U V)(x)=S+0er(x,f)u(Mf)k(U V)(y)Q(du,dy|x,a)=S+0er(x,f)uPfy(Tk)Q(du,dy|x,a
22、)6S+0Pfy(Tk)Q(du,dy|x,f).(5)第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型583另一方面,Pfx(Tk+1)=EfxEfx(ITk+1|X0,T1,XT1)=S+0Pfx(Tk+1|X0=x,T1=u,XT1=y)Q(du,dy|x,f)=S+0Pfy(Tk 1,U(x)V(x)6(Mf)nU(x)V(x)6 Pfx(Tn).令 n ,由条件 2 可得:U(x)V(x)6 Pfx(T 1,令 V1:=1,Vn+1:=MVn,则 limnVn=V Vm.(b)值函数 V为最优方程 V=MV的唯一解.(c)存在最优策略 f F 满足 V=MfV,V=Vf.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 半马氏 无限 阶段 指数 效用 最优 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。