基于PPO2的航天控制器序列决策制导算法设计.pdf
《基于PPO2的航天控制器序列决策制导算法设计.pdf》由会员分享,可在线阅读,更多相关《基于PPO2的航天控制器序列决策制导算法设计.pdf(9页珍藏版)》请在咨信网上搜索。
1、SOFTWARE2023软 件第 44 卷 第 7 期2023 年Vol.44,No.7基金项目:湖南省大学生创新创业训练计划项目(S200210554045);教育部产学合作协同育人项目(202102211072)作者简介:杨可(2001),男,本科,研究方向:人工智能技术应用。基于 PPO2 的航天控制器序列决策制导算法设计杨可 翟依婷 朱志 肖梦旭 董莉(湖南工商大学计算机学院,湖南长沙 410205)摘要:运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行
2、马尔可夫决策建模,通过构造 PPO2 算法框架对整个回收过程进行实时求解,采用复合型奖励函数对位置、姿态、着陆阈值和燃料消耗进行相应约束,并对其进行训练。实验表明,基于 PPO2 算法的回收制导模型可以较好地满足各项约束条件,并实现推力切换最优策略,证明了PPO2 算法在处理该问题时可兼顾实时性和控制效果的优化性,对不同初始参数火箭型号和带有扰动的环境偏差均表现出较强的适应能力,具有一定的泛化能力。关键词:深度强化学习;PPO2 算法;决策制导中图分类号:TP39 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.07.002本文著录格式:杨可,翟依婷,朱志,
3、等.基于PPO2的航天控制器序列决策制导算法设计J.软件,2023,44(07):005-012+065Sequential Decision Guidance Algorithm for Space Controller Based on PPO2YANG Ke,ZHAI Yiting,ZHU Zhi,XIAO Mengxu,DONG Li(School of Computer Science,Hunan University of Technology and Business,Changsha Hunan 410205)【Abstract】:The realization of guid
4、ed recovery of carrier rocket is of great significance to aerospace development.In rocket recovery mission,high standards are set for precision guidance recovery and real-time low delay computing power.The traditional recovery method has some defects and limitations in solving this problem.In this p
5、aper,the Markov decision modeling of the control process is carried out.The PPO2 algorithm framework is constructed to solve the whole recovery process in real time.The compound reward function is used to constrain the position,attitude,landing threshold and fuel consumption,and the training is carr
6、ied out.The experiment shows that the recovery guidance model based on PPO2 algorithm can better meet the constraints and achieve the optimal strategy of thrust switching,which proves that PPO2 algorithm can take into account the real-time and control effect optimization.It can realize strong adapta
7、bility to different initial parameter rocket models and environmental deviation with disturbance,and has a certain generalization ability.【Key words】:deep reinforcement learning;PPO2 algorithm;decision guidance基金项目论文0 引言随着中国航天事业迅速发展,空间站建设、地外行星探索以及轨道卫星部署任务加快推进,我国运载火箭发射进入繁密时期,而运载火箭作为空天往返任务的主要运载器,在高频发射
8、过程中的合理调度与重复发射显得格外重要,运载火箭的成功回收和再次发射,对减少发射成本和地外行星起降任务推进具有重要意义。我国在火箭回收技术中,以群伞和缓冲气囊协同作用回收火箭1,对火箭回收控制具有一定的效果,但可操作性不强。而现阶段,工程上一般采用气动力模型和动力学模型,并通过不断调节矫正相关参数,使得能够完成运载火箭的姿态调整,进而实现运载火箭的控制。但是该方法兼容性较差、设计周期长、设计难度高,尽管具有较高的可操作性,但却难以满足短期多型的实际需求。此外,SpaceX 公司2应对火箭垂直回收采用凸优化方法,面对制导问题,通过对多种问题进行优化以应对复杂的飞行环境,应用凸优化方法对于垂直返回
9、的轨迹进行实时规划、控制,成功在海陆均实现了火箭垂直回收。6软 件第 44 卷 第 7 期SOFTWARE而人工智能技术在解决类似的序列决策问题上获得了较好的表现,随着人工智能技术在各领域的广泛应用,其中以深度强化学习技术(Deep Reinforcement Learing,DRL)为基础的 DeepBlue 和 AlphaGo 展现出惊人水平,也展现了深度强化学习算法在求解环境交互的决策问题上具有较大优势。强化学习能够模拟实际情况与环境进行不断交互,从而累计奖励求解最优策略。运载火箭的回收控制实际上也是一个火箭在回收过程中的决策行为,因此本文应用深度强化学习对运载火箭回收问题进行研究和模拟
10、。本文的主要贡献如下:(1)在传统回收方法中,实时优化3方法在实时求解过程边值问题中的效果难以保证;而在凸优化方法中,将参数优化问题构造为便于求解的二阶锥凸优化问题这一过程的可操作性不强;以动力学模型为核心的回收方法需优先得知环境约束和动力学建模,在回收情况不确定时回收,难以具备兼容性。(2)本文使用一个统一的深度强化学习框架对整个回收过程进行实时求解,缓解了回收过程决策的割裂性;利用 PPO2 算法使智能体与环境之间不断交互迭代,进而得到回收过程的最优策略,仅需调整参数重新训练即可获得新的策略,操作性较强;在非常规地区着陆或地外行星探索等位置,以及在无法迅速构建环境模型的情况下,具有环境自适
11、应能力和泛化能力的本文模型,能较好适应火箭、环境模型调整。(3)本文利用深度强化学习有效实现了运载火箭回收这一序列决策问题的实时全过程求解,在参数、模型调整上也具有较高的可操作空间,能够完成在复杂、陌生环境下的适应性回收着陆,与传统算法进行比较,验证了本文方法的较强泛化能力。1 相关工作DRL 是融合了具有感知和决策能力的深度学习和强化学习,而其在机器控制、机器视觉、工业制造、参数优化等领域得到广泛应用4。其中在机器控制领域,Levine 等人5利用深度学习模型,在机器手眼协调中获得了较好效果,Lenz 等人6实现了动作控制的在线、实时模型控制方法,在此基础上,Yahya 等人7实现多模型的异
12、步行为优化,再通过集中监督学习优化局部策略,极大降低训练时间。在参数优化中,Hansen 等人8在超参数优化控制上提出应用 Q 梯度下降方法,自动学习不同任务的学习率。而在运载火箭回收这一应用领域由于着陆过程中存在大量不确定性,任务寻求者和设计人员一直在追求生成可行或最佳在线轨迹的能力9。当飞行任务须满足更严苛的要求时,通常需要解决具有路径约束及终端的轨迹规划问题,例如载人任务。多项式制导起于 Apollo计划,仍被用于火星着陆器。由于上述问题通常是非线性的,因此很难解决,在过去的十年里只能离线求解。为了简化这一系列问题,将 Apollo 登月舱的加速度设计为关于时间的二次多项式。为了进一步提
13、高航空航天器制导的自主性,近些年计算制导这个新的研究方向得到越来越多的关注10,11。计算制导强调通过迭代优化计算逐步取代传统的解析制导律,并依靠鲁棒高效的计算方法和先进的硬件计算平台,来处理航空领域中针对非线性动态系统的计算难题,突破传统方法的束缚10。在计算制导研究中,基于凸优化的在线轨迹优化是一个研究热点,并得到了快速发展。美国实验室 JPL 的 Akmee和 Blackmore12-14在对火星的着陆与控制领域做出了巨大贡献,成功将之前未可靠求解的难题转换成凸优化问题进行求解。而现今,提升着陆轨迹优化的可靠性与计算制导效率仍是学术界的研究难点,具有十分重要的学术价值和潜在的应用价值。2
14、 问题描述在运载火箭回收过程中,依据动力学原理建立如式(1)-式(3)所示的运载火箭回收的动力学模型,由于火箭在进行回收制动时,与水平地面的距离较近,由此可将地面视为平面,规定重力加速度 g 在同一地理位置为常量,并在惯性系下描述运载火箭回收过程中的质心运动。r(t)=v(t)(1)()()DFv tgatM=+(2)()()tF tMI t=(3)其中 v(t)和 Mt分别表示运载火箭在 t 时刻的速度矢量以及质量,I 表示火箭发动机比冲,aD(t)表示空气阻力加速度,r(t)表示以目标着陆点为原点的火箭位置矢量,F(t)表示火箭的实时推力。假定火箭回收环境中空气密度分布是均匀的,在运载火箭
15、着陆过程中,不同的倾角条件下火箭的竖直迎风面积会发生变化,因此回收过程中的空气阻力表示为如式(4)所示:()21sincos2dyDC vSH=+(4)表示为在当前高度的空气密度大小,S 为火箭横截面积,H 表示火箭高度,Cd为阻力系数。根据以上动力学模型,可建立运载火箭在回收过程中的运动模型,如式(5)-式(11)所示,用以具体描述7杨可 翟依婷 朱志等:基于 PPO2 的航天控制器序列决策制导算法设计火箭的运动指标数据变化:a=F+g-D (5)(x,y)=(x,y)+vdt+0.5adt2 (6)2220.5dddtdtdtdt=+(7)22RdMdtI=(8)IR=MH2 (9)f=m
16、ve-opt+A(Pe-P0)=F+A(Pe-P0)(10)0011lnlne optMMFvvMmM=(11)其中 a 表示运载火箭实际加速度大小,g 为重力加速度,f 表示实际推力,F 表示额定推力,(x,y)表示火箭的坐标,d/dt 表示火箭箭体角加速度,M 表示火箭质量,IR表示转动惯量,m 表示燃料质量流量,Pe为发动机喷嘴处的压强,P0为外界环境压强,ve-opt为火箭的排气速度,A 为比例系数,M0、M1表示火箭在不同时间的质量。在运载火箭回收着陆过程中,需要遵循以下四种约束。2.1 燃料分配火箭燃料主要由煤油、液氢、液氧、片二甲肼等混合构成,火箭的燃料成本昂贵,而运载火箭的燃料
17、贮箱空间有限,在航天火箭的垂直回收过程中,需要综合考虑火箭每一时刻不同的工作状态,结合燃料的体积、类型来进行正确合理的分配安排,以达到最优的火箭回收。而火箭燃料消耗与发动机推力值呈正相关,表示为如式(12)所示:m=-|F|(12)在运载火箭回收任务中,将连续动作的发动机推力值按比例进行求和,得到燃料消耗优化的目标函数,如式(13)所示:()max0mintfCF tdt=(13)其中 Cf表示燃料消耗量,为比例系数。2.2 发动机推力约束航天运载火箭在各个飞行航段所需要的动力不同,对火箭所需推力进行正确的模拟优化,对运载火箭回收策略有效性和准确性具有重要意义,本文中设定火箭推力约束如式(14
18、)所示:0 Fmin fmin|F|fmax Fmax=2g (14)其中 Fmax和 Fmin为额定最大、最小推力,fmax和 fmin为实际最大、最小推力。2.3 着陆末状态约束航天火箭在垂直回收的过程中,需要结合外界气压、水平风阻以及火箭自身的质心偏移来对回收部分的姿态落点进行调节,即找寻最优轨迹与最佳落点。为保证运载火箭成功回收,综合考虑过程约束与终端约束,选取如式(15)所示的约束形式15,结合深度强化学习与火箭回收系统,将式(16)作为终端条件,以求找到最小偏差点、最优轨迹曲线。r(t)0 v(t)(t)(15)x(tmax)=0 v(tmax)=0 (tmax)=0 (16)其中
19、 和 为着陆末状态的速度、箭体角度阈值。2.4 陆支架设计运载火箭的回收过程中,陆支架同样不可或缺。作为垂直起降可重复使用运载器的关键部件之一,陆支架的性能会直接决定运载器能否安全着陆和重复使用。陆支架的设计主要涉及两个方面,分别是参数指标和功能要求,前者主要是为了限制陆支架的结构和规模大小,防止陆支架尺寸不合导致的不能很好地装配在运载火箭上;后者的作用是使设计的陆支架能够满足使用火箭垂图 1 运载火箭回收策略训练网络Fig.1 Launch vehicle recovery strategy training network1.回收质心运动描述2.状态量变化方程3.环境参数变化方程1.航天任
20、务发射周期缩短,运载火箭造价成本高昂2.传统方法兼容性较差,设计周期长,设计难度高1.实现运载火箭仿真精确回收2.推力增幅为最优控制,实现燃料消耗最少3.模型对不同型号火箭具有泛化能力1.回收马尔可夫决策过程2.邻近策略优化算法(PPO2)3.多层感知机(MLP)训练网络4.泛化能力验证基于PPO2算法的航天控制器序列决策制导方法研究背景动力模型算法模型结论分析8软 件第 44 卷 第 7 期SOFTWARE直回收的需求,避免出现回收着陆失败的可能。按照贾山等人所设计的运载火箭着陆装置进行模型构建16,对陆支架进行以下设计约束17要求,如式(17)所示:L=S+T (17)其中 S 为运载火箭
21、缓冲装置的竖直方向距离,为火箭回收部分着陆结构最低点距地面的保障安全间隙,T 为陆支架底部高度。3 MDP 设计与 DRL 算法本文对运载火箭的回收过程进行建模,采用 DRL方法求解最优策略和进行实验,整体架构如图 1 所示。3.1 马尔可夫决策过程设计深度强化学习过程通常可以抽象表示为一个马尔可夫决策过程(Markov Decision Process,MDP)模型,其中一个 MDP 模型由状态量、行为量、状态转移概率和奖励函数组成,具体而言,一个马尔可夫决策过程可以采用四元组形式表示,如式(18)所示:MDP=(S,A,P,R)(18)3.1.1 状态量 S马尔可夫决策过程中 S 为状态量
22、,本过程中使用水平坐标、垂直坐标、水平速度、垂直速度、角速度、角加速度、发动机角度以及运行时间等8种指标描述火箭在回收过程中的状态,其中为简化空间条件、加快训练速度,对操作空间的范围进行约束,具体表示为如式(19)所示:S=x,y,vx,Ts.t x xmin,xmax (19)y ymin,ymax3.1.2 行为量 AA 表示行为量,由推力加速度和发动机角速度两部分组成,每时间步的推力加速度设定为介于 0.2g 和 2g之间的稳定值,发动机角度可以 30/s 的角速度进行调整,表示为如式(20)所示:A=F,vTs.t F 0.2g,2g (20)v-30,0,30 由于具体行为表现为连续
23、动作,需根据概率分布函数得到行为的概率分布选择执行动作,而因为动作函数表现为非连续型变量,难以准确选择密度分布函数,因此在行为空间特征取样,对其进行离散化处理,将行为量简化为推力加速度和发动机角速度等发动机离散控制信号组成的多维矢量集合,具体如式(21)所示:A=F1,v1,F1,v2,F3,v3TF 0.2g,g,2g (21)3.1.3 状态转移概率 P结合状态量和行为量,在某状态 st下根据火箭回收模型和相应动作 at,可计算得出转移的确定性状态 st+1,即可得到相应状态转移函数,如式(22)所示:st+1=f(st,at)(22)按照回收过程中的时间步周期 dt 对状态转移函数进行离
24、散化,可得到状态转移概率,如式(23)所示:p(st+1|st,at)=1 (23)3.1.4 奖励函数 R本问题中根据实际要求,对火箭着陆过程和回收是否成功,需要做几点约束奖励条件。在悬停任务中,箭模型需要遵守的奖励机制为:(1)火箭与目标位置的距离:距离越近,奖励越大;(2)火箭体的角度:火箭体应尽可能保持竖直,即火箭体角度保持接近 0;(3)燃料消耗:火箭动作应尽可能执行燃料消耗小的动作,以降低燃料能源消耗。在着陆任务中,即火箭在着陆时也要遵循一种类似的奖励机制:(1)着陆速度:着陆速度小于安全阈值;(2)着陆角度:航天火箭角度接近数值 0 时,奖励越大;(3)距离偏差:航天火箭着陆时与
25、预定着陆点之间的距离越小,奖励越大;(4)时间周期消耗:火箭着陆过程末状态时,消耗的时间周期越少,奖励越大。根据上述两点约束条件,仿真设计使用复合型奖励函数,包括位置约束奖励、姿态约束奖励、燃料消耗奖励和末状态约束奖励。在位置约束奖励函数 rd中,通过对火箭位置和目标位置的距离关系进行描述,使得火箭位置越接近目标位置所获得的奖励越大,并且该形式奖励函数在对火箭的回收运动方向训练引导上表现出较好的作用,具体表示为如式(24)所示:maxminmaxmin0.1 1dxyrxxyy=+(24)其中 x、y 为当前位置与目标位置的坐标距离差,xmax、xmin表示试验检测区域左右区域坐标,ymax、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 PPO2 航天 控制器 序列 决策 制导 算法 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。