基于分层强化学习的中继卫星网络任务动态调度方法.pdf
《基于分层强化学习的中继卫星网络任务动态调度方法.pdf》由会员分享,可在线阅读,更多相关《基于分层强化学习的中继卫星网络任务动态调度方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期 通 信 学 报 Vol.44 No.7基于分层强化学习的中继卫星网络任务动态调度方法 刘润滋1,马天赐1,吴伟华2,要趁红1,杨清海3(1.西安建筑科技大学信息与控制工程学院,陕西 西安 710399;2.陕西师范大学物理学与信息技术学院,陕西 西安 710119;3.西安电子科技大学通信工程学院,陕西 西安 710071)摘 要:近年来,随着各类紧急任务数量的不断增长,如何在控制对常规任务影响的同时保障系统的收益已成为中继卫星网络任务动态调度的巨大挑战。针对这一问题,以最大化
2、紧急任务总收益和最小化常规任务破坏程度为目标,提出了一种基于分层强化学习的中继卫星网络任务动态调度方法。具体而言,为了兼顾系统的长期与短期性能,设计了由上、下级 DQN 实现的双层调度框架,上级 DQN 从长期性能出发决定临时优化目标,下级 DQN根据优化目标决定当前任务的调度策略。仿真结果表明,与传统的深度学习方法以及部分处理动态调度问题的启发式方法相比,所提方法能够在降低常规任务破坏程度的同时提升紧急任务总收益。关键词:中继卫星网络;任务调度;深度强化学习;多目标优化;动态调度 中图分类号:TN92 文献标志码:A DOI:10.11959/j.issn.1000436x.2023130
3、Dynamic task scheduling method for relay satellite networks based on hierarchical reinforcement learning LIU Runzi1,MA Tianci1,WU Weihua2,YAO Chenhong1,YANG Qinghai3 1.School of Information and Control Engineering,Xian University of Architecture and Technology,Xian 710399,China 2.School of Physics a
4、nd Information Technology,Shaanxi Normal University,Xian 710119,China 3.School of Telecommunications Engineering,Xidian University,Xian 710071,China Abstract:In recent years,with the increasing number of various emergency tasks,how to control the impact on common tasks while ensuring system revenue
5、has become a huge challenge for the dynamic scheduling of relay satellite networks.Aiming at this problem,with the goal of maximizing the total revenue of emergency tasks and minimizing the damage to common tasks,a dynamic task scheduling method for relay satellite networks based on hierarchical rei
6、nforcement learn-ing was proposed.Specifically,in order to take into account the long-term and short-term performance of the system at the same time,a two-layer scheduling framework implemented by upper-level and lower-level DQN was designed.The up-per-level DQN was responsible for determining the t
7、emporary optimization goal based on long-term performance,and the lower-level DQN determined the scheduling strategy for current task according to the optimization goal.Simulation results show that compared with traditional deep learning methods and the heuristic methods dealing with dynamic schedul
8、ing problems,the proposed method can improve the total revenue of urgent tasks while reducing the damage to common tasks.Keywords:relay satellite networks,task scheduling,deep reinforcement learning,multi-objective optimization,dynamic scheduling 收稿日期:20230518;修回日期:20230704 通信作者:马天赐, 基金项目:国家自然科学基金资助
9、项目(No.61701365,No.61801365,No.61971327);陕西省自然科学基础研究计划基金资助项目(No.2023-JC-YB-566,No.2023-JC-YB-542);陕西省重点研发计划基金资助项目(No.2021GY-066);陕西省高校科协青年人才托举计划资助项目(No.20200112);陕西省博士后科研基金资助项目(No.2018BSHEDZZ47)Foundation Items:The National Natural Science Foundation of China(No.61701365,No.61801365,No.61971327),Natu
10、ral Science Basic Research Program of Shaanxi(No.2023-JC-YB-566,No.2023-JC-YB-542),Key Research and Development Program of Shaanxi Province(No.2021GY-066),Young Talent Fund of University Association for Science and Technology of Shaanxi Prov-ince(No.20200112),Postdoctoral Foundation of Shaanxi Provi
11、nce(No.2018BSHEDZZ47)208 通 信 学 报 第 44 卷 0 引言 数据中继卫星(以下简称中继卫星)网络是在航天器与地面站之间提供实时服务和数据测控的系统,一般位于地球静止轨道,从上到下覆盖用户航天器,有效解决了地面站轨道覆盖率低、航天器数据回传难的问题1。中继卫星任务通常分为常规任务和紧急任务,常规任务通常分批次、分时段到达,由中继卫星周期性地统一规划,而紧急任务具有突发性和不确定性,并且有效期短、优先级高2-3,需要中继卫星中心实时动态调度。两类任务在到达与调度时间上的差异导致紧急任务到达时网络中部分资源已经分配给了常规任务。而紧急任务的优先级较高,在其调度过程中往往
12、会因资源不足抢占已分配好的常规任务资源,这极大地影响了常规任务的服务质量和用户体验。近年来,卫星等各类航天器在各种自然灾害4、事故等突发事件中起到越来越重要的作用,突发数据的实时回传需求不断增加,如何实现紧急任务的高效动态调度以保障全网收益成为中继卫星网络中亟待解决的问题。然而,现阶段中继卫星网络的研究工作大多致力于常规任务的静态调度5-6,仅有部分工作研究紧急任务的动态调度7-9。He 等7提出了一种基于滚动时域的中继卫星混合任务调度方法,通过在动态调整的规划中同时调度紧急任务与常规任务,降低了紧急任务对常规任务的影响。然而,在该方法中紧急任务响应速度受限于规划周期的长度,导致实时性要求高的
13、任务难以获得保障。Deng 等8提出了2 种紧急插入策略,分别考虑了对常规任务的移动与拆分。类似地,Dai9提出了紧急任务直接插入、间接插入和重新规划 3 种策略。文献8-9的方法以保障当前紧急任务成功调度为出发点设计,与 He等7的方法相比可以更有效地保证紧急任务的服务质量,但是这些方法一方面对常规任务造成了较大的影响,另一方面忽视了紧急任务之间的资源冲突和网络的长期收益,不适用于紧急任务数量较多且连续到达的场景。综上所述,现阶段中继卫星网络任务的动态调度在提升长期收益与降低对常规任务的影响方面仍有较大的研究空间。由于现有工作缺少在长期收益与对常规任务破坏方面的研究,本文基于分层强化学习设计
14、了一种中继卫星网络任务动态调度方法。具体而言,首先建立以最大化系统收益和最小化常规任务的破坏程度为目标的多目标优化模型。其次,设计了一种基于双层深度 Q 网络(DQN,deep Q-network)的动态调度框架,其中,上级 DQN 负责从长期性能出发调整下级 DQN 的临时目标,下级 DQN 负责根据临时目标决策当前时间点的调度策略。在此基础上,本文设计了 4 种调度策略,并提出了分层 DQN 训练算法和基于分层 DQN 的任务动态调度算法。最后通过仿真分析验证了所提方法的有效性。1 系统模型介绍 1.1 网络模型 考虑如图 1 所示的中继卫星网络场景,其包含3 层结构:骨干网层、用户层和地
15、面网层。其中,骨干网层由中继卫星组成,用于向用户层提供数据中继服务。中继卫星集合记为12,kRr rr Kr,其中,kr表示第k个中继卫星,K 表示中继卫星的数目,每个中继卫星上装载一套用于提供中继服务的单址天线。用户层由低轨用户卫星组成,用户卫星集合记为12USus,us,us,i,其中,usi表示第i个用户卫星。地面网层主要包括地面站、用户卫星管理中心和数据中继卫星管理中心。中继卫星网络中存在两类任务,分别是紧急任务和常规任务。常规任务时延容忍性高、优先级低,紧急任务实时性高、优先级高。中继卫星网络的工作机制如下10-11。1)提交任务请求。用户卫星管理中心通过用户任务请求链接向数据中继卫
16、星管理中心提交任务请求,以请求数据中继服务。图 1 中继卫星网络 第 7 期 刘润滋等:基于分层强化学习的中继卫星网络任务动态调度方法 209 2)生成调度方案。对于常规任务,数据中继卫星管理中心周期性地统一规划收集到的任务请求,即根据任务需求调度周期内的传输资源,生成调度方案并发送给用户卫星管理中心和中继卫星执行。对于紧急任务,数据中继卫星管理中心一旦接收到紧急任务的请求,则立即为该任务分配尽可能早的传输资源,生成调度方案并发送给用户卫星管理中心和中继卫星执行。3)执行调度方案。用户卫星管理中心通过测控链路将调度方案发送到用户卫星12。根据调度方案,当用户卫星进入中继卫星的覆盖区域时,将任务
17、数据传输给中继卫星。数据将通过传输链路传输到地面。1.2 问题描述 本文重点关注中继卫星网络中紧急任务的动态调度。假设调度周期S内存在若干已分配资源的待执行常规任务,紧急任务动态到达网络,数据中继卫星管理中心按照紧急任务请求的先后顺序实时调度。调度周期S内的常规任务集合表示为12MCmc,mc,mc,n,其中mcn表示第n个常规任务。类似地,调度周期S内到达的紧急任务集合表示为12MEme,me,me,i,其中mei表示第 i 个紧急任务。每个紧急任务可表示为一个五元组,即me(,Pr,us)iiiikiia dp。对于mei,ia表示紧急任务mei的到达时刻,id表示最晚结束时刻,ikp表示
18、mei在中继卫星kr上所需的传输时长(即执行时长),Pri表示mei调度完成后可获得的最大收益,usi表示发起请求的用户卫星。由于紧急任务的紧迫性,其完成越快,用户满意度就越高,实际获得收益也就越大。因此用is表示mei的实际开始时刻,SHPri表示mei的实际收益,iz表示mei调度成功后的实际结束时刻,,miniz表示mei可能的最早实际结束时刻,因此SHPri可表示为 ,min,minSHPrPre iiiizzdzii(1)当一个紧急任务到达时,数据中继卫星管理中心根据当前资源状态为其分配一颗中继卫星上的一段时间窗口用于完成数据传输。由于紧急任务具有较高的优先级,动态调度过程中可能会抢
19、占已安排的常规任务资源,保障紧急任务在有效期内执行完毕。对于被破坏的常规任务,数据中继卫星管理中心会尝试为其调度剩余的空闲资源,尽可能减少紧急任务对常规任务的影响。为了保障紧急任务收益的同时保障常规任务的服务质量,数据中继卫星网络紧急任务动态调度的目标为最大化紧急任务收益的同时最小化常规任务破坏程度。调度需要满足的约束如下。1)每颗中继卫星同一时刻只能为一颗用户卫星提供服务。2)为紧急任务分配的传输资源满足紧急任务的时效要求。3)为紧急任务分配的传输资源满足中继卫星与用户卫星的可见性要求。4)每个紧急任务的数据传输过程不会被中断。1.3 问题建模 用12,TWtw,tw,i ki ki k表示
20、在调度周期S内用户卫星usi与中继卫星kr之间的可见时间窗口集合。其中,,twst,etllli ki ki k为用户卫星usi与中继卫星kr之间的第l个可见时间窗口,,stli k为窗口的开始时间,,etli k为窗口的结束时间。为了建立数据中继卫星网络任务动态调度的优化模型,定义决策变量,li kX和,i j kY分别表示执行紧急任务的可见窗口和紧急任务在中继卫星上的执行顺序,具体为 ,1,me 0 ikli krlX紧急任务 在中继卫星 上的第 个 可见窗口内执行,其他 ,1,1,memememekiji j kkjiYrr中继卫星 上紧急任务在 之前执行中继卫星 上紧急任务在 之前执行
21、 用MCE表示因紧急任务抢占资源而导致分配方案改变的常规任务集合,MCP表示因紧急任务抢占资源导致执行失败的常规任务的集合。为了保障紧急任务收益的同时降低对常规任务的破坏程度,将中继卫星网络任务动态调问题建模为如下优化模型 ,12TWME,111TW1,112TW3,111FTMCEMCPSHPrmaximize s.t.C:1,1ME C:,1ME C:,1ME SYPi ki ki kKli kikilKli kkliili kiilXXiasiXzdi :210 通 信 学 报 第 44 卷 ,4,TWTW5,11TWTW,11 C:stet0 1ME,1,1TW C:1 10 1Mj
22、ki kj ki kllli kii ki kii klmjikii kj ki j klmlmijkji kj ki j klmXszikRlapaXXYapaXXYi E,1 kR (2)优化问题P中存在 2 个优化目标,分别为最大化总收益SY以及最大化常规任务破坏程度FT的倒数。其中,常数1和2分别为改变和取消常规任务的权重因子,且满足210。约束 C1表示每个紧急任务只能在一颗中继卫星上的一个可见窗口内调度一次;约束 C2表示紧急任务的传输开始时刻要大于任务到达时刻;约束 C3表示紧急任务的传输结束时刻要小于任务的最晚结束时刻;约束C4表示任务传输过程在用户卫星与中继卫星的可见窗口内进
23、行;约束 C5则表示同一中继卫星上执行的任务之间不发生冲突。2 基于分层强化学习的双层调度框架设计 2.1 调度框架概述 传统中继卫星资源动态调度问题已被证明为NP(non-deterministic polynomial)难问题13,难以在多项式时间内获得最优解。本文对收益与常规任务破坏程度目标的追求进一步提高了该问题的复杂度,使系统基于数学模型求解方法很难获得低复杂度的动态调度策略。同时,卫星沿轨道周期性运动,使可见窗口分布也有一定的周期性,且紧急任务长期到达率分布也具有一定的统计规律。不同于传统基于数学模型的求解方法,机器学习方法能够有效利用往期经验数据,通过提前训练的方式实现性能与复杂
24、度的有效折中。考虑到本文方法的调度既要基于大时间尺度的网络性能14,又要基于小时间尺度的任务到达状态,本文提出了一种基于分层强化学习的任务动态调度框架。如图 2 所示,本文所设计的任务动态调度框架由上级控制器、下级控制器和调度策略集组成,其中 2 个控制器各由一个 DQN 实现,具体原理简述如下。1)上级控制器负责从网络的长期性能与状态出发,调整下级控制器当前阶段的临时目标,上级控制器的控制策略表示为 up,up,:;Utttg(3)其中,up,t表示上级控制器的输入特征,由网络长期状态特征(其具体定义将在2.2节介绍)构成;up,t表示上级控制器(即上级 DQN)的参数;tgG表示选择的临时
25、目标;G表示临时目标集合。2)下级控制器负责在每个调度点上根据当前网络状态、任务参数和临时目标,从调度策略集中选择调度策略来完成当前任务调度。具体而言,下级控制器的控制策略表示为 lowlow,:;L,ttta(4)其中,low,t表示下级控制器的输入特征,其包括网络短期状态特征、当前任务特征(其具体定义将在2.2 节介绍)和tg,low,t表示下级控制器(即下级DQN)的参数,taA表示选择的调度策略,A为调度策略集,调度策略集中的调度策略均满足1.3 节中模型的约束条件。图 2 基于分层强化学习的任务动态调度框架 第 7 期 刘润滋等:基于分层强化学习的中继卫星网络任务动态调度方法 211
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分层 强化 学习 中继 卫星网络 任务 动态 调度 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。