离散事件动态系统--马尔科夫链.ppt
《离散事件动态系统--马尔科夫链.ppt》由会员分享,可在线阅读,更多相关《离散事件动态系统--马尔科夫链.ppt(61页珍藏版)》请在咨信网上搜索。
1、2024/5/21 周二计算机学院计算机学院/电气学院电气学院1/51合肥工业大学合肥工业大学课程基本情况n课程性质:非学位课n学时数/学分:32/2 n周学时:4(后面有调整)n授课形式:(a)主讲面授;(c)文献报告和自由讨论n应用领域:网络系统分析、移动机器人、智能交通、生产自动化和供应链管理、Agent系统、网络控制优化、机器学习、排队网络、系统可靠性分析,以及其它有关决策优化、控制和智能学习等。n前期课程内容:高等数学、概率论、线性代数n考核方式:考查(含课程总结、文献汇报)2024/5/21 周二计算机学院计算机学院/电气学院电气学院2/51合肥工业大学合肥工业大学课程内容 1.离
2、散事件动态系统基本概念、分类、研究方法2.随机离散事件动态系统的基本仿真技术3.Markov决策过程(含Markov链,半Markov决策过程)基本知识4.动态规划(dynamic programming)和仿真优化:主要介绍Bellman最优方程,策略迭代和数值迭代。5.强化学习(reinforcement learning)技术:主要介绍Monte-Carlo方法、TD学习、Q学习和SARSA学习等。6.神经元/逼近动态规划(neuro-dynamic programming)7.多Agent学习探讨8.实例分析 2024/5/21 周二计算机学院计算机学院/电气学院电气学院3/51合肥工
3、业大学合肥工业大学第一章离散事件动态系统基本概念、分类和研究方法2024/5/21 周二计算机学院计算机学院/电气学院电气学院4/51合肥工业大学合肥工业大学基本概念n随着高新技术的迅猛发展,现实世界中涌现了大量的复杂人造系统(如计算机网络、通信网络、柔性制造系统、CIMS、交通管理系统、军事指挥系统等)。这些系统的共同特征是:系统的演化过程不能由通常的物理定律来描述,而是服从一些由人为规定的复杂规则,并由一系列相互作用的离散事件所决定。n 这样的一类人造系统常被描述为离散事件动态系统(Discrete event dynamic system,DEDS)。n事件:使DEDS状态发生变动的一个
4、行动或事情。2024/5/21 周二计算机学院计算机学院/电气学院电气学院5/51合肥工业大学合肥工业大学nDEDSDEDS与一般与一般动态系系统的差的差别:通常的连续变量动态系统(CVDS),其动态特性满足一定的物理定律,可用微分方程或差分方程来描述。例如经典力学下的质点运动方程等可以描述为nDEDSDEDS基本概念基本概念:由一些相互作用的离散事件构成,并且由它们触发而引起状态转移(演化)的一类动态系统,它所含的事件的发生在时间和空间上都是离散的。线性系统2024/5/21 周二计算机学院计算机学院/电气学院电气学院6/51合肥工业大学合肥工业大学例1 柔性制造系统 待加工工件缓冲器工作台
5、1已加工工件缓冲器待加工工件缓冲器工作台M已加工工件缓冲器Sn2Sn1智能仓库自行小车2024/5/21 周二计算机学院计算机学院/电气学院电气学院7/51合肥工业大学合肥工业大学例2 机器人自动装配线(robotic assembly line)2024/5/21 周二计算机学院计算机学院/电气学院电气学院8/51合肥工业大学合肥工业大学例3 开排队网络服务站1缓冲器服务站2缓冲器服务站3缓冲器2024/5/21 周二计算机学院计算机学院/电气学院电气学院9/51合肥工业大学合肥工业大学通信系统中的接入控制2024/5/21 周二计算机学院计算机学院/电气学院电气学院10/51合肥工业大学合
6、肥工业大学基本分类和研究方法DEDS的三个层次模型:n 逻辑层次模型(确定性)主要有形式语言,有限自动机,Markov链,Petri网等(不可时序化):模型不可赋时,只考虑表征系统行为的符号的顺序关系n 代数层次模型(确定性)主要有极大极小代数,有限递归过程等(可可时序化序化)n 统计层次模型(随机性)主要有Markov过程,半Markov过程或广义半Markov过程,各种类型的排队网络等(可可时序化序化、采用仿真方法)2024/5/21 周二计算机学院计算机学院/电气学院电气学院11/51合肥工业大学合肥工业大学DEDS统计性能层次的研究情况从九十年代开始,统计性能层次的研究已成为DEDS研
7、究领域的一个重要方面,主要包括以下两个研究方向:u系统的性能分析:主要是灵敏度分析u优化理论和应用研究:Markov控制(决策)过程方法及优化问题已成为当前DEDS领域的一个令人注目的热点,也是本课程的主要介绍对象。拓展:SMDP、POMDP、HMM、HDS建模2024/5/21 周二计算机学院计算机学院/电气学院电气学院12/51合肥工业大学合肥工业大学第二章随机离散事件动态系统的基本仿真技术2024/5/21 周二计算机学院计算机学院/电气学院电气学院13/51合肥工业大学合肥工业大学随机变量n随机变量:粗略的说就是能取不同数值的量n非随机的(确定性的数值,永不改变):太阳系中的太阳个数n
8、随机的:一个人一天接到的电话个数,每天都不一样2024/5/21 周二计算机学院计算机学院/电气学院电气学院14/51合肥工业大学合肥工业大学概率n实验(experiment):考试,掷骰子,打球比赛,扔硬币n一次实验对应一个输出X,考虑实验的输出是随机变量,可取多个值。n(pass,fail),(1,2,3,4,5,6),(win,lose),(heads,tails)n事件:掷骰子,点数为2,或者为偶数n事件的概率:事件发生的机会(chance)或可能性(likelihood),m次实验中,事件A发生n次,则概率为 P(A)=lim m(n/m)0,12024/5/21 周二计算机学院计算
9、机学院/电气学院电气学院15/51合肥工业大学合肥工业大学加数法则(addition law)n互斥事件(mutually exclusive)n复合事件(compound):由互斥事件构成,如多次掷骰子中,出现偶数的事件由分别出现2,4或6的互斥事件构成。若复合事件E由A1,,An构成,则P(E)=P(A1)+P(An)n复杂事件(complex):未必由互斥事件构成,如掷骰子,出现质数(2,3,5)或偶数(2,4,6)的事件P(AB)=P(A)+P(B)-P(AB)AB2024/5/21 周二计算机学院计算机学院/电气学院电气学院16/51合肥工业大学合肥工业大学乘积法则(multipli
10、cation law)n独立事件(independent):两个事件中,一个事件的出现不依赖于另外一个。反之为相关事件(dependent)。扔硬币,第一次为heads的事件A与第二次为tails的事件B相互独立。定义事件E表示第一次为heads且第二次为tails的事件,则P(E)P(A B)=P(A).P(B)n互斥的就无所谓相关不相关;非互斥的,则有可能独立,则P(A B)=P(A).P(B)。n既不互斥又不独立,则P(A B)=P(A).P(B|A)=P(B).P(A|B),其中,P(B|A)和P(A|B)为条件概率。(若A、B独立,则?)2024/5/21 周二计算机学院计算机学院/
11、电气学院电气学院17/51合肥工业大学合肥工业大学概率分布离散变量随机变量取值可能是离散的,如1,4.5,18,1969,也可能是连续的,如区间0 10。先考虑离散变量n离散随机变量:掷骰子游戏中,输出X 1,2,3,4,5,6,其中X为1的概率记P(X=1)=1/6,一般地,P(X=k)=l,对应一个概率质量函数(Prob.Mass function,PMF),即f(x),表示概率P(X=x)。nP(Xk)=l表示随机变量X不超过k的概率为l,该函数表示累积分布函数(Cumulative distribution function,CDF,有时简称分布函数),记为F(X=k)或F(x),满足
12、nF(X=k)kx=af(x)(从X的最低可能值a到k的所有pmf值的和)nPMF CDF2024/5/21 周二计算机学院计算机学院/电气学院电气学院18/51合肥工业大学合肥工业大学概率分布连续变量连续随机变量:例如连续两次所接电话之间的时间差n概率密度函数(Prob.density function,PDF对应离散情况的PMF),仍记为f(x).分布函数满足2024/5/21 周二计算机学院计算机学院/电气学院电气学院19/51合肥工业大学合肥工业大学随机变量的期望值和标准偏差n离散随机变量的期望值(expected/mean/average value)n连续随机变量的期望值n均值不能
13、说明一个随机变量任何特性,只有同标准偏差一起才能说明。随机性完全体现在PDF、PMF或CDF。n标准偏差:随机变量对其均值的平均偏离的估计,定义n标准偏差的平方称为方差2024/5/21 周二计算机学院计算机学院/电气学院电气学院20/51合肥工业大学合肥工业大学极限定理(Limit Theorems)n中心极限定理:n强大数定律:2024/5/21 周二计算机学院计算机学院/电气学院电气学院21/51合肥工业大学合肥工业大学仿真中的基本概念n离散事件仿真仿真主要涉及随机数产生和随机系统仿真模型n动态系系统:系统(行为)随时间变化n状状态:描述系统(行为)随时间变化的物理量。如排队系统的队长,
14、库存量,带宽占用率等。n支配(控制)支配(控制)变量量(governing variable):动态系统的行为受这些变量支配、控制(操纵),如排队系统中的服务时间和相邻顾客到达时间间隔。n随机系随机系统:控制变量是随机变量的系统,其行为受随机变量支配。2024/5/21 周二计算机学院计算机学院/电气学院电气学院22/51合肥工业大学合肥工业大学模型n实体(模型)体(模型):小型飞机模型,模拟仿真系统n抽象(数学)模型抽象(数学)模型:方程,函数,不等式,计算机程序等。帮助理解,分析,预测系统行为.n建模建模一般基于一些假设,如系统结构,支配变量的分布。排队系统中的指数服务和到达间隔。n为研究
15、大规模复杂随机系统,可用计算机程序模拟系统行为(为支配随机变量产生随机数),这样的程序可称为仿真模型。n仿真模型亦可用于优化,特别是无法或难以建立数学模型时。产生仿真优化。2024/5/21 周二计算机学院计算机学院/电气学院电气学院23/51合肥工业大学合肥工业大学为什么研究随机系统n很多实际系统是随机系统,如通讯网络n通过研究,可以改变这些系统,使其更有效运行(或降低其运行代价)2024/5/21 周二计算机学院计算机学院/电气学院电气学院24/51合肥工业大学合肥工业大学随机系统的仿真模型n随机系统的建模第一步是要寻找支配随机变量的分布。n分布的作用:数学模型中用于建立表达式;仿真模型中
16、用于产生随机数,以便计算机来模拟系统的行为,即重构实际系统发生的事件(产生支配随机变量的值)。n随机变量分布的获取:从实际系统收集数据,然后进行分布函数拟合2024/5/21 周二计算机学院计算机学院/电气学院电气学院25/51合肥工业大学合肥工业大学随机数产生-均匀分布随机数的产生(人工产生!)线性同余随机数性同余随机数产生生(linear congruential generator)nIj+1(aIj mod m):aIj 被m除的余数,a和m为正整数,I0小于等于m,Ij0,m是随机序列。如a=2,m=20,I0=12,则有12,4,8,16,12,4,8,16,12,.n适当选择a和
17、m,则得到0和m之间的所有整数序列(m-1个),第i个整数xi代表(决定了)第i个随机数yi=xi/m,每个yi的可能性相同(xi 在原来的序列集里出现一次)。m越大,yi越接近于服从0,1之间均匀分布的自然随机数。nI0是种子,能产生的最大随机数个数是m-1。若m2321,对应个数21474836462024/5/21 周二计算机学院计算机学院/电气学院电气学院26/51合肥工业大学合肥工业大学随机数产生n实际中,若周期短(m小),则随机数会重复,导致结果变坏(随机数不独立,不再服从均匀分布)。nIj+1(aIj mod m)中的aIj可能会超出计算机表达能力。nSchrage逼近因数分解:
18、Q=a(Ij mod q)-rIj/q,q和r是正整数n随机数产生机制无需计算aIj n对(a,b)间的任何均匀分布,其随机数x都可由(0,1)之间的随机数y产生:x=a+(b-a)y.(映射!)2024/5/21 周二计算机学院计算机学院/电气学院电气学院27/51合肥工业大学合肥工业大学随机数产生-其它分布逆函数方法n指数分布的累积分布函数为1.产生一个随机数y,服从(0,1)之间的均匀分布,令其为指数分布的CDF的值,即F(x)=y2.反解x,即2024/5/21 周二计算机学院计算机学院/电气学院电气学院28/51合肥工业大学合肥工业大学使用随机数的事件重构n以单个服务台排队为例,两个
19、支配变量:n相继到达时间间隔ta。n服务者为一个顾客的服务时间ts。n根据各自分布产生两个随机序列ta,ts,例如ta=10.1,2.3,1,0.9,3.5;ts=0.1,3.2,1.19,4.9,1.1.n可构造两种事件发生n到达 tan离开n空闲:10.1+2.2 tsn使用率(utilization):1-12.3/22.79n长时段仿真(long run)10.12.3-0.12024/5/21 周二计算机学院计算机学院/电气学院电气学院29/51合肥工业大学合肥工业大学2024/5/21 周二计算机学院计算机学院/电气学院电气学院30/51合肥工业大学合肥工业大学第三章Markov决
20、策过程基本知识2024/5/21 周二计算机学院计算机学院/电气学院电气学院31/51合肥工业大学合肥工业大学Examples The deterministic shortest path problem nTransition from one city to the next one is deterministic:Each control(or action)at a given city leads to a unique and certain successor citynThe objective is to find a path among all possible pa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 离散 事件 动态 系统 马尔科夫链
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。