基于强化学习的液动节流阀阀位控制策略.pdf
《基于强化学习的液动节流阀阀位控制策略.pdf》由会员分享,可在线阅读,更多相关《基于强化学习的液动节流阀阀位控制策略.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 50 卷第 4 期化 工 自 动 化 及 仪 表基金项目院国家重点研发计划项目渊2019YFA0708304冤曰中国石油天然气集团有限公司-中国石油大学渊北京冤战略合作科技专项渊ZLZX2020鄄03冤遥作者简介院徐宝昌渊1974-冤袁副教授袁从事复杂系统的建模与智能控制尧智能钻井理论及方法的应用和研究袁遥引用本文院徐宝昌袁尤鹏翔袁陈贻祺袁等.基于强化学习的液动节流阀阀位控制策略咱J暂.化工自动化及仪表袁2023袁50渊4冤院419-427曰476.石油资源的开发和利用正逐步走向深部复杂地层咱1暂袁为了解决井下压力窗口过窄的安全问题 袁 国 内 外 学 者 对 控 压 钻 井 技 术 渊M
2、anagedPressure Drilling袁MPD冤中的井筒压力控制方法进行了广泛的研究遥 随着控压钻井技术的发展袁不仅可以准确地控制井筒环空压力分布袁还可以清晰地分析井下压力环境的时空变化袁实时科学地管理环空压力分布袁保障控压钻井的作业安全咱2耀4暂遥 控压钻井是一种过平衡钻井技术袁通过改变自动节流管汇上的节流阀阀门开度控制钻井液回流到井口的压力袁 以保持井口套管压力的可控性咱5袁6暂袁进而将井底压力的变化控制在小范围内袁大幅提高钻井速度袁缩短钻井周期袁使钻井作业更加安全袁同时有效解决井涌尧漏气尧有害气体泄漏等问题遥 由于节流阀长时间工作在高压环境中袁 其工作特性和可靠性将直接影响MPD
3、实施的成功率咱7暂遥 目前袁控压钻井技术对井口压力的控制要求正逐渐由高压差控制转向高精度控制袁 因此对节流压力和节流阀阀位的控制成为核心问题遥现有的用于控压钻井的节流阀产品比较成熟袁Weatherford尧At Balance和Halliburton所生产的钻井节流阀已成功服务于数百口井袁并且取得了良好的应用效果咱8暂遥 T3公司所设计的各种新型阀芯结构的执行机构渊既包括了传统节流阀的液动执行机构和手动执行机构袁又包括了节流阀的电磁阀执行机构尧活塞执行机构尧涡轮执行机构尧提升执行机构尧电动执行机构和径向手动执行机构咱9暂冤也得到了钻井行业的认可遥控压节流阀采用电液比例控制技术袁是指实现液压控制
4、元件被控量和控制量之间线性转换关系的技术咱10耀12暂遥 在钻井作业过程中袁精准的节流阀阀位控制是保证精确的井口回压的前提袁可以有效消除井口安全隐患袁避免引发井涌尧漏液等复杂事故遥随着伺服技术的兴起袁常见的液动节流阀阀位控制技术是利用比例伺服阀来控制液动节流阀阀位的咱10耀12暂遥 由于比例伺服阀阀门开度对节流阀的阀位控制具有典型的非线性特征袁因此在现DOI:10.20030/ki.1000鄄3932.202304004基于强化学习的液动节流阀阀位控制策略徐宝昌1尤鹏翔1陈贻祺1孟卓然1刘伟2渊1.中国石油大学渊北京冤信息科学与工程学院自动化系曰2.中国石油集团工程技术研究院有限公司冤摘要控压
5、钻井是一种复杂的钻井工艺袁 自动节流管汇上节流阀的控制是实现井底压力精确控制的关键技术遥 首先袁建立控压钻井装置中液动节流阀的动态模型袁该节流阀采用比例伺服阀作为液压调节元件袁采用控制器控制比例伺服阀的阀芯移动改变液动节流阀液压缸中液压油的流入量袁进而实现对液动节流阀阀位的控制遥 其次袁提出一种基于深度强化学习的液动节流阀阀位控制策略袁该策略利用DQN渊Deep Q鄄Network冤算法袁通过液动节流阀和智能体相互交换过程中学习比例伺服阀对液动节流阀阀位的控制遥 最后袁通过仿真和现场试验验证了阀位控制策略的有效性袁为成功实施控压钻井提供了保障遥关键词液动节流阀阀位控制控压钻井强化学习DQN算法
6、比例伺服阀中图分类号TP273文献标识码A文章编号1000鄄3932渊2023冤04鄄0419鄄104192023 年化 工 自 动 化 及 仪 表场应用中袁 常规PID算法难以满足阀位无超调且跟踪速度快的要求遥 为此袁笔者采用提出智能控制算法来解决该问题遥 强化学习作为人工智能的热点之一袁已经在自控领域得到了广泛的研究和应用遥 强化学习可以像人一样进行自我调整尧自我学习袁在未知环境中通过不断试错袁积极主动地完成目标遥 随着智能控制理论的深入发展袁越来越多的领域向着智能化方向发展遥 文献咱13暂介绍了深度强化学习控制方法袁将设计的DQN算法应用于热过程控制袁 提出奖励函数设计原则袁经验回放更新
7、Q网络的方法以及控制器的实现方法遥 文献咱14暂设计了一种利用DQN开发的用于自动驾驶系统的智能动力控制器袁仿真结果表明该控制器具有从驾驶经验中学习制定合理控制策略的能力袁 能够适应不同的驾驶条件和环境变化遥笔者基于深度学习和强化学习相结合的深度Q网络袁给定控压节流阀阀位控制策略遥 DQN算法的特点是以值为基础袁可单步更新袁只需输入状态信息袁输出为所有对应动作的Q值袁适用于动作空间不大的情况遥 笔者设计的动作空间为比例伺服阀的控制指令袁动作空间小袁可直观反映液动节流阀阀位的变化情况袁奖励函数是根据精准控制节流阀阀位的变化过程所设计的遥 最后通过对节流阀阀位控制的仿真和现场试验袁验证了阀位控制策
8、略的有效性遥1液动节流阀工作原理为了保证稳定尧连续的控压钻井工作袁笔者研发了一套液动节流阀自控系统袁系统采用比例伺服阀作为电动调节机构渊T3公司的API 6A液动节流阀作为执行机构冤袁 从而实现对液动节流阀的阀位控制袁提高液动节流阀阀位控制的安全性和高效性遥液动节流阀的工作原理如图1所示遥 当电磁铁A尧B接收到来自控制器的电流信号时袁比例伺服阀的阀芯将以不同的速度移动袁 利用阀口开度变化改变液动节流阀液压缸中液压油的流入量袁从而控制液动节流阀的阀位遥 其中袁液压油增压动力来源于电动液压泵或手动液压泵咱15暂遥图1液动节流阀工作原理采用三位四通电液比例伺服阀控制液动节流阀袁其控制结构的简化模型如
9、图2所示遥 其中袁v1为液压缸左侧容积曰v2为液压缸右侧容积曰Bc为粘性阻尼系数曰ps为液压油流入比例伺服阀的压力曰p0为液压油流出比例伺服阀的压力曰Q1和Q3分别为液压油流入比例伺服阀左右两侧的流量曰Q2和Q4分别为液压油流出比例伺服阀左右两侧的流量遥液动节流阀的控制原理为院当比例伺服阀阀门开度达到50%时袁 比例伺服阀的阀芯位移Xpv=0袁 液压油以流量Q1流入液动节流阀的左侧液压缸袁并形成节流阀液压缸左侧压力p1袁与右侧液压缸压力p2相等袁 此时节流阀液压缸内处于平衡状态袁液动节流阀阀位保持稳定不变袁并且液压油以流量Q2流出液压缸遥 当比例伺服阀阀门开度大于50%时袁比例伺服阀的阀芯位移
10、Xpv跃0袁液压油在液动节流阀液压缸左侧形成压力p1大于右侧压力p2袁驱动节流阀的阀芯右移袁节流阀阀芯位移Xtv持续增大袁液压缸左右两侧压差越大袁节流阀阀芯位移运动速度越快遥 同理可知袁比例伺服阀阀门开度小于50%时袁节流阀的阀芯持续左移遥2控压节流阀的动态模型在对液动节流阀进行机理分析前袁做出如下补充假设院a.比例伺服阀具有良好的线性流量特性曰b.液压油的体积弹性模量为常数曰c.节流阀的液压缸泄漏流动为层流流动遥比例伺服阀阀芯位移Xpv与比例伺服阀阀门开度pchock的关系为院420第 50 卷第 4 期化 工 自 动 化 及 仪 表图2液动节流阀控制结构简化模型Xpv=渊pchock-0.
11、5冤Xpvmax渊1冤其中袁Xpvmax为比例伺服阀阀芯正向最大位移遥液动节流阀阀门开度zchock与液动节流阀阀芯位移Xtv的关系为院zchock=XtvXtvmax袁zchock沂咱0袁1暂渊2冤其中袁Xtvmax为液动节流阀阀芯正向最大位移遥利用流量压力方程尧流量连续性方程尧力平衡方程袁得到的液动节流阀动态模型如下咱16袁17暂院QL=KqXpv-KcpL渊3冤QL=Xpv|Xpv|AdXtvdt+CttpL+v4茁edpLdt蓸蔀渊4冤F=md2Xtvdt2+BcdXtvdt渊5冤Kq=Cd棕忆1籽渊ps-pL冤 姨渊6冤Kc=Cd棕忆Xpv1籽渊ps-pL冤 姨2渊ps-pL冤渊7冤
12、其中袁QL为负载流量曰Kq为比例伺服阀的流量增益系数曰Kc为比例伺服阀的压力流量系数曰A为活塞有效面积曰Ctt为液压缸总泄漏系数曰v为液压缸总容积曰茁e为液压油体积弹性模量曰pL为液压缸左右压差曰F为液压推动力曰m为活塞和节流阀负载的总质量曰籽为液压油密度曰Cd为比例伺服阀流量系数曰棕忆为比例伺服阀节流窗口面积梯度遥由式渊3冤耀渊7冤可以推导出院KqAXpv=vm4茁eA2d3Xtvdt3+m渊Kc+Ctt冤A2+Bcv4茁eA2蓘蓡d2Xtvdt2+1+Bc渊Kc+Ctt冤A2蓘蓡dXtvdt渊8冤在本课题中袁粘性阻尼系数Bc较小袁可忽略不计遥 并且式渊8冤中渊Kc+Ctt冤/A2是由比例伺
13、服阀的压力流量系数Kc和液压缸总泄漏系数Ctt决定的阻尼系数袁该数值一般比粘性阻尼系数Bc小得多袁因此忽略不计遥 因此袁式渊8冤可化简为院KqAXpv=1棕h2d3Xtvdt3+2h棕hd2Xtvdt2+dXtvdt渊9冤棕h=4茁eA2vm 姨渊10冤h=KceA茁emv 姨渊11冤Kce=Kc+Ctt渊12冤其中袁棕h为液压系统的固有频率曰h为液压系统的阻尼比曰Kce为总流量压力系数遥4212023 年化 工 自 动 化 及 仪 表根据式渊9冤耀渊12冤袁令y1=Xtv袁y2=dXtvdt袁y3=d2Xtvdt2袁代入式渊9冤得到液动节流阀的动力学模型院y窑1=X窑tv=y2y窑2=X咬t
14、v=y3y窑3=X噎tv=-2h棕hy3-棕h2y2+棕h2KqAXpv扇墒设设设设设设设设设缮设设设设设设设设设渊13冤3DQN控制算法3.1DQN算法本课题采用DQN算法袁通过智能体来感知环境状态的变化袁并且在与环境交互的过程中得到最大的累积奖励的期望咱18暂遥 智能体首先依据当前的状态st从动作策略仔中选择一个合适的动作at袁在环境和动作共同作用下袁 从状态st转移到新的状态st+1袁同时环境依据奖励函数给出对应的奖励值rt渊即时间t收到的标量奖励冤遥 智能体和环境在不断的循环交互过程中袁利用预期累积奖励期望值进行评估袁最大化奖励的过程也可以看作寻找最佳行为策略的过程遥 其中袁预期累积奖
15、励值在当前状态s下执行动作a的最大期望Q*渊s袁a冤的计算式为院Q*渊s袁a冤=max仔E咱rt+酌rt+1+酌rt+2+噎|st=s袁at=a袁仔暂渊14冤其中袁酌是折扣因子遥根据Bellman方程袁式渊14冤展现了当前回报和未来回报之间的递归关系遥 利用最优性原则袁式渊14冤可写作院Q*渊s袁a冤=Es忆咱r+酌maxa忆Q*渊s忆袁a忆冤|s袁a暂渊15冤其中袁s忆为下一时刻的状态曰a忆为下一时刻的执行动作遥在DQN中利用误差反向传播袁不断迭代更新神经网络中的Q值网络院Q渊s袁a曰棕冤饮Q渊s袁a曰棕冤+琢r+酌maxa忆Qtarg渊s忆袁a忆曰棕targ冤-Q渊s袁a曰棕冤蓘蓡渊16冤
16、其中袁琢是学习率咱13暂曰Qtarg为目标动作价值函数网络曰棕targ为目标动作价值函数网络的权重曰棕为动作价值函数Q网络的权重遥3.2阀位控制算法的深度强化学习在本课题中袁液动节流阀的模型仅用于模拟钻井现场液动节流阀的动态变化袁即作为强化学习的环境使用遥 对于节流阀的控制问题袁强化学习的基本内容主要体现在液动节流阀从一个状态转移到另一个状态袁以及状态转移时环境给出的奖励遥 因此袁基于强化学习的节流阀阀位控制策略主要包括状态空间尧动作空间尧奖励函数和训练过程遥3.2.1状态空间状态s沂S是描述液动节流阀的特征向量遥 为了在不断变化的环境中采取最佳行动袁需要对其进行精确的描述袁状态向量选取如下院
17、s=咱zset-zchock暂渊17冤在本研究中袁状态由节流阀设定值zset和环境给出的节流阀阀位反馈值zchock组成遥 通过观察设定值和环境反馈值的差值可以判断控制精度遥3.2.2动作空间动作空间是离散集合袁动作向量是控制器将采取的控制动作袁即对比例伺服阀的控制量遥 设计节流阀在控制过程中的动作空间主要分为3种情况院当动作空间等于50时袁即比例伺服阀开度为50%时袁液动节流阀阀位保持不变曰当动作空间大于50时袁液动节流阀的阀位增加袁并设计5种不同的增速指令袁 即50.5为低速尧51为中低速尧52为中速尧55为中高速尧60为高速曰当动作空间小于50时袁液动节流阀阀位减小袁并设计5种不同的减速
18、指令袁即49.5为低速尧49为中低速尧48为中速尧45为中高速尧40为高速遥 液动节流阀具体的离散空间定义动作a沂A1院A1=咱40袁45袁48袁49袁49.5袁50袁50.5袁51袁52袁55袁60暂渊18冤3.2.3奖励函数奖励函数是强化学习的直接目标袁它的设计在强化学习中至关重要遥 由于智能体的目标是将液动节流阀阀位控制在目标范围内袁即智能体的目标是将状态sset控制为0袁 该函数观察环境的状态并依据状态输出奖励信号遥 该信号是数字奖励袁并且通过该奖励来评估导致环境变化至当前状态的动作的优劣遥 奖励函数设置为院强化学习策略训练过程中每一步的奖励都是通过该奖励函数获得袁 由于代理的目标是累
19、积奖励的最大化袁因此奖励函数可以看作为目标函数袁奖励函数形式如下院422第 50 卷第 4 期化 工 自 动 化 及 仪 表序号12310参数活塞有效面积比例伺服阀的流量增益系数液压油体积弹性模量节流阀阀芯正向最大位移符号AKq茁eXtvmax4活塞和节流阀负载总质量m5液压缸总容积v6总流量压力系数Kce7液压系统阻尼比h8液压系统固有频率棕h9比例伺服阀阀芯正向最大位移Xpvmax取值0.0532.516.9伊1080.01019.20.002 659.2伊10-120.112 3440.004单位m2m2/sPakgm3渊m5/N冤 窑 s无量纲rad/smmr=1-渊sset-s冤2袁
20、如果在约束范围内-10袁如果超过约束嗓渊19冤其中袁sset是节流阀差值的设定值袁 设为0曰s是状态袁即节流阀设定值zset与环境给出的节流阀阀位反馈值zchock的差值遥DQN代理与环境交互的过程中袁状态不断变化袁需要设定节流阀阀位阈值作为约束袁当实时节流阀阀位超过该阈值时袁奖励函数给以一个足够低的负值袁并且当前episode结束时袁重置环境的状态尧 累积奖励期望值等参数并进入下一个episode中进行交互曰反之袁当实时节流阀阀位未违反阈值约束条件时袁 奖励值的大小与状态有关遥3.2.4训练过程本课题采用DQN算法袁将深度学习的函数近似能力和表征能力融入到强化学习中袁该算法与Q学习十分类似袁
21、在Q学习的基础上袁增加了目标Q值网络袁并且采用经验回放机制咱19暂袁其实现流程如下院a.初始化经验样本区D袁探索率着袁衰减因子灼袁奖励折扣因子酌曰b.初始化动作价值函数网络Q尧权重棕曰c.初始化目标动作价值函数网络Qtarg尧权重棕targ曰d.循环遍历episode=1袁2袁噎袁M曰e.初始化状态s1曰f.循环遍历e=1袁2袁噎袁N曰g.以探索率着随机选择动作at袁 否则用着鄄greedy策略选择动作at=maxaQ渊st袁a曰棕冤曰h.执行动作策略at袁得到奖励函数rt和新的状态st+1曰i.将生成的数据渊st袁at袁rt袁st+1冤放在经验样本区D中曰j.在经验样本区D中随机抽取n组数据
22、渊st袁at袁rt袁st+1冤曰k.利用yi=ri+酌maxa忆Qtarg渊si+1袁a忆曰棕targ冤渊i=1袁2袁噎袁n冤更新对应状态的Q值曰l.计算损失函数咱yi-Q渊si袁ai曰棕冤暂2对权重棕采用梯度下降法更新棕targ袁探索率衰减着饮着 窑 灼袁更新状态st饮st+1曰m.循环终止曰n.循环终止遥在训练中使用DQN算法遥 为了平衡探索渊ex鄄ploration冤和利用渊exploitation冤袁防止代理生成的策略陷入局部最优袁采用一种非贪婪策略袁探索率着的初始值着0较高袁 之后探索率呈指数衰减遥DQN算法有两大特点院一是经验回放机制解决了Q学习算法更新网络参数的训练不稳定性问题曰
23、二是目标Q值网络打破了样本之间的相关性袁使神经网络更新效率更高遥4试验与分析仿真训练过程中设置的液动节流阀动态模型参数见表1遥表1液动节流阀动态模型参数4232023 年化 工 自 动 化 及 仪 表4.1训练结果在DQN训练过程中袁算法对超参数的变化十分敏感袁 因此通常情况下需要对超参数进行优化袁选择一组最优超参数袁以提高深度强化学习的性能遥 本研究仿真实验设定的超参数见表2遥表2深度强化学习超参数序号12311参数初始探索率探索率衰减因子衰减后最小探索率采用的激活函数符号着0灼着minactivation_ func4学习率琢5奖励折扣因子酌6回放缓冲区大小D7回放缓冲区采样数n取值10.
24、9950.05ReLU0.0010.910 00058神经网络输入维数input_size19神经网络输出维数output_size1110隐含层数及节点数hidden_layer咱5袁5暂本研究的训练过程存在20 000个episode袁每个episode包含200个step遥为了更明显地观察到累积奖励期望值的收敛趋势袁采用每20个episode的累积奖励取均值的形式绘图遥训练阶段的累积奖励变化曲线如图3所示遥可以看出袁开始时智能体由于探索率高袁选择随机动作的概率大袁因此表现不佳曰而随着探索率的不断衰减袁DQN智能体对控制动作策略不断改善袁奖励值不断变大袁最终学到了较优的阀位控图3强化学习训
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 强化 学习 节流阀 控制 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。