![点击分享此内容可以赚币 分享](/master/images/share_but.png)
复杂生产过程工况分类及预测模型研究——以青霉素生产过程为例.pdf
《复杂生产过程工况分类及预测模型研究——以青霉素生产过程为例.pdf》由会员分享,可在线阅读,更多相关《复杂生产过程工况分类及预测模型研究——以青霉素生产过程为例.pdf(6页珍藏版)》请在咨信网上搜索。
1、复杂生产过程工况分类及预测模型研究 以青霉素生产过程为例刘观华,李香泉,夏 辉,刘 波(景德镇学院,江西 景德镇 3 3 3 4 0 0)摘 要:为实现青霉素生产过程的有效控制和管理,针对生产过程中青霉素浓度无法实时监测的问题,提出了基于机器学习算法的两种工况分类方法及其相应的预测模型。首先,以青霉素生产过程中影响青霉素浓度的因素作为参数指标,分别采用K-M e a n s、I S O D A T A聚类算法实现青霉素生产工况的分类;然后,在两种分类结果的基础上采用支持向量机线性回归(S V R)建模,得到对应的S V R预测模型;最后,对青霉素发酵过程产生的数据进行仿真实验,仿真结果表明,基
2、于两种聚类算法的S V R预测模型的预测准确性都较高,而基于K-M e a n s聚类算法的S V R预测模型的可靠性更优。关键词:K-m e a n s聚类;I S O D A TA聚类;S V R模型;复杂生产过程;青霉素中图分类号:T Q 4 6 5 文献标识码:A 文章编号:2 0 9 5 9 6 9 9(2 0 2 3)0 3 0 1 3 1 0 60 引言青霉素浓度是青霉素工业生产过程中的重要指标,其生产过程中存在许多不确定因素,如温度、湿度、p H值等,并且一些关键参数如葡萄糖浓度、菌丝浓度等在实际操作中没有合适的在线检测仪器,故而无法实现青霉素浓度的实时测量。因此,建立有效的青
3、霉素浓度软测量模型是十分迫切的1-2。针对生产过程中青霉素浓度无法实时监测的问题,国内外学者做了大量的研究。文献2 提出了一种基于混沌最小二乘支持向量机的青霉素浓度预测方案,实验仿真表明混沌优化算法具有良好的全局优化性能以及较高的青霉素浓度预测精度。文献3 提出了基于“灰箱”建模的一种新的混合建模方法,先对过程进行机理建模,然后针对实际生产过程中不可识别因素对机理模型结果的影响,采用了R B F神经网络加以解决,此方法对于青霉素发酵过程的青霉素浓度的预测取得了较好的效果。文献4 使用S VM方法建立了青霉素效价预估模型,实验证明该模型对青霉素发酵过程参数调整有良好的拟合效果,优于神经网络(AN
4、N)建模方法。文献5 以青霉素发酵过程生化机理模型产生的数据为样本,训练R B F神经网络,建立了基于R B F神经网络的发酵过程模型。文献6 提出了一种基于R F-I HHO-L S TM(随机森林-改进的H a r r i s鹰群优化-长短期记忆)的新型混合软测量模型方法,利用随机森林对青霉素的辅助变量进行特征选择,然后对H a r r i s鹰群优化(HHO)算法进行了改进。文献7 提出了一种基于大数据特征分析的青霉素发酵过程多输出软测量建模方法,该方法将过程数据按顺序划分为若干个批次,然后,根据深度稀疏自编码神经网络方法提取多变量、时变数据集的数据特征,实现了对多变量时间序列因素间关系
5、的有效挖掘,并基于多输出支持向量回归方法建立多个针对不同预测目标的软测量模型;同时采用了改进的黑洞算法对模型参数进行优化,提高了软测量模型的预测性能。文献8 讨论了工业抗生素补料分批发酵过程的经验模型,采用线性模型、径向基函数神经 第3 8卷 第3期 2 0 2 3年6月 景德镇学院学报J o u r n a l o f J i n g d e z h e n U n i v e r s i t y V o l.3 8 N o.3J u n.2 0 2 3收稿日期:2 0 2 3-0 3-3 1基金项目:景德镇市嵌入式应用技术重点实验室平台建设项目(2 0 2 2 4 P T J S 0 0
6、5);江西省教育厅科技重点项目(G J J 2 2 0 2 4 0 4)作者简介:刘观华(2 0 0 2-),男,江西宜春人,在读本科生,主要从事网络技术、机器学习方面的研究。通信作者:李香泉(1 9 8 0-),男,江西吉安人,副教授,主要从事人工智能、嵌入式及计算机控制技术研究。网络和混合线性 神经网络模型进行建模,提出了过程动态建模和发酵样本空间建模两种抗生素发酵过程建模方法。以上文献的研究,均只考虑青霉素发酵过程的相关参数对于青霉素浓度的影响,缺少对相关工艺生产过程的分类处理,未从生产工况对青霉素浓度的影响上进行分析。针对上述情况,本文拟对青霉素的工艺生产过程进行分类,分别使用K-M
7、e a n s聚类算法与I S O D AT A算法进行聚类分析,再对各类别的样本进行S V R建模,比较分析两种聚类算法的结果,选择准确性好、稳定性优的算法建立分类模型和预测模型。最后,对基于青霉素发酵过程的数据集进行仿真实验,验证所提方法的有效性。1 聚类算法及预测模型本文的研究思路:首先采用K-M e a n s聚类9和I S O D AT A聚类算法1 0进行工况数据的分类处理;然后,针对各类别的工况数据,采用S V R算法分别进行预测模型的构建。1.1 K-M e a n s聚类算法K-M e a n s聚类 算法是由S t e i n h a u s(1 9 5 5)、L l o
8、y d(1 9 5 7)、B a l l&H a l l(1 9 6 5)、M c Q u e e n(1 9 6 7)分别 在 各 自 不 同 的 科 学 研 究 领 域 独 立 提 出的1 1-1 2,是一种基于距离的聚类算法。它的基本原理是:将数据集中的样本点分为K个簇,通过不断迭代使其满足:簇内的样本点之间的距离最小、不同簇之间的距离最大。算法的过程为:选定初始K个质心,之后对所有数据进行处理,将每个样本点分配到最近的聚类中心,并计算每个聚类的平均值。然后,将每个聚类的平均值作为新的聚类中心,重复分配与更新,直到聚类中心不再更新或达到最大迭代次数。最后将每个样本点分配到最近的聚类中心,
9、得到聚类结果。K-M e a n s中距离的计算公式为:J(Ck)=ki=1xCk|x-k|2 (1)其中,Ck表示第k个簇,k表示第k个簇的质心,|x-k|2表示样本点x到质心k距离的平方。K-M e a n s的聚类效果主要依赖于距离的计算方法。当前K-M e a n s聚类算法支持三种不同的距离计算方法,分别是欧式距离、曼哈顿距离和切比雪夫距离,计算公式如(2)、(3)、(4)所示:d(x,y)=ni=1(xi-yi)2 (2)d(x,y)=ni=1|xi-yi|(3)d(x,y)=m a x(|xi-yi|)(4)K-M e a n s聚类算法选择距离计算方法取决于数据集的特征。一般原
10、则是,如果数据集中的样本点具有较大的维度,则推荐使用欧式距离;如果数据集中的样本点具有较小的维度,则推荐使用曼哈顿距离或切比雪夫距离。鉴于本文中样本点的维度较大,因此,选择欧氏距离作为距离的计算方法。1.2 I S O D AT A聚类算法I S O D AT A聚类算法是由B e a z d e k提出的一种聚类分析方法,可以获得丰富的聚类信息,而且在计算过程中不需要过多的人工干预1 3。I S O D AT A聚类算法是在K-M e a n s聚类算法的基础上,增加对聚类结果的“合并”和“分裂”两个操作。当聚类结果中某一类样本数太少,或两个类间的距离太近时,进行合并操作;当聚类结果中某一类
11、样本数太多,或某个类样本某个特征类内方差太大时,进行分裂操作。该算法通过设定控制参数实现其自适应聚类过程,其中控制参数有:预期的聚类中心数目K、每一聚类域中最少的样本数N、聚类域中样本距离分布的标准差S、两聚类中心间的最小距离 c、一次迭代运算中可以合并的聚类中心的最多对数L和迭代运算的次数I。I S O D AT A算法过程如下所示:(1)选择某些初始值。预选不同的参数指标,将所有的样本按指标分配到各聚类中心。(2)计算各类样本之间的距离指标函数。(3)依据参数指标的阈值,对前一次获得的聚类结果进行分裂或合并操作,获得新的聚类中心。(4)重复(2)-(3)步骤,进行迭代运算,判断聚类结果是否
12、符合要求。若迭代次数结束或过程收敛,则运算结束,得到聚类结果。1.3 S V R模型支持向量机(s u p p o r t v e c t o r m a c h i n e,S VM)是近几年发展起来的,是由V a p n i k1 4根据统计学习理论中的结构风险最小化原则提出的一种全新高效的机器学习方法,有效解决了以往困扰很多学习方法的小样本、非线性、过学习、高维数、局部极小点等实际问题,具有很强的推广能力4,1 5。支持向量机线性回归(S V R)是一种基于S VM231 景德镇学院学报 2 0 2 3年的机器学习算法,用于解决回归问题。S V R算法的基本思想是:构建模型来拟合数据,求
13、解参数确定能够最大程度拟合数据的模型,从而得到最优的结果1 6。S V R算法的应用过程如下:(1)构建模型。根据给定的训练数据,构建一个线性模型y=w*x+b,其中,w和b分别表示模型的权重和偏置。(2)求解模型。根据训练数据,求解模型的参数w和b,使得模型能够最大限度地拟合数据。(3)应用模型。将建立的模型应用于新的数据,得到预测结果。模型的拟合度和准确性决定了S V R模型性能的优劣,可以通过决定系数R2、均方根误差RM S E及平方绝对误差MA E等指标来描述。R2计算公式如下:R2=1-ni=1(yi-yi)2ni=1(yi-y-)2=1-RMS EV a r0,1(5)其中,V a
14、 r为方差,RMS E为均方根误差。R2越大(靠近1)时,样本中预测值和真实值误差越小,表示回归分析中自变量对因变量的解释越好,即模型预测结果越准确。RM S E为均方根误差,是回归模型的典型指标,表示模型在预测中产生的误差。RMS E=1nni=1yi-yi 2,0,+)(6)其中,y为实际值,y为预测值。通常RM S E值越小,模型预测结果越准确。MA E为平方绝对误差,用来衡量预测值与真实值之间的平均绝对误差。MA E=1nni=1yi-yi,0,+)(7)其中,y为实际值,y为预测值。通常MA E值越小,模型预测结果越准确。2 实验仿真2.1 青霉素工艺生产数据本实验采用的数据为文献1
15、 7 中青霉素发酵过程仿真平台产生的仿真数据。通过对青霉素工艺生产过程中的工况条件进行分析,确定影响青霉素浓度的相关因素有:通气速率X 1(L/h)、溶解氧浓度X 2(g/L)、生物浓度X 3(g/L)、二氧化碳浓度X 4(g/L)、酸碱度X 5(P h)、发酵罐温度X 6(K)和生成热X 7(k c a l)。根据仿真平台产生不同条件下的青霉素浓度X 8(g/L),由此得到包含8 9 9组数据的仿真数据集如表1所示。表 1 仿真数据集序号X 1X 2X 3X 4X 5X 6X 7X 818.5 9 81.1 0 8 7 6 1 2.4 5 4 8 32.2 9 3 1 25.0 0 1 3
16、82 9 8.0 0 0 3 5 7 3.9 4 6 7 51.2 5 5 5 128.5 9 61.1 0 9 0 6 1 2.4 5 8 4 42.3 2 9 6 45.0 0 1 0 32 9 7.9 9 8 9 9 7 3.9 6 9 3 21.2 5 6 5 93 8.5 9 3 5 1.1 1 0 8 1 1 2.4 6 1 8 22.2 9 7 9 5.0 0 0 6 72 9 7.9 9 7 6 4 7 3.9 9 0 5 21.2 5 7 8 14 8.5 9 0 5 1.1 0 8 0 91 2.4 6 4 92.2 4 2 9 15.0 0 0 0 42 9 7.9 9
17、6 17 4.0 0 9 8 41.2 5 9 258.5 8 81.1 1 0 0 2 1 2.4 6 7 6 22.2 9 8 4 34.9 9 9 4 92 9 7.9 9 4 7 7 7 4.0 2 6 9 11.2 6 0 88 9 9 8.5 9 61.1 1 4 0 6 1 1.1 3 3 8 72.1 5 7 9 44.9 9 7 5 42 9 8.0 0 0 4 9 6 5.3 6 4 1 91.2 5 3 3 82.2 分类过程设计2.2.1 聚类簇数G a p准则是一种用于确定K-M e a n s聚类算法K值(聚类簇数)的方法,它可以用来评估不同K值下的聚类结果。G a
18、 p准则的思想是:初始时随着K值增大,聚类结果的轮廓系数会提高,但是当K值增大到一定程度后,聚类结果的轮廓系数会出现明显的下降,选择此时的K值作为最佳聚类簇数。本文采用G a p准则来确定K-M e a n s和I S O D AT A聚类算法的聚类簇数,对仿真数据集进行处理,最佳聚类数的评估结果如图1所示。图 1 最佳聚类簇数评估由图1可得:当K值为6时,聚类结果的轮廓系数达到峰值,因此设定聚类簇数为6,即将仿真数据分为6类,对应青霉素工业生产过程中6种不同的生产工况。2.2.2 K-M e a n s与I S O D AT A聚类确定最佳聚类簇数后,分别应用K-M e a n s聚类算法和
19、I S O D AT A聚类算法对仿真数据集进行聚类,将聚类后的每类数据量进行统计,如图2和图3所示。采用I S O D AT A算法聚类时,调整N(每331第3期 刘观华,李香泉,夏 辉,等:复杂生产过程工况分类及预测模型研究一聚类中心中最少的样本数,少于此数就不作为一个独立的聚类)、S(一个聚类中样本距离分布的标准差)和 c(两聚类中心之间的最小距离,如小于此数,两个聚类进行合并)三个参数的值,每种状态下分类的效果变化不大,最终选择各类样本数量差异最小的分类作为最终结果。图 2 K-M e a n s聚类的各类数据量图 3 I S O D A T A聚类的各类数据量对比图2和图3可知,K-
20、M e a n s聚类结果中,各类的样本数目差异不大,各类数据量的分布较均衡;而I S O D A T A的聚类结果中,各类数据量差异较大。2.3 S V R预测模型2.3.1 K-M e a n s-S V R预测模型针对K-M e a n s聚类算法聚类后的六类数据(划分的六种工况),采用S V R算法建立对应的六个青霉素浓度预测模型,以决定系数R2、均方根误差RM S E及平方绝对误差MA E作为模型评价指标来评估不同工况下预测模型的性能,结果如表2所示。表 2 k-m e a n s-S V R预测模型评价指标R2RM S EMA E类别训练集测试集训练集测试集训练集测试集第一类0.8
21、 3 7 7 4 0.8 0 3 6 20.0 1 3 7 6 30.0 1 6 6 7 30.0 0 5 1 9 80.0 0 7 5 5 2第二类0.9 8 9 6 2 0.9 7 0 5 0.0 0 2 5 3 50.0 0 4 9 9 80.0 0 1 4 70.0 0 3 2 4 2第三类0.9 7 9 8 2 0.9 5 2 7 90.0 0 3 0 1 50.0 0 4 4 9 10.0 0 1 8 9 30.0 0 3 2 1 6第四类0.9 8 7 3 8 0.9 7 9 6 0.0 0 2 2 6 40.0 0 2 7 6 00.0 0 1 6 2 00.0 0 2 1 8
22、 2第五类0.8 5 4 7 7 0.8 6 2 5 40.0 0 7 3 1 50.0 0 7 0 0 70.0 0 2 8 3 90.0 0 4 4 6 6第六类0.9 9 6 6 6 0.9 8 2 4 60.0 0 1 1 6 70.0 0 2 7 0 90.0 0 0 7 7 70.0 0 2 0 6 8 从表2中模型的R2、RM S E和MA E指标可以看出所建模型的拟合度高,偏差较小,预测的准确性较高。为了直观地观察拟合效果,随机选取第6类,训练集和测试集的预测效果如图4和图5所示,从图中可以看出模型拟合效果较好。对各类数据集,使用R a n d函数随机抽取其中的数据构成模型的训
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 复杂 生产过程 工况 分类 预测 模型 研究 青霉素
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。