基于机器学习的箱纸板质量预测模型构建及比较.pdf
《基于机器学习的箱纸板质量预测模型构建及比较.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的箱纸板质量预测模型构建及比较.pdf(8页珍藏版)》请在咨信网上搜索。
1、China Pulp&Paper Vol.42,No.7,2023研究论文箱纸板质量基于机器学习的箱纸板质量预测模型构建及比较钱继炜1 李继庚1 满奕1,2 洪蒙纳1,3 何正磊1,*(1.华南理工大学制浆造纸工程国家重点实验室,广东广州,510640;2.人工智能与数字经济广东省实验室(广州),广东广州,510335;3.中新国际联合研究院,广东广州,510555)摘要:箱纸板生产涉及一系列复杂工艺流程,且由于缺乏关键质量的在线监测手段,进而导致质量管控困难。为此,本研究尝试基于机器学习方法建立可在线监测箱纸板质量的预测模型,也称软测量模型,以促进上述问题的有效解决。本研究采用箱纸板企业实际
2、数据,训练并比较了随机森林(RF)、梯度提升回归(GBR)、K近邻回归(KNN)及偏最小二乘回归(PLS)在多项质量指标上的预测表现。结果表明,不同质量指标本身很大程度上影响了预测精度的上限,而不同算法对理论上限的逼近程度有显著差异。复杂、非线性的集成模型(RF、GBR)相较于简单模型(KNN、PLS)有更好的表现。关键词:机器学习;数据挖掘;造纸工业;质量预测;软测量中图分类号:TS77;TP27 文献标识码:A DOI:10.11980/j.issn.0254-508X.2023.07.009Construction and Comparison of Cardboard Quality
3、Prediction Models Based on Machine LearningQIAN Jiwei1 LI Jigeng1 MAN Yi1,2 HONG Mengna1,3 HE Zhenglei1,*(1.State Key Lab of Pulp and Paper Engineering,South China University of Technology,Guangzhou,Guangdong Province,510640;2.Guangdong Artificial Intelligence and Digital Economy Lab(Guangzhou),Guan
4、gzhou,Guangdong Province,510335;3.China-Singapore International Joint Research Institute,Guangzhou,Guangdong Province,510555)(*E-mail:)Abstract:The production of cardboard in volves a series of complex processes and the lack of online monitoring methods for key qualities,which makes it difficult to
5、control the quality of cardboard.This paper attempted to establish predictive models,also known as soft measurement models,which based on machine learning methods that could monitor cardboard quality on line to facilitate effective solutions to the above problems.This study used actual data from car
6、dboard companies to train and compared the predictive performance of random forest(RF),gradient boosted regression(GBR),K-nearest neighbor regression(KNN),and partial least squares regression(PLS)on a variety of quality indicators.The results showed that the different quality indicators themselves l
7、argely effected the upper limit of prediction accuracy,while the degree of approximation to the theoretical upper limit varied significantly among algorithms.Complex,nonlinear integrated models(RF,GBR)had better performance,compared to simple models(KNN,PLS).Key words:machine learning;data mining;pa
8、per industry;quality prediction;soft measurement不断加剧的市场竞争和日益复杂的生产过程工艺,使得制造业对高效生产管理的需求日趋迫切。因此,现代工厂通过广泛安装物理传感器、分布式控制系统、制造执行系统及相关的生产管理系统以改善生产过程变量的可访问性和可追溯性1-2,通过监测关键参数以促进该问题的有效解决。然而,对于造纸工业而言,原纸关键质量变量的获取仍依赖于人工离线检测。该检测方式存在反馈周期长、测试结果不稳定、测试样品覆盖率低等缺陷,作者简介:钱继炜先生,在读硕士研究生;主要从事制浆造纸节能与过程优化的研究。收稿日期:2022-08-11(修改稿
9、)基金项目:国家重点研发计划(2020YFE0201400);人工智能与数字经济广东省实验室(广州)青年学者项目(PLZ2021KF0019)。*通信作者:何正磊,博士,助理研究员;主要从事造纸过程建模、优化和节能减排研究。72研究论文中国造纸 2023 年第 42 卷 第 7 期严重影响了后续的决策与控制过程。因此,实现对质量变量的实时、在线监测是造纸工业亟需解决的关键问题之一。受限于现有传感技术和检测手段的发展水平,目前仍不具备可直接在造纸生产过程中对原纸关键质量进行在线测量的工具。而基于易测变量与难测变量之间的交互关系建立预测模型,也称软测量模型,是有效解决上述问题的技术方法,其在相关领
10、域已经得到了广泛的应用与验证3-4。针对纸张性能的预测建模方法可大致分为机理建模和数据驱动建模2个大类。机理建模侧重于描述过程的理想状态,针对复杂的现代工业过程,开发完整、准确的机理模型存在极大难度。因此,单独基于机理建立的预测模型较为少见5。于是,有不少学者在机理研究的基础上应用实验数据,并结合人工经验建立了数学模型,也称为经验模型。其中,最著名的是预测纸张抗张强度的Page模型6,此外还包括改进的Page模型7-8及在Page模型基础上建立的耐破度模型9、撕裂度模型10等。然而,上述模型的输入涉及纤维性质、相对结合面积、零距抗张强度等本身难以测量的变量,与建立预测模型的初衷相悖。同时,人脑
11、通常无法高效、全面地处理和利用复杂、高耦合、高度非线性的工业数据,导致现有经验模型考虑的输入变量有限且很少与高维的过程变量进行关联,导致其难以应用于实际工业场景11。数据驱动的机器学习建模方法凭借能够处理高维、复杂数据并取得良好的预测精度等优点,已经在众多场景中得到广泛研究和应用,是相关研究领域的主要发展趋势。如针对水泥熟料生产过程中高成本、大时延的氧化钙含量化学检测现状提出的卷积神经网络模型12;用于监测城市污水化学需氧量的混合卷积神经网络和长短神经记忆网络模型13;用于监测流量的改进K近邻模型14;用于预测造纸废水出水指标的随机森林模型15、相关向量机模型16以及人工神经网络模型17等。针
12、对造纸工业的原纸质量预测建模研究而言,目前主要包括应用于瓦楞原纸的支持向量回归模型18和偏最小二乘模型19;应用于生活用纸的梯度提升回归模型等。然而,现有的大多数研究仅侧重于模型选择,并未根据建模对象和数据特征对整体的建模流程进行详细可行的设计。此外,作为最重要的工业用纸品种之一,目前关于箱纸板质量的预测研究仍为空白,而工业用纸生产企业对箱纸板质量指标(平滑度、耐折度、耐破度等)的在线监测需求极为迫切。因此,本研究将针对箱纸板的平滑度、耐折度和耐破度进行详细的预测建模研究。首先通过有监督的方式对建模数据集进行划分,并结合特征机理,引入新特征作为模型共同输入。然后,对不同质量指标分别建立多种基于
13、机器学习的质量模型,包括随机森林(random forest,RF)、梯度提升(gradient boosting regression,GBR)、K 近 邻 回 归(K-nearest neighbor,KNN)以及偏最小二乘(partial least squares regression,PLS),并利用网格搜索结合遗传算法的参数优化框架,对模型超参数进行调优。最后采用判定系数(coefficient of determination,R2)、均方根误差(root mean square error,RMSE)、平 均 绝 对 百 分 比 误 差(mean absolute percen
14、tage error,MAPE)评价模型预测表现并进行比较与分析。1 建模数据整理1.1原始数据采集和预处理本研究的数据源自安徽某造纸厂 2021年 5月至2021年11月的生产过程数据和质量检测数据。采集的原始特征共计24个维度,其中包括21维过程变量和3维质量变量,相关变量的具体情况分别如表1和表2所示。表1数据集的过程变量Table 1Process variables of the dataset符号Pw1Pw2PcalBWBWaWusWlsMt1Mb1Mt2Mb2Mt3Mb3FcalFcurvgapvratioTcalTwindRh含义第一道湿压榨中2个压榨棍之间的线压力第二道湿压榨
15、中2个压榨辊之间的线压力压光部2个压光辊之间的线压力单位面积纸张的质量,即定量单位面积纸张的绝干质量,即绝干定量单位面积纸张上表面施胶量单位面积纸张下表面施胶量面层干强剂质量流量底层干强剂质量流量面层助留剂质量流量底层助留剂质量流量面层填料质量流量底层填料质量流量压光过程中纸幅的张力卷曲过程中纸幅的张力浆速和网速的差值浆速和网速的比值压光辊表面实际温度施胶剂热风温度水分含量纸幅厚度单位kN/mkN/mkN/mg/m2g/m2g/m2g/m2kg/minkg/minkg/minkg/minkg/minkg/minkN/mkN/mm/min%mm73China Pulp&Paper Vol.42,
16、No.7,2023研究论文由于上述过程变量主要通过在线传感器实时采集获取,而不同传感器的采样频率、位置和时间点有较大差异,因此,不同数据间需围绕时间刻度进行匹配。本研究采用了步长与宽度相同的滑动窗口(均为每分钟),在时间尺度上处理不规整的颗粒度异化数据,以获得时间和频率规整的实验数据集,为后续数据挖掘提供便利。考虑到测试纸样在造纸过程中经过不同传感器的先后位置顺序,生产过程数据之间的理论匹配情况如图 1 中黑色实线所示。但对于本研究而言,分析对象采用的纸机属于现代高速夹网纸机,浆料从流浆箱喷浆上网、成形、压榨、干燥直至纸机末端卷曲约在1 min内即可完成,再考虑到传感器频率、读数精度等问题,因
17、此,视完成颗粒度转换后的过程变量已经在时间戳上进行了对齐。此外,由于箱纸板质量变量(即平滑度、耐折度和耐破度)主要通过离线检测的方式获取,且检测频率以卷轴为单位并通常有多次测试结果。因此,上述2个部分数据将通过母卷下卷时间进行匹配20,且对多次测试的结果做了均值处理。针对匹配完成后的原始数据,本研究进一步采用了拉依达准则清除异常样本。最后共计获得972组有效的实验数据集。完整的原始数据处理技术路线图如图2所示。1.2测试和训练数据划分纸张定量作为造纸过程最重要的控制指标,其通常可作为工况划分的依据。考虑到不同产品定量下的过程数据可能存在局部特性,且结合数据集在定量划分上表现出的显著聚类倾向。本
18、研究在划分训练数据和测试数据时并未采取常规建模研究中对整个数据集进行随机划分的训练方式。为了确保模型的稳定性和全局性,本研究在数据划分过程中主要结合了相关研究提出的聚类划分21及局部建模22等思想,采用了如图3所示的训练与测试集的划分方法。首先,根据定量将数据样本空间进行有监督划分,共计划分得到6个子空间。然后,从各个样本空间随机选取相同数量的样本(35个样本),汇总成最终的测试数据集,而剩余部分则汇总为训练数据。其中,在各样本空间选取相同数量样本的原因主要包括以下两点:第一,各样本空间的数据量差异由数据采集导致,而数据本身在实际工业环境中则等效;第二,后续使用的模型评价指标(如R2、RMSE
19、等)均包含取均值思想。因此,相同数量的测试样本可以确保各样本空间的数据对最终评价指标的影响相同。最终的训练集和测试集样本比例约为3.61。1.3特征生成与特征选择在造纸生产过程中,各类化学品的使用会对最终产品的质量产生直接影响,且在实际生产中,调控化学品的添加量是生产动态过程中最常见、最有效的管理手段。为此,本研究将以各类化学品消耗作为主要切入点,生成新的特征变量。根据表1可知,所采集的原始数据中与造纸化学品有关的原始特征包括Mt1、Mb1、Mt2、Mb2、Mt3、Mb3、Wus、Wls。考虑到上网纸幅(研究对象)是两面强制脱水,在流送系统中加入的造纸化学品会在流浆箱喷浆上网和网部大量脱水过程
20、中形成湍流混合,且其面层与底层、上表面和下表面图1过程数据匹配示意图Fig.1Schematic representation of process data matching图2原始数据处理技术路线图Fig.2Technical route of raw data processing表2数据集的质量变量Table 2Quality variables of the dataset符号SRfFb含义平滑度耐折度耐破度单位s次kPa74研究论文中国造纸 2023 年第 42 卷 第 7 期的造纸化学品用量本身差异不大。于是,本研究分别生成了干强剂总流量、助留剂总流量、填料总流量以及施胶总流量4
21、个新的特征变量。在前3个广度量特征的基础上与定量计算商数,进一步生成了3个强度量特征,即可分别用于表征吨纸干强剂消耗量的 x1(干强剂总流量/定量)、表征吨纸助留剂消耗量的x2(助留剂总流量/定量)、表征吨纸填料消耗量的 x3(填料总流量/定量)。假设各类造纸化学品的留着率、配制的质量浓度及纸机车速等均保持稳定,则三者的特征归一化结果与实际各类造纸化学品吨纸消耗量的归一化结果一致。同时,本研究通过相关系数矩阵(如图4所示)和专家经验来处理冗余变量,如利用Pearson相关系数法明确BW与BWa的相关性极高,于是结合专家经验最终保留前者。此外还包括vgap和vratio、新生成的特征和对应的原始
22、特征等。最终,在充分考虑模型的物理含义、相关系数矩阵、特征可解释性等因素后,确定建模的输入变量如表3所示。2 建模与验证2.1机器学习算法与参数优化方法本研究采用的模型方法包括2种基于不同思想的集成学习(分别为RF23和GBR24)、KNN25和PLS26。为了对模型超参数进行寻优,本研究尝试结合了网格搜索27(grid search,GS)和启发式算法28-29等广泛应用于模型超参数调化的实用方法。GS属于暴力求解算法,可以有效杜绝超参数寻优过程陷入局部最优,然而在面对参数较多、网格参数颗粒度较细等情况时,模型的训练过程非常耗时。与之相反,遗传算法(genetic algorithm,GA)
23、则属于启发式算法,有着较强的局部搜索能力,在求解复杂问题时也能实现快速收敛。因此,本研究提出了结合2种算法优势的超参数优化框架,并通过交叉验证确定各模型的最佳超参数,优化过程及具体结构如图5所示。该方法首先利用合理设置的GS求解超参数的次优解,在此基础上生成缩小范围后的参数空间。然后,利用GA的局部搜索能力确定超参数的最优取值。本研究考虑的随机森林回归超参数包括弱学习器个数、最大深度、叶子节点最小样本数、节点划分最小样本数;梯度提升回归超参数包括弱学习器个数、最大深度、学习率、叶子节点最小样本数、节点划分最小样本数;K近邻回归超参数包括近邻数量、距离权重;偏最小二乘回归超参数包括保留主成分数。
24、图3训练与测试集的划分方法Fig.3The method of dividing the training and test data表3建模使用的输入变量Table 3Inputted variables for modeling符号Pw1Pw2PcalBWFcalvratioatsx1x2x3含义第一道湿压榨中2个压榨棍之间的线压力第二道湿压榨中2个压榨辊之间的线压力压光部2个压光辊之间的线压力单位面积纸张的质量,即定量压光过程中纸幅的张力浆速和网速的比值单位面积纸张的总施胶量干强剂总质量流量/纸张定量助留剂总质量流量/纸张定量填料总质量流量/纸张定量单位kN/mkN/mkN/mg/m2k
25、N/mg/m2103m2/min103m2/min103m2/min图4Pearson相关系数矩阵Fig.4Pearson correlation coefficient matrix75China Pulp&Paper Vol.42,No.7,2023研究论文2.2模型评价指标针对预测模型的表现,本研究将使用判定系数(R2)、均方根误差(RMSE)及平均绝对百分比误差(MAPE)作为回归性能的评价指标,从拟合程度、归一化误差以及相同数量级下误差这3方面综合比较不同算法的优劣。相关评价指标的具体计算表达式分别如式(1)式(3)所示。R2=1-i=1n()yi-yi2i=1n()yi-y 2(1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 纸板 质量 预测 模型 构建 比较
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。