基于近红外光谱的烤烟香型分类模型研究.pdf
《基于近红外光谱的烤烟香型分类模型研究.pdf》由会员分享,可在线阅读,更多相关《基于近红外光谱的烤烟香型分类模型研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、河南农业科学,2 0 2 3,52(7):16 3-17 1Journal of Henan Agricultural Sciencesdoi:10.15933/ki.1004-3268.2023.07.017基于近红外光谱的烤烟香型分类模型研究付博1,杨永锋,刘向真,赵森森,刘茂林,贾国涛,牛洋洋,张坤芳1,于建军,彭桂新1,姬小明(1.河南中烟工业有限责任公司技术中心,河南郑州450 0 16;2.河南农业大学烟草学院,河南郑州450 0 0 2)摘要:为了快速无损地判别国产烤烟香型,指导卷烟配方原料利用,对138 3份烟叶样品进行近红外光谱采集,基于八大香型区划结果进行香型分类,选用各香
2、型稳定区的样品构建香型分类模型。结果显示,基于近红外原始光谱数据利用随机森林构建的香型分类模型准确率仅为48.6 4%,光谱数据经过SG滤波一阶或二阶导数和多元散射校正预处理后,模型准确率提高2 9.54个百分点,然后经因子分析降维处理(45个因子)模型准确率提高到8 5.91%,最后对模型关键参数进行优化,当评估器数量为50 0、随机种子为9时,模型准确率最高为90.45%。利用建立的分类模型对预测集进行预测,清甜香型、焦甜焦香型、清甜蜜甜香型和木香蜜甜香型的召回率均达到90.0 0%以上,召回率最低的为蜜甜香型和焦甜醇甜香型(6 6.6 7%)。以上结果表明,利用近红外光谱技术能够有效鉴别
3、烤烟八大香型。关键词:烤烟;近红外光谱;香型;分类模型;随机森林中图分类号:TS47Study on Aroma Type Classification Model Based on Near InfraredFU Bo-2,YANG Yongfeng,LIU Xiangzhen,ZHAO Sensen,LIU Maolin,JIA Guotao,NIU Yangyang,(1.Technology Center,China Tobacco Henan Industrial Co.,Ltd.,Zhengzhou 450016,China;2.College of Tobacco,Henan A
4、gricultural University,Zhengzhou 450002,China)Abstract:In order to quickly and non-destructively discriminate the aroma type of domestic flue-curedtobacco and guide the utilization of raw materials for cigarette formulation,near infrared spectra werecollected from 1 383 tobacco samples,the aroma was
5、 classified based on the results of eight aroma zones,and the samples from each stable aroma zone were selected to build the aroma classification model.Theresults showed that the accuracy of the fragrance classification model constructed by using random forestbased on the NIR raw spectral data was o
6、nly 48.64%;the model accuracy was improved by 29.54percentage points after the spectral data were pre-processed by SG filtering first or second derivatives andmultiple scattering correction;then the model accuracy was improved to 85.91%by factor analysis anddimensionality reduction(45 factors);final
7、ly,the model key parameters were optimized,the highest modelaccuracy of 90.45%was achieved when the number of base evaluators was 500 and the random seed was9.This classification model was used to predict the prediction set,the recall rates of fresh-sweetness type,文献标志码:ASpectra of Flue-cured Tobacc
8、oZHANG Kunfang,YU Jianjun,PENG Guixin,JI Xiaoming文章编号:10 0 4-32 6 8(2 0 2 3)0 7-0 16 3-0 9收稿日期:2 0 2 2-12-16基金项目:河南中烟工业有限责任公司科技项目(C202023)作者简介:付博(198 4-),男,河南夏邑人,副教授,博士,主要从事烟草质量评价与烟草代谢研究。E-通信作者:彭桂新(196 1-),男,河南西平人,高级工程师,本科,主要从事烟草加工研究。E-mail:姬小明(197 2-),女,河南舞钢人,教授,博士,主要从事烟草化学研究。E-mail:x i a o mi n g
9、j i h e n a u.e d u.c n164burnt-sweetness-burnt type,fresh-honey-sweetness type and woody-honey-sweetness type all reachedmore than 90.00%.The lowest recall rate was for honey-sweetness type and burnt-honey-sweetness type(66.67%).The results show that the use of NIR spectroscopy can effectively iden
10、tify the eight aromatypes of flue-cured tobacco,which provides new ideas and technical support for the rapid identification offlue-cured tobacco aroma types and digital evaluation of tobacco styles.Key words:Flue-cured tobacco;Near infrared spectroscopy;Aroma type;Classification model;Random forest烟
11、草是我国重要的经济作物,烤烟在卷烟原料中占据重要地位。我国地域辽阔,各个种植气候与土壤条件形成了较为丰富的烤烟香气类型。香气类型对烟叶原料的高效利用及卷烟配方开发具有举足轻重的作用。2 0 世纪50 年代,老一辈科学家根据烤烟香气特点,将其划分为浓香型、中间香型、清香型三大香型2 。张建平等3 以烟叶样品近红外光谱数据作为研究对象,通过建立烟叶生态区及风格特征的投影分析模型,将烤烟香型又细化为典型清、典型中、典型浓、清偏中、清透浓、中偏清、中偏浓、浓偏中、浓透清9类。李章海等4建立了烟叶评判香型指数,将我国烤烟香型细分为清香型、清偏中型、中偏清型、中间型、中偏浓型、浓偏中型和浓香型7 个小类。
12、罗登山等5 在传统三大香型的基础上完成了全国烤烟烟叶风格区划体系的构建,将全国烤烟烟叶划分为西南高原生态区-清甜香型(I)、黔桂山地生态区-蜜甜香型()、武陵秦巴生态区-醇甜香型()、黄淮平原生态区-焦甜焦香型(I V)、南岭丘陵生态区-焦甜醇甜香型(V)、武夷丘陵生态区-清甜蜜甜香型(VI)、沂蒙丘陵生态区-蜜甜焦香型(VI)、东北平原生态区-木香蜜甜香型(VII)等八大香型。八大香型的划分旨在满足中式卷烟对烟叶原料风格多样性需求6 ,提高卷烟工业企业配方和原料利用水平,提升原料保障能力。以生态为基础、以香韵为依据、以化学成分和物质代谢为支撑确立了各香型典型产地及相邻香型边界,划分了香型稳定
13、区和波动区7。卷烟产品设计及维护过程中需要对烟叶原料的香型进行判定,以满足卷烟产品设计目标和特征。烟叶香型的判定主要通过感官评吸的方式8,但是感官评吸受人体嗅味觉、心理及评吸环境等多种因素影响,因此,建立高效便捷的烟叶香型判定方法尤为重要。在烟叶香型快速判定方面已有较多研究,申钦鹏等19、许永等10 1利用烟叶化学成分与香型的关系建立香型判定模型,有效避免了人为主观因素影响,缩短了香型判定时间。张同琢等川利用热分析河南农业科学图谱结合机器学习,构建了八大香型判定模型,香型判定准确率为8 3.30%。王一丁等12 1建立了基于可见-近红外光谱判定烤烟香型的方法。近红外光谱技术由于快速、无损、操作
14、简便、稳定性好等特点,经常被用于烟叶产地溯源及香型判定研究13-11,但是目前还没有利用近红外光谱对八大香型进行快速判别的研究。因此,采用近红外光谱结合机器学习方法构建八大香型分类模型,以期进一步提高烤烟烟叶香型判定效率,为提高烟叶原料利用水平、卷烟配方设计及维护效率提供技术支撑。1材料和方法1.1试验材料试验用样品选取来自云南、吉林、四川、广西、河南、湖南、福建、贵州、重庆、陕西、黑龙江、辽宁共12个省(市、区)的烤烟烟叶,由河南中烟工业责任有限公司提供,烟叶采集年份在2 0 16 一2 0 2 1年,共计138 3份样品。1.2近红外光谱数据采集将烟叶置于烘箱中45干燥30 min,研磨成
15、粉后过0.42 mm孔径筛网。将制备好的烟末放于石英测量杯中,并用压样器压实。利用傅立叶变换近红外光谱仪(ThermoFisher)进行光谱采集,光谱采集范围:38 0 0 10 0 0 0 cm;光谱分辨率:8 cm;扫描次数:6 4次;样品杯方式:旋转。1.3近红外光谱数据预处理选用一阶导数(D1)、二阶导数(D2)、移动平均平滑(MA)、均值归一化(MEAN)、多元散射校正(M SC)、极差归一化(MAXMIN)、SG 滤波一阶导数(SG 1)、SG 滤波二阶导数(SG2)、标准正态变量变换(SNV)和小波变换(WAVE)等10 种预处理算法,按照无预处理、单种预处理、组合预处理等方法探
16、讨预处理方法的优劣16-17 。组合预处理方式分别采用24种预处理方式叠加,通过随机组合形成9 3种组合方式,包括组合顺序和预处理叠加个数。1.4数据降维预处理后的数据分别利用主成分分析第52 卷第7 期(Principal components analysis,PCA)、增量主成分分析(Incremental principal components analysis,IPCA)、核主成分分析(Kernel principal componentsanalysis,KPCA)和因子分析(Factor analysis,FA)进行降维,以模型准确率为衡量标准,在主成分个数为150内筛选准确率
17、最高的降维方式及主成分个数。1.5模型构建与评估香型分类模型构建采用随机森林(RF)分类算法,随机森林是由多棵决策树组成的集成学习算法18 。该算法首先Bootstrap采样方法随机获得N个有差异的训练集,然后采用Baging机制生产含有N个决策树的随机森林,根据投票法判别样本的最终类别。根据随机森林运算原理,可知该算法有2 个关键参数,即评估器数量(N_estimators)和随机种子(Ra n d o m _s t a t e),因此,模型构建时重点对这2 个参数进行优化。模型初始参数中,评估器数量为350、随机种子为12,参数优化范围分别为50 10 0 0 和0 15。香型分类模型评价
18、采用模型准确率(A c c u r a c y)、精准率(Precision)、召回率(Recall)和宏观F1值(F1_macro)4项指标。产区Planting area云南Yunnan贵州Guizhou河南Henan重庆 Chongqing湖南Hunan四川 Sichuan吉林Jilin陕西 Shanxi福建Fujian广西Guangxi辽宁Liaoning黑龙江Heilongjiang总计Total注:W为稳定区;G为过渡区。Note:W is stable area;G is transition area.2.2这近红外光谱预处理方法对烤烟香型分类模型准确率的影响利用近红外原始光谱
19、构建香型随机森林分类模型,模型预测准确率(ACC)仅能达到48.6 4%(表2),观察近红外光谱曲线发现不同香型的光谱付博等:基于近红外光谱的烤烟香型分类模型研究表1烟叶样品产地来源及香型分布Tab.1 Table of origin and aroma type distribution of tobacco samples1VIWGWGWGWGWGWGWGWG275123488273621一302184881652结果与分析2.1烟叶样品香型分布分析根据八大香型区划结果对138 3个烟叶样品进行香型归属分类,并依据香型边界定位确定样品属于香型稳定区(W)或者波动区(G),结果见表1。由表1
20、可知,清甜香型烟叶样品有48 6 份,其中云南的玉溪、昆明、曲靖、昭通、文山、楚雄及四川?山等地为稳定区,共有30 2 份样品,波动区主要包括云南保山、临沧、丽江及广西百色西部、贵州毕节西部的样品,共18 4份。贵州的中东部为蜜甜香型的稳定区,波动区主要包括贵州的黔西南、毕节及广西百色,该香型稳定区有8 8 份样品。焦甜焦香型的样品主要分布在稳定区,共有410 份样品。焦甜焦香型样品主要来自河南,清甜蜜甜香型全部来自福建。辽宁、吉林及黑龙江的样品全部划分为木香蜜甜香型稳定区,总计7 6 份样品。采用各香型稳定区的烟叶样品(110 9份)构建香型分类模型,以保证分类模型的准确性。份IVV1141
21、089122323一341241941019曲线在整个光谱区间均具有较大差异,说明原始光谱中存在较多的干扰因素(图1A)。近红外光谱经过小波变换(WAVE,A CC=0.50.0 0%)、极差归一化(M A XM IN,A CC=6 3.6 4%)和多元散射校正(MSC,ACC=66.82%)均能提高模型的预测准确率,但是正VI19651965VII23611161总计Total398103429897786231961453350500007601383166确率提升幅度有限。一阶导数(D1)处理后的模型预测准确率为7 2.2 7%,较原始光谱提高2 3.6 3个百分点。SG滤波一阶导数的准
22、确率为7 3.6 4%,效果优于一阶导数。在不同预处理方法组合中,SG1+MSC和SGZ+MSC处理后构建的模型预测准确率最高,为7 8.18%,其次为MSC+D1+MA,准确率为77.73%,预处理方法组合顺序不同,会影响模型的准确率,D1+MA+MSC处理后准确性为7 7.2 7%,略Tab.2Influence of preprocessing methods on aroma type classification model accuracy of flue-cured tobacco数据预处理Data preprocessing原始光谱RAW移动平均平滑MASC滤波一阶导数SG1一
23、阶导数D1小波变换WAVE均值归一化MEAN极差归一化MAXMINSG滤波二阶导数SG2二阶导数D2多远散射校正MSC标准正态变量变换SNVWAVE+SNV+MSCWAVE+SNVWAVE+SG2WAVE+SG1WAVE+MSC+D1WAVE+MSCWAVE+MA+MSCWAVE+MAWAVE+D2WAVE+D1+MSCWAVE+D1SNV+WAVESNV+MSC+WAVESNV+MSCSNV+MA+WAVESNV+MASNV+D2SNV+DI+WAVESNV+D1+MSC+WAVESNV+D1+MSCSNV+D1SG2+MSCSG1+MSCNOR+WAVENOR+SNV+WAVENOR+SN
24、V河南农业科学低于MSC+D1+MA。而D1+MA+MSC+WAVE与D1+MA+MSC预处理组合得到的模型预测准确率完全一致,说明光谱数据经过D1+MA+MSC处理后进行小波变换对模型准确率没有提升作用。对比原始光谱、MSC、SG 1和SG1+MSC等不同预处理光谱图发现,直观差异逐渐变小,干扰因素被逐步消除(图1)。表2 数据预处理对烤烟叶香型分类模型准确率的影响准确率Accuracy精准率Preci.sion48.6437.5548.6442.2873.6474.2872.2781.9550.0037.6258.1855.1163.6458.9573.6481.2454.5584.186
25、6.8265.1845.0083.9234.5530.0335.4513.5973.6478.3074.0974.1374.5581.5463.1862.7266.3668.0049.5540.9167.7376.9873.6479.1171.3677.2145.9184.2747.2784.7144.5583.8144.5548.1545.0049.5036.3679.8838.6487.0036.3679.8835.9178.7037.7384.8978.1882.5778.1879.8461.8260.6750.4566.5348.6468.53第52 卷%召回率Recall宏观F1值F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 红外 光谱 烤烟 香型 分类 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。