基于近红外光谱技术的苹果糖度预测及分级研究.pdf
《基于近红外光谱技术的苹果糖度预测及分级研究.pdf》由会员分享,可在线阅读,更多相关《基于近红外光谱技术的苹果糖度预测及分级研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、 2023 年第 10 期93计算机应用信息技术与信息化基于近红外光谱技术的苹果糖度预测及分级研究廖志强1 何崇训1 LIAO Zhiqiang HE Chongxun 摘要 含糖量是用来评价苹果品质的关键指标,基于近红外光谱技术与机器学习算法构建苹果含糖量的预测模型,实现了苹果糖度的快速、无损、高通量检测。在实验中,分别构建了 4 种不同回归模型来预测苹果种的糖度,并分析了不同光谱预处理方法对模型预测精度的影响。基于全波段数据 4 种模型在回归过程中都存在不同程度的过拟合,其中核岭回归模型能够获得最佳的预测效果;为了防止过拟合并进一步提升模型的预测性能,采用 3 种特征降维算法对全波段数据进
2、行特征降维。结果表明,通过特征降维能够很好地抑制回归过程的过拟合现象,其中岭回归模型表现出较好的稳定性。在此基础上,还利用岭回归模型按苹果的糖度对苹果的品质进行分级,其分级精度可到 0.908 4。实验结果能够为水果中的化学成分检测以及品质分级提供有益的技术参考。关键词 近红外光谱;苹果糖度;预处理;岭回归;分级 doi:10.3969/j.issn.1672-9528.2023.10.0201.广东省广播电视网络股份有限公司珠海斗门分公司 广东珠海 5190000 引言我国苹果的主要种植方式为散户种植,因此种植标准难以统一,且我国各地的阳光、温度、水分、土壤不同,导致苹果品质良莠不齐,严重影
3、响了苹果在水果市场的竞争力。这也是作为全球第一苹果出口大国的我们,苹果出口价格低时销量才高,竞争力与贸易大国相比不足的原因1。因此,对苹果进行品质鉴定是很有必要的,根据苹果品质进行销售之前的分级,对于果农而言,能及时了解水果内部糖分,合理安排采摘时间以及调整光照。对于加工者而言,在水果采摘后的商品化处理过程中,根据内部品质实现精准分级,能提高商品的竞争力2。而目前我国对于苹果的分级没有明确的评估检测标准,农业人员仍采用传统的品质检测方法,即通常通过目测观察苹果的色泽、果面以及是否有虫伤等来进行分级,分级效果不好,人的主观因素影响大,苹果品质的波动性大,除此之外,还需要耗费大量的人力物力,只适用
4、于少量苹果的分级检测。近红外光谱(near infrared spectroscopy,NIRS)3的波长介于 780 2526 nm 之间。近红外光谱主要反映了含氢元素的化学基团(如 C-H、O-H、S-H、N-H 等)分子振动的倍频与合频的吸收信息4,进而对样品进行定性及定量分析5。与传统的品质检测技术对苹果进行化学分析相比,近红外光谱技术具有耗时短、花费少、高效、准确、无损,可实现大规模的水果检测等优点。偏最小二乘模型(partial least squares,PLS)6是近红外光谱分析中最常使用的建模方法,但是模型的稳定性和预测能力有待提高。为了降低无用信息的干扰,有必要研究不同预处
5、理算法处理光谱数据对模型的影响。另外,光谱数据易重叠,具有高度共线性,因此有待探究更合适的数学模型。本文基于近红外光谱技术对苹果糖度分级模型进行了研究,分别对原始光谱数据运用了 6 种预处理方法进行处理后建立 PLS、支持向量回归(support vector regression,SVR)7、岭回归(ridge regression)8和核岭回归(kernel ridge regression)9模型。由于在本次研究中基于全波段数据的效果不够理想且存在过拟合,为了寻找更稳定、更优秀的模型组合,结合 PCA、ICA、TSVD 三种算法降维到预处理方法中,比较 Ridge、Kernel Ridg
6、e 和 SVR 三种模型的表现效果。1 实验部分1.1 仪器与材料近红外光谱采集设备,如图 1(a)所示。糖度测定使用数显式糖度计,如图 1(b)所示。开发语言使用 Python,版本为Python 3.8。苹果产自山西运城,果实直径均在 85 90 mm之间,共购入 100 个,选取其中果型圆润匀称、无损伤疤痕的苹果 95 个作为实验样品。因为苹果是非均质生物体,测定部位差异会影响光对样品的反射特性和穿透特性10,不同点的糖度也不完全相同,所以一个苹果沿赤道间隔均匀取 3 个点作为样本点,共 285 个样本点。2023 年第 10 期94计算机应用信息技术与信息化 (a)光谱采集设备 (b)
7、数显式糖度计(1.稳压电源;2.卤钨灯;3.积分球;4.光纤光谱仪;5.光纤)图 1 实验设备1.2 光谱采集和糖度测定本 实 验 使 用 的 近 红 外 光 谱 波 长 范 围 为 938.528 1 709.823 nm,共有 128 个数据采集点,最小间隔为 5.984 nm,测得的 285 个样本点原始光谱如图 2 所示。图 2 原始光谱对 285 个样本点进行糖度测定,检测结果如图 3 所示。本次实验所测得的糖度范围为 8.9%17.1%。图 3 样本点糖度1.3 光谱预处理由于近红外光谱数据中含有大量冗余、重复和敏感信息,为了提高数据的有效性以及与待测量数据的相关性,通常需要对原始
8、光谱选取合适的方法进行预处理,减少不相关信息和干扰信息对后续数据分析的不利影响。本实验所用到的 6种预处理方法:一阶导数、多元散射校正、标准正态变量变化、Savitzky-Golay 平滑、标准化和最大最小归一化。图 4 为对原始光谱分别采用上述 6 种预处理方法处理后的光谱。每种预处理方法消除的干扰不同。一阶导数处理是将离散的光谱数据对波长进行求导,它可以减轻仪器设备背景或漂移的影响,能够消除光谱中的基线偏移11。MSC 和SNV 处理后的各条光谱之间更加聚集,可以扣除因为固体颗粒分布位置不均匀和体积不一样对光谱产生的散射影响。Savitzky-Golay12平滑滤波方法能够提高光谱的平滑度
9、,去除了原始光谱中存在的高频噪声,提高信噪比。标准化和最大最小归一化可以缓解尺度范围太大的问题。(a)一阶导(b)MSC(c)SNV(d)S-G 平滑(e)标准化 2023 年第 10 期95计算机应用信息技术与信息化(f)最大最小归一化图 4 预处理后近红外光谱图1.4 模型的建立利用五折交叉验证划分为校正集和验证集,使用 6 种单一预处理方法对原始光谱数据进行预处理,并建立 PLS、Ridge、Kernel Ridge、SVR 模 型,之 后 结 合 PCA、ICA、TSVD 三种算法对原始数据进行降维。选择表现稳定的 Ridge模型结合两种预处理方法来对模型进行提升。PLS 是近红外光谱
10、分析中最常用的方法,PLS 回归可以综合筛选光谱数据,提取信息变量,克服光谱共线性13。SVR 是支持向量机法(support vector machines,SVM)14对回归问题的运用拓展。SVM 是一种用于解决小样本、非线性及高维模式识别下统计估计和预测问题的监督学习方法15,SVM 从几何角度来看就是寻找特征空间上间隔最大的分类器。将 SVM 的思想应用到回归任务中便得到了 SVR 模型,SVR 就是要利用在高维特征空间上找到的一个离训练集最近的最优超平面来对待测量数据进行预测估计16。岭回归是修正升级后的最小二乘法,通过在目标函数中添加L2正则来调节数据和正则的比重,防止模型过拟合,
11、使模型更具有鲁棒性。核岭回归就是在岭回归的基础上通过核函数投影到一个高维空间,在这个高维空间,数据更容易划分17。1.5 评价指标对苹果样品的光谱信息与其含糖量进行建模分析,利用评价指标决定系数(R-Square,R2)和均方根误差(root mean square error,RMSE)18,计算公式为:(1)RMSE (2)式中:yi为糖度实际值,为糖度预测值,为实际的平均值。R2越接近 1,所建立模型拟合性越好,自变量越能解释因变量19;RMSE越小,所建立的模型越稳定20,效果越好,模型的含糖量预测越准确。2 结果与讨论2.1 不同的预处理方法对模型的影响对原始数据集和经过预处理之后的
12、数据集代入不同的模型中,分析不同预处理方法对不同模型的影响,为了增加模型的泛化性,在划分数据集时使用五折交叉验证。训练结果如表 1 所示。表 1 不同预处理模型效果预处理模型训练集测试集R2RMSER2RMSERAWPLS0.893 20.394 50.797 40.543 6Ridge0.904 00.375 80.808 50.529 6Kernel-Ridge0.909 40.367 00.810 90.526 1SVR0.866 30.447 10.803 90.536 0D1PLS0.863 40.451 20.650 30.712 3Ridge0.895 10.394 10.726
13、 90.633 0Kernel-Ridge0.905 80.367 50.717 90.642 1SVR0.888 70.408 00.726 80.632 9MSCPLS0.909 10.368 70.804 10.535 9Ridge0.914 80.357 00.811 90.525 6Kernel-Ridge0.913 40.359 10.795 70.545 1SVR0.903 30.380 10.804 90.533 5SNVPLS0.868 30.439 60.783 10.561 3Ridge0.914 40.357 80.824 30.507 3Kernel-Ridge0.9
14、08 40.368 00.796 30.543 6SVR0.851 10.471 80.791 90.551 6SG 平滑PLS0.884 60.415 40.825 90.503 6Ridge0.894 00.397 20.823 50.507 3Kernel-Ridge0.914 90.356 40.828 30.497 8SVR0.799 70.547 10.783 50.560 1SSPLS0.890 40.400 00.797 10.544 2Ridge0.915 70.352 40.805 10.534 4Kernel-Ridge0.944 90.286 90.816 10.516
15、 2SVR0.891 90.400 80.805 00.534 0MMPLS0.893 80.393 90.803 30.536 1Ridge0.900 00.386 70.816 20.518 7Kernel-Ridge0.916 30.350 10.801 30.536 7SVR0.832 20.501 00.775 40.573 8通过观察表1,对于PLS模型,在所用到的预处理方法中,SG 平滑方法对 PLS 模型有明显提高,测试集的 R2从 0.797 4提高到了 0.825 9,RMSE从 0.543 6 减少到了 0.503 6。而 D1 方法对 PLS 模型效果有明显降低。其他预
16、处理方法对 PLS 的影响不大。对于 Ridge 模型,SNV 和 SG 平滑对模型的效果提升明显,其中 SNV 预处理使测试集的 R2从 0.808 5 提高到了0.823 5,RMSE从 0.529 6 减少到了 0.507 3。所有预处理方法中除了 D1 方法对模型效果有明显降低,其他模型的测试集 R2均在 0.80 以上。对于 Kernel Ridge 模型,SG、SS、MM 方法可以使测试集的 R2达到 0.80 以上,其中 SG 平滑处理测试集的 R2可以达到 0.828 3。对于 SVR 模型,预处理过后测试集的 R2并未出现明显提升,其中 D1 和 MM 方法的效果有明显降低。
17、总的来说,经过预处理之后效果最佳的组合为 SG+2023 年第 10 期96计算机应用信息技术与信息化Kernel Ridge 其测试集中 R2值 0.828 3,RMSE为 0.497 8。其中一阶导数对 4 种模型的预测性能都有不同程度的下降。考虑这是由于使用一阶导数对光谱数据进行处理时,它有可能会丢失光谱中一些细小的信息,导致模型对苹果糖度的预估能力变差。2.2 特征降维算法对模型性能的影响通过上述实验结果看出,一些预处理和模型的组合存在过拟合现象。其中基于 D1 的 PLS 模型的测试集 R2和训练集之差达到了 0.213 1。因为全波段数据存在大量冗余信息,模型的预测精度偏低,所以为
18、了提升模型在苹果糖分方面的预测能力,降低过拟合现象,本文将采用 PCA 算法 ICA 算法和 TSVD 算法对全波段数据集进行特征降维,并获取与苹果糖分对应的特征波段。由于 PLS 算法中包含特征降维方法,故不再对 PLS 模型进行训练,其他模型的训练集和测试集的预测结果如表 2 所示。基于 ICA 算法的降维数据如表 3 所示。表 2 基于 PCA 的降维方法预处理模型训练集测试集R2RMSER2RMSED1+PCARidge0.864 40.450 20.794 90.547 4Kernel-Ridge0.837 30.489 00.735 80.620 0SVR0.842 00.486
19、10.798 60.542 4MSC+PCARidge0.870 00.440 90.823 20.509 5Kernel-Ridge0.885 70.409 70.793 20.545 9SVR0.864 60.449 90.799 30.542 4SNV+PCARidge0.872 10.437 30.831 50.496 6Kernel-Ridge0.868 00.444 10.791 80.549 5SVR0.846 10.549 30.793 50.479 7SG 平滑+PCARidge0.871 70.437 80.828 60.499 4Kernel-Ridge0.867 10.
20、445 60.799 20.538 6SVR0.820 20.518 60.763 70.587 4SS+PCARidge0.867 40.445 30.820 50.512 5Kernel-Ridge0.917 30.345 0 0.814 00.522 3SVR0.860 30.457 10.815 50.519 6MM+PCARidge0.868 70.443 00.821 20.511 3Kernel-Ridge0.901 20.381 90.815 30.519 8SVR0.857 20.462 20.815 90.519 0表 3 基于 ICA 的降维方法预处理模型训练集测试集R2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 红外 光谱 技术 苹果 糖度 预测 分级 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。