高维红外光谱数据预处理在中药材产地鉴别中的应用_金承亮.pdf
《高维红外光谱数据预处理在中药材产地鉴别中的应用_金承亮.pdf》由会员分享,可在线阅读,更多相关《高维红外光谱数据预处理在中药材产地鉴别中的应用_金承亮.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷,第期 光谱学与光谱分析 ,年月 ,高维红外光谱数据预处理在中药材产地鉴别中的应用金承亮,王永军,黄河,刘军民温州商学院信息工程学院,浙江 温州 温州职业技术学院人工智能学院,浙江 温州 西安交通大学数学与统计学院,陕西 西安 摘要为提高利用红外光谱数据鉴别中药材产地的预测模型效果,应该选用合适的数据预处理方法和合适的算法。针对具有 个特征(波长 )的 条红外光谱中药材数据,借助于支持向量机()算法,研究了 种基于样本预处理方法(不做预处理、最大最小归一化、标准化、中心化、移动平均平滑、平滑滤波、多元散射校正、正则化、一阶导数和二阶导数法)与种基于特征波长预处理方法(不做预处理、中心化、
2、最大最小归一化、标准化和正则化)的组合(共 种)对产地模型预测精度和稳定性的影响。结果表明:合适的数据预处理对提高模型精度是必要的;标准化和最大最小正则化方法光谱的预处理建模效果较好,其预测系数值约;基于特征的预处理对模型预测效果改进小。只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近);基于样本特征的组合预处理方法中,二阶导数标准化处理和二阶导数正则化组合处理方法的模型预测效果好,其决定系数达到近;而中心化正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果,该方法预测效果最差。该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理
3、方法提供了参考,对进一步分析药材药效和化学成份有重要的意义,也可供其他光谱数据分析借鉴。也为高维小样本数据建模的前期数据处理提供了思路。关键词中药材产地鉴别;光谱数据;数据预处理;小样本高维特征数据;算法中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:国家自然科学基金面上项目()资助作者简介:金承亮,年生,温州商学院信息工程学院本科生 :通讯作者 :引言红外光谱是分析有机化合物结构的重要手段之一。它具有不破坏样本、不用试剂、保护环境、可以直接测物品、测量精度高、分析速度快、操作费用低等优点。利用红外光谱对中药材的全组成份进行测定比传统的药材鉴别方法更方便且准确。随着计算机技术和互联
4、网的发展,机器学习学科获得了快速的发展,并取得了一系列的应用成果。支持向量机(,)算法因其在解决高维小样本数据的模式识别问题中优势突出,所以常用来进行数据分类和回归分析。我国古代中医学家普遍认为药材的道地性是评价药材品质的独特综合性指标。现代技术表明,药材药效的不同是由于其所含化学成分和各成分含量的比例不同所造成的;道地药材的药效要高于非道地药材。中药材的产地鉴别至关重要。刘沐华等利用留一法交叉验证和 多分类技术开展了红外光谱法识别中药材产地研究,准确率较高,但当数据样本量较大时,计算量变得较大。同时,该文也指出了红外光谱的测定环境对数值影响较大。因此,在设计复杂算法前,对光谱数据的预处理变得
5、很重要。刘沐华等提出了利用皮尔逊相关系数并设计递归 分类方法来缩减特征数量和提高识别率(预测准确率达)。实际上,缩减特征数量不当会 引 起 拟 合 函 数 的 不 稳 定 性,进 而 降 低 模 型 预 测精度。数据标准化、规则化等处理方法是通过数学转换的方式改变原始数据间的比例关系、中心位置等来消除量纲或数值大小对计算结果的影响,并尽可能的保留原始数据的内在信息,从而加速梯度下降的收敛速度和提高解的质量,转换后的数据满足了机器学习模型对数据统计分布的要求,使得训练的模型稳健性增强。因此,数据预处理是数据建模的重要基础,是设计复杂模型前的重要手段。红外光谱数据中包含了与待测样品性质无关的干扰信
6、息、如光的散射、杂散光等噪音,所以对光谱数据进行预处理可以增加数据的可靠性,提高模型的精度。图显示了同一组原始数据 图()经过两种不同方法预处理后的结果 图(),()。可以看出,同一坐标系下图()和()的数据中心和离散程度不同,这对后期建模精度有影响。王智宏等通过对光谱数据的不同预处理方法与组合,开展了对油页岩含油率的预测分析,得到了有效的数据预处理组合方式。光谱学与光谱分析 杂志中有多篇论文讨论了光谱数据预处理的重要性、不同光谱数据预处理的效果等,其中典型的如吕美蓉探讨了基于样本的数据变换和特征波长处理的组合对带沉积物氮 模型影响,并给出了组合建议;有学者通过光谱数据预处理与数据降维后建立的
7、卷积神经网络模型,提高了对太平猴魁茶产地的鉴别率;有研究者在采用组合预处理方法的同时,对数据进行特征降维并结合 线性判别分析方法构建模型提高了柑橘产地鉴别精度;有学者通过采集不同位置的漫反射光谱强度对种鸡蛋的性别进行鉴定,其中的去趋势法数据预处理,取得了更好的效果。图()原始数据;()中心化后数据;()标准化后数据 ();();()受奥卡姆剃刀原理启发,也受文献,启示,本文没有设计更复杂的模型来提高预测率,而是针对 (维特征)的 条红外光谱数据,设计了 种光谱预处理(基于样本)方式与种矩阵预处理(基于特征)方法的组合策略,并采用多分类 算法开展了数据预处理方法对模型预测效果的影响研究。根据决定
8、系数()给出了每种组合的量化评价。借助于经典的 机器学习模型,针对特征维度高、样本量少的中药材光谱数据,评价预处理方法对产地鉴别率的影响,从而探索有效的预处理方式和为光谱数据研究提供借鉴是本工作的核心思想。也为道地药材药效和成分分析提供科学参考。实验部分 实验数据数据来源于 年中国大学生数学建模竞赛 题的附件。其中,总样本量 条,分别来自于 个产地(数据类别标签),缺失数据为条,没有重复样本。原始光谱如图所示,其中横轴表示波长(波频段),纵轴表示波吸收系数。从图中可以看出,不同波段的原始数据横向变化大,这说明数据独立特征属性多。同一波段的不同样品特征高度相似,表明建立产地鉴别模型难度大。经过异
9、常值分析,发现第号样本在波段 范围内的测量值和第 号样本在波段 范围内的测量值比其他样本的对应值偏大(如图所示),但是数值比较发现这两个样本的测量值在正常范围内,所以最终使用的有效数据样本量为 条,波长范围从 。原始数据中不同产地的样本量如表所示,可以看出样本分布相对均衡。如果用矩阵格式表示该光谱数据(称作光谱数据矩阵),则该数据有 行(样本个数,表示来自不同产地的药材),列(数据属性或维度,表示不同光谱波长的药材吸收系数),还有列为产地标签数据。图原始光谱数据 表实验数据的样本产地分布 产地 第期 金承亮等:高维红外光谱数据预处理在中药材产地鉴别中的应用 数据预处理方法红外光谱数据包含了样品
10、相关信息和与待测样品性质无关的干扰,如样品的背景、噪声、杂散光以及仪器的响应等。背景噪音影响待测样品的预测效果。因此,对红外光谱数据进行合适的预处理是建立稳健预测模型的关键和基础,。文献 给出了光谱分析的预处理方法原理。用于中药材产地鉴别的光谱数据,按两种处理方式及组合展开:()基于数据样本的预处理方式(记作光谱预处理)。对于光谱数据矩阵,第类预处理方法基于每一行数据(样本),即以每一个样品的不同频谱段的数据为处理单位开展。考察了 种数据预处理方法(含不做数据处理),其基本公式如下,详细可参考文献 和。注:下面各公式中,令,表示行向量(样本)数据,是其特征分量。,表示经过处理后的数据。最大最小
11、值归一化处理 ()式()中:和 分别为样本序列的属性最大值和最小值。此方法利用数据中的最大值和最小值实现对原始数据的等比例缩放至,之间,使得不同数量级之间的数据在数值上有可比性。中心化处理?()式()中:?为样本序列的平均值。中心化也叫零均值化,即原数据减去该组数据的平均值。经过中心化处理后,原数据的坐标平移至中心点(,),且中心化的数据均值变为。该方法的目的是消除数据量纲的影响。标准化处理?()式()中:?为样本序列的平均值;为标准差。此方法将数据按照比例进行缩放,但不改变数据的原始概率分布。缩放后的数据均值为,方差为。处理后的数据不一定符合标准正态分布,但由于其更好地保持了样本间距,且更符
12、合统计学假设,使 得 该 方 法 提 升 了 基 于 距 离 类 型 的 算 法 模 型精度。移动平均平滑(,)处理()式()中:的含义同式()。移动平均平滑是最常用的滤波器,其主要作用是降低数据噪声影响。平滑滤波()处理()式中:()式()中,为归一化因子,为平滑系数。平滑滤波器是一种数字滤波器,其能够在不改变信号趋势的前提下提高数据精度。正则化处理()式()中,采用 标准处理时,;当使用 标准处理时,;当使用 标准处理时,。多 元 散 射 矫 正(,)处理:记平均光谱计算公式?()令线性回归计算公式,?()则多元散射矫正的表达式,()式()中:为线性回归方程斜率;为线性回归方程截距。通过最
13、小二乘求解方法得到这两个参数。方法在光谱预处理中可以算作标准化方法。通过调整和的大小可保留原有成分的信息,使光谱数据的样本内特征差异变小。该方法可以消除数据基线漂移和平移现象。一阶导数(,)处理()式()中:为处的变化量。式()是红外光谱预处理中常用的一种方法,该种方法可以消除基线和降低背景干扰,但是可能同时放大噪声。二阶导数(,)处理()式()中,的含义同式()。()基于数据样本特征的矩阵预处理(记作矩阵 预处理):这类(第类)处理方式的数学公式与基于样本预处理(第类)方法的公式相同。只是该类数据处理方式是基于属性特征(矩阵列)的数据处理方式。虽然基于导数类的光谱处理方法能够消除基线和背景干
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 红外 光谱 数据 预处理 中药材 产地 鉴别 中的 应用 金承亮
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。