基于SW-GBDT的在线农产品销量预测模型.pdf
《基于SW-GBDT的在线农产品销量预测模型.pdf》由会员分享,可在线阅读,更多相关《基于SW-GBDT的在线农产品销量预测模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 卷 第期 年月西安邮电大学学报J OUR NA LO FX I ANUN I V E R S I T YO FP O S T SAN DT E L E C OMMUN I C A T I ON SV o l N o M a r d o i:/j i s s n 基于SW G B D T的在线农产品销量预测模型李鹏飞,冉茂然,毋建宏(西安邮电大学 经济与管理学院,陕西 西安 ;西安邮电大学 现代邮政学院,陕西 西安 )收稿日期:基金项目:国家 社 会 科 学 基 金 项 目(F G L A );教 育 部 哲 学 社 会 科 学 研 究 后 期 资 助 项 目(J HQ );陕 西 省 社
2、会 科 学 基 金 项 目(D )陕西省教育厅科研计划项目(J P );西安市科技计划项目(NY Y F );陕西省高校青年创新团队项目作者简介:李鹏飞(),男,博士,教授,从事电子商务与物流研究.E m a i l:l p f x u p t e d u c n冉茂然(),男,硕士研究生,研究方向农村电商大数据.E m a i l:r a n m a o r a n f o x m a i l c o m摘要:针对在线农产品销量影响因素较多导致预测模型准确度较低的问题,提出了一种滑动窗口梯度提升决策树(S l i d eW i n d o w G r a d i e n tB o o s t
3、 i n gD e c i s i o nT r e e,S W G B D T)模型用于在线农产品销量预测.确定了类指标,共 项特征变量,建立了预测指标体系,并在预测模型中引入滑动窗口,对原始数据进行特征扩展,将尽可能多的因素纳入考虑范围,增加梯度提升决策树算法可学习的信息,以提高在线农产品销量预测模型的准确性.实验结果表明,所提模型的决定平方系数为 ,均方根误差值为 ,平方绝对误差值为 .相较于其他同类算法,所提模型的在线农产品销量预测准确度较高.关键词:在线农产品;销量预测;滑动窗口;梯度提升决策树中图分类号:F ;T P ;F 文献标识码:A文章编号:()O n l i n e f o
4、 r e c a s t i n gm o d e l o fa g r i c u l t u r a l p r o d u c t s a l e sb a s e do ns l i d ew i n d o w g r a d i e n tb o o s t i n gd e c i s i o nt r e eL IP e n g f e i,R AN M a o r a n,WUJ i a n h o n g(S c h o o l o fE c o n o m i c sa n dM a n a g e m e n t,X ia nU n i v e r s i t yo f
5、P o s t sa n dT e l e c o mm u n i c a t i o n s,X ia n ,C h i n a;S c h o o l o fM o d e r nP o s t,X ia nU n i v e r s i t yo fP o s t sa n dT e l e c o mm u n i c a t i o n s,X ia n ,C h i n a)A b s t r a c t:A i m i n ga t t h ep r o b l e mo f l o wa c c u r a c yo f f o r e c a s t i n gm o d
6、e l c a u s e db ym a n yi n f l u e n c i n gf a c t o r so fo n l i n ea g r i c u l t u r a l p r o d u c t s a l e s,as l i d ew i n d o w g r a d i e n tb o o s t i n gd e c i s i o nt r e e(SW G B D T)m o d e l i sp r o p o s e df o ro n l i n ea g r i c u l t u r a lp r o d u c ts a l e sp r
7、e d i c t i o n F o u rt y p e so f i n d i c a t o r s,at o t a l o f f e a t u r ev a r i a b l e s,a r ed e t e r m i n e d,a n dap r e d i c t i o n i n d e xs y s t e mi s e s t a b l i s h e d T h e s l i d i n gw i n d o wi s i n t r o d u c e d i n t ot h ep r e d i c t i o nm o d e l t oe x
8、 p a n dt h ef e a t u r e so ft h eo r i g i n a ld a t a,a n da sm a n yf a c t o r s a sp o s s i b l ea r e t a k e n i n t oa c c o u n t T h e i n f o r m a t i o nt h a t c a nb e l e a r n e db y t h eg r a d i e n tb o o s t i n gd e c i s i o nt r e ea l g o r i t h mi sa d d e dt o i m p
9、r o v e t h ea c c u r a c yo f t h eo n l i n ea g r i c u l t u r a lp r o d u c ts a l e sp r e d i c t i o nm o d e l T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h eR s q u a r e d(R)v a l u eo ft h ep r o p o s e dm o d e l i s ,t h er o o tm e a ns q u a r e de r r o r(RM S E)v a
10、l u e i s ,a n dt h em e a na b s o l u t ee r r o r(MA E)v a l u e i s C o m p a r e dw i t ho t h e rs i m i l a ra l g o r i t h m s,t h eo n l i n ea g r i c u l t u r a lp r o d u c t s a l e s f o r e c a s t a c c u r a c yo f t h ep r o p o s e dm o d e l i sh i g h e r K e y w o r d s:o n l
11、 i n ea g r i c u l t u r a lp r o d u c t s;s a l e sf o r e c a s t;s l i d i n gw i n d o w;g r a d i e n tb o o s t i n gd e c i s i o nt r e e西安邮电大学学报 年月随着电子商务(电商)的快速发展,农产品通过线上销售的比例越来越高.根据中国农业农村部和中央网络安全和信息化委员会发布的 数字农业农村发展规划(年),农产品网络零售额占农产品总交易额比重将由 年的 提升至 年的.可以预见,未来在线农产品销售将会取得较大的发展.随着在线农产品销售的迅速发
12、展,也会带来一些问题,例如,由于相当一部分农产品具有生鲜和易腐烂等特点,若销售不及时,存在库存积压现象,则可能会由于农产品腐烂而导致经济损失.准确地进行销量预测可以帮助农户实现及时销售,有效降低经济损失.时间序列分析、支持向量机(S u p p o r tV e c t o rM a c h i n e,S VM)、神经网络以及深度学习等方法均为销量预测的常见方法.时间序列分析通过对有限长度的时间序列进行观察、研究,寻找其变化发展规律,对未来做出预测.例如,文献 提出一种改进的考虑品牌情感的自回归模型,结合用户情感值对汽车销量进行预测.S VM方法是一种以统计学习理论为基础的机器学习分类器,常
13、被用于解决分类或回归问题.文献 将支持向量机应用到卷烟销量的预测中,提出基于S VM的卷烟销量预测模型.近年来,随着人工神经网络的快速发展,其在预测领域得到广泛应用.例如,文献 提出融合口碑评论与搜索数据的消费者关注度量化方法,构建基于消费者关注度的模型,实现了汽车销量预测.深度学习是一种利用模拟人脑多层感知结构来认识数据模式的算法.文献 针对线上农产品销量存在信息不对称的问题,提出一种结合深度学习算法优势和涉农电商销售数据特征点的皇冠模型.时间序列分析、S VM、神经网络以及深度学习等方法均被应用于不同领域的销售预测,并取得了一定的预测效果,但是,这些方法应用于在线农产品的销量预测时,仍存在
14、一些问题,主要包括:第一,由于农产品自身特点,其数据样本存在多样化的情况;第二,影响在线农产品的因素较多,预测模型无法全部涉及;第三,在线农产品的有效销售数据为农产品按自然生长周期成熟后销售的数据,此数据集往往规模较小,而深度学习在处理小规模数据集时预测效果较差.因此,如何在小规模数据中获取尽可能多的特征,提高在线农产品销量预测精度成为亟待解决的问题.梯度提升决策树(G r a d i e n tB o o s t i n gD e c i s i o nT r e e,G B D T)算法具有灵活处理各种类型的数据、对异常值的鲁棒性强及训练时间短的特点,被广泛应用于预测领域的研究中.例如,文
15、献 使用G B D T方法构建了航班延误预测模型,其结果表明,相比于S VM算法、随机森林(R a n d o mF o r e s t,R F)算法和传统决策树算法,具有更高的准确度.文献 提 出 基 于 集 成 树梯 度 提 升 决 策 树 的PM 预测模型,针对PM 浓度的非线性与不确定性进行预测,效果较好.但是,仅仅使用G B D T算法预测在线农产品销量时,会产生特征选择不够全面的问题.为了更加全面地选择特征,通常需要对数据进行特征扩展.滑动窗口(S l i d i n gW i n d o w,SW)方法作为特征扩展的常用方法之一,广泛地应用于预测研究中 .例如,文献 提出采用基于
16、滑动窗口的影像对象获取方法,将多尺度分割后的预测结果与滑动窗口分割后的预测结果进行对比验证,结果表明,滑动窗口提取结果的总体分类精度比多尺度分割高出 .整理归纳已有的预测文献,发现针对销量预测领域的应用研究较少,特别是对在线农产品的销量预测的研究还有待进一步深入.考虑到在线农产品销量存在外部影响因素较多以及销量数据集较小的问题,为了提升在线农产品销量预测的准确性,拟提出一种基于SW G B D T的在线农产品销量预测模型.使用滑动窗口方法进行特征扩展,并对新增的特征进行多重共线性检验,使用主成分分析将高度相关的特征用主成分表示,降低特征之间的共线性对模型的影响,将数据集中的标称数据利用独热(o
17、 n e h o t)编码转变为数值数据,最后,利用梯度提升决策树对在线农产品进行销量预测.研究方法 梯度提升决策树原理G B D T算法 是一种以分类回归树(C l a s s i f i c a t i o na n dR e g r e s s i o nT r e e,C A R T)为基模型的集成学习算法.G B D T集成算法的训练过程示意图如图所示,样本通过多轮迭代,每轮产生一个弱学习器,最终将所有弱学习器加权求和后得到集成模型.第 卷第期李鹏飞,等:基于S W G B D T的在线农产品销量预测模型图G B D T集成算法训练过程示意图 假 设 在G B D T算 法 中 输
18、入 的 数 据 集 为T(x,y),(x,y),(xN,yN),其中,xiX,yiY(i,N),N为 样 本 总 数.G B D T算法的目标是找到一个估计函数F(x),对于任意xi,存在有F(xi),使得|F(xi)yi|.一般采用损失函数的负梯度拟合损失.G B D T算法通常采用如下具体步骤.步骤初始化弱学习器.令样本中损失函数最小化的近似常数值为F(x)a r g m i niNiL(yi,c)()式中:xx,x,xN为输入样本;yi表示样本i的真 实 值;常 量c为y,y,yN的 平 均 值;L(yi,c)表示损失函数,用于计算真实值与预测值之间的误差.步骤建立M棵分类回归树m,M.
19、步骤计算样本i的损失函数的负梯度在第m棵回归树的值,将其作为残差估计值rm,i,计算表达式为rm,iL(yi,f(xi)f(xi)f(x)Fm(x)()式中:f(xi)表示将输入样本xi带入第m轮得到的学习器中得到的预测值;L(yi,f(xi)表示样本i在第m棵回归树的损失函数值;Fm表示第m轮得到的学习器.步骤将步骤得到的残差值作为样本新的真实值,并将(xi,rm,i)作为第m棵回归树的训练数据,得到第m棵回归树,其对应的叶子节点区域为Rm,j,其中,j,Jm,且Jm为第m棵回归树叶子节点的个数.步骤计算出第m棵回归树的叶子节点区域j,Jm的最佳拟合值.该最佳拟合值采用损失函数的最小值表示.
20、令Fm(xi)表示使用第m轮 的 学 习 器 对 输 入 样 本xi的 预 测 值,L(yi,Fm(xi)c)表示第m棵回归树中第i个叶子节点的损失函数,则第m棵回归树的叶子节点损失函数的最小值的计算表示式为cm,ja r g m i ncxiRm,jL(yi,Fm(xi)c)()步骤更新学习器Fm(x),其更新方式为Fm(x)Fm(x)Jmjcm,jI,xRm,j()式中,I表示第m棵回归树中的每个叶子节点区域的权重.若样本落在了Rm,j节点上,则令权重I;否则,令权重I.步骤对得到的全部学习器进行累加,得到最终回归树FM(x)的表达式为FM(x)F(x)MmJmjcm,jI,xRm,j()
21、滑动窗口法滑动窗口法根据指定的窗口大小框住时间序列,从而计算框内的统计指标,实现扩展机器学习中样本特征并消除数据噪音.对于时间序列s,s,sn,以周为滑动窗口的大小,在原始时间序列上按时间逆序进行滑动窗口操作,输入特征为s,s,s,输出特征为v,vt,vt,vt,滑动窗口方法原理示意图如图所示.西安邮电大学学报 年月图滑动窗口方法原理示意图SW G B D T预测模型SW G B D T预测模型结构示意图如图所示.从图中可以看出,SW G B D T预测模型的基本思路为,利用爬虫程序获得数据,去除重复数据,使用o n e h o t编码处理数据集中的标称数据,得到初始数据集,使用滑动窗口法将在
22、线农产品销量天内的销量统计数据作为新的特征,对原数据集进行特征扩展,检验特征变量的共线性,对共线性高的特征变量进行主成分分析,并使用主成分对其替代,得到最终的输入特征,输入到G B D T模型中,利用超参数优化算法对模型参数进行优化,选出最佳参数构建预测模型,进而得出模型的预测结果.图S W G B D T预测模型结构示意图 指标筛选影响在线农产品销量的因素包括多个方面,例如,文献 认为,店铺评论、店铺服务以及产品特征对产品 销 量 均 会 产 生 不 同 程 度 的 影 响.文 献 研究发现,农产品的质量、安全、新鲜度及店铺信誉、送货效率和服务质量对网购生鲜农产品意愿具有显著正向影响,农产品
23、价格对网购意愿具有显著负向影响.综合已有相关研究成果,同时考虑到数据的可获取性,选择从店铺特征、产品特征和口碑特征等个方面来确定在线农产品销量的影响因素.)店铺特征.文献 运用探索性因子分析法和验证性因子分析法对农产品网络购买意愿影响因素研究模型进行优化和验证,发现良好的店铺信誉及店铺服务有利于提升消费者对店铺的好感,从而提升消费者的购买意愿.根据相关研究成果,形成描述店铺服务的变量列表如表所示.表描述店铺服务的变量列表变量名类型描述变量名类型描述X数值店铺物流评分X数值累计评论数X数值店铺服务评分X数值图片评论数X数值店铺描述评分X标称厂址)产品特征.通常而言,消费者对于产品特征的关注包含产
24、品价格、产品包装、产品质量、产品安全性及新鲜程度等相关因素.根据相关研究成果,最终确定描述产品特征的变量列表如表所示.表描述产品特征的变量列表变量名类型描述变量名类型描述X数值套餐最低价X 标称套餐份量X数值套餐最高价X 标称特产品类X标称包装方式X 数值最小单重量X 数值包装种类X 数值最大单重量第 卷第期李鹏飞,等:基于S W G B D T的在线农产品销量预测模型)口碑特征.口碑是消费者之间的一种非正式沟通方式,是消费者购买商品或服务后发表的态度.相较于传播范围受限的线下传统口碑,网络口碑是以网络为媒介进行传播,具有传播范围广、时效性长及内容丰富等特征,对消费者购买决策的影响更加显著.同
25、时,不同品牌的产品在消费者中的口碑存在较大差异.选取品牌名称和每日的评论数描述口碑特征,描述口碑特征的变量列表如表所示.表描述口碑特征的变量列表变量名类型描述X 标称品牌名称X 数值每日评论数)时间特征.由于存在其他可能的外部因素对在线农产品销量产生影响,采用滑动窗口法进行特征扩展,以周为窗口单位,将该窗口前天、天、天和天产品销量的统计性数据作为时间特征加入到数据集中.最终形成描述在线农产品销售时间特征的变量列表如表所示.表描述时间特征的变量列表变量名 类型描述变量名 类型描述X 数值前日销量X 数值前日销量最大值X 数值前日销量总和X 数值前日销量最小值X 数值前日销量均值X 数值前日销量标
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SW GBDT 在线 农产品 销量 预测 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。