基于XGBoost算法的电商用户重复购买行为预测.pdf
《基于XGBoost算法的电商用户重复购买行为预测.pdf》由会员分享,可在线阅读,更多相关《基于XGBoost算法的电商用户重复购买行为预测.pdf(12页珍藏版)》请在咨信网上搜索。
1、 收稿日期:基金项目:中央高校基本科研业务费专项资金资助项目()广州市哲学社会科学发展“十四五”规划课题()深圳市哲学社会科学规划课题()作者简介:景秀丽()女辽宁营口人博士硕士生导师副教授研究方向:大数据文本处理电子商务等.辽宁大学学报 自然科学版第 卷 第 期 年 .基于 算法的电商用户重复购买行为预测景秀丽史明曦(.暨南大学 深圳旅游学院广东 深圳.圣路易斯华盛顿大学奥林商学院美国密苏里州 圣路易斯)摘 要:机器学习算法广泛应用于电商用户行为数据分析及商业预测.其中 算法作为一种常用的有监督机器学习算法能够实现电商用户行为特征最优选择与行为模型构建、评估消费价值、预测重复购买行为概率、提
2、高商业决策的精准性与可行性.本研究采用阿里云天池大数据竞赛“天猫复购预测”所提供的“双十一”电商购物节关联数据集中约 万电商平台用户产生的 万条行为数据基于促销活动情境完成特征构造实现有监督分类学习.本研究实现了 算法的参数优化与数据特征值处理过程优化完成了促销活动后 个月内电商用户重复购买行为的预测模型演算.结果表明:优化后的 算法能够比较精准地预测电商用户重复购买行为、评估在线用户潜在购买价值、实现精准营销以及真正促进促销活动的长期投资回报率提高.关键词:算法集成学习特征工程重购预测精准营销中图分类号:文献标志码:文章编号:()(.):.“”.().:引言我国电子商务行业的发展历经二十多年
3、在线零售市场不断创新和扩展推动了新经济业态的成长与进步.全球统计数据库的 年电子商务报告显示中国是目前世界最大和渗透率最高的电子商务市场.国内各大在线零售平台发展迅速在激烈竞争中为了吸引用户源和争夺市场份额积极探索促销活动形式与种类例如天猫淘宝的“双十一购物狂欢节”、京东的“”购物节等.多样化高频率的购物节给平台引流了大量新用户(促销活动中出现首次购买行为的用户)和短期高成交额.陈可旺分析促销作为一种短期刺激性工具虽然能够有效激发用户对特定商品服务进行立即购买的欲望但是电商平台更需要锁定长期持续的有效收益.等提出企业重视客户留存并且开发一个新客户所需的成本是维护一个老客户所需成本的 倍.陈龙研
4、究表明电商平台及商家有必要确定哪些用户有可能转化为重复购买者并对这些潜在忠诚用户进行精准营销降低促销成本提高投资回报率.蔡一凡做了用户聚类和特征选择的在线购买行为研究.张李义等聚焦新消费者重复购买意向的预测研究.当前对用户重复购买行为预测方法主要有两类方法一是以/()、()/为代表的概率模型二是以决策树、逻辑回归、()为代表的机器学习模型.基于海量数据的机器学习算法为电商平台精准地把握消费者偏好需求、预测消费者行为、评估客户价值提供了有效分析方法采用数据挖掘技术能够运用多维变量进行预测结果更加客观真实.电商平台用户数据对象涵盖用户信息、商品信息、商家信息用户在网站上浏览商品时产生的一系列在线行
5、为数据(如登录、点击、收藏、购买、评论、咨询客服等)并且实时在网站日志中进行同步构成了海量丰富的大数据集.通过对大数据集进行分析电商平台可以提取出用户的需求、偏好、购买能力等价值信息完成重复购买行为预测模型设计.消费者重复购买的预测问题转化为消费者是否将重复购买的分类问题运用机器学习中的分类算法进行有监督训练.例如 等基于()模型研究客户重复购买行为运用 算法和决策树算法对客户进行分类准确率超过了.相比单种算法构建的预测模型集成学习方法通过串行或并行的方式将多个弱监督模型进行组合可以进一步提高模型预测的准确性代表算法有随机森林算法和()算法等或运用多模型融合策略将不同类型算法训练出的模型以、等
6、方法进行 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 融合提高模型的准确率和泛化能力.胡晓丽等基于集成学习对用户重购行为进行预测引入“分段下采样”的方法解决类别不平衡问题并用 融合了、构建预测模型结果表明 方法能够带来.至 的()提升.吕泽宇等使用了 和 两种方法构建模型并用 进行参数搜索证明该方法只需少量特征即可达到较好的预测效果.基于先进的机器学习算法引入特征工程设计也是数据挖掘的关键技术之一.机器学习算法用于解决多个领域多个方向问题学习效果如何很大程度上依赖于特征工程中提取的特征是否真正贴合业务需要这一过程需要结合许多研究领域的专家知识.文献研究发现针对电商购物节后消费者重
7、复购买行为预测研究不多通过提取特征值结合促销活动变量对消费者行为产生的特殊影响可构建更精准的重复购买预测模型.此外运用天猫大数据平台提供的公开数据集针对促销前和促销中的用户短期行为等数据维度提取更加详细的特征值运用 集成学习算法构建电商购物节后新用户重复购买行为预测模型提高预测能力.算法背景决策树算法在机器学习中常用于预测和分类是一种有监督的机器学习方法.在数据复杂的情况下使用单一决策树进行预测有时无法取得较好的效果.等认为可通过集成学习将弱学习算法提升为强学习算法.集成算法主要有 和 两类.其中 提升算法由通过构造多项式级算法率先提出验证 弱学习算法提升的思路其各个相互依赖的分类器串行根据预
8、测能力的不同预测函数的权重也不同.陈凯等研究表明在训练的过程中增加对分类错误样本的学习权重在迭代中能够不断调整和持续提高准确度将各个基学习器进行加权集成输出最终结果.算法全称 由 等在经典 算法 的基础上改进提出在计算速度上表现优秀.的核心思想是采用向前分布算法每轮迭代产生的弱分类器都在上一轮迭代的残差基础上继续训练通过不断减小残差来实现回归和分类并将()分类回归树作为基学习器.算法的目标函数由损失函数和复杂度函数相加而成模型误差小更加简单可防止过拟合使用梯度提升法可使目标函数最小化.其目标函数在经过泰勒二次展开后可以简化为 ()式中:为叶子节点数 为学习率限制叶子节点个数 为正则化参数限制叶
9、子节点分数为一阶导数为二阶导数.在每棵树选择特征进行分裂时 使用的是贪心法遍历特征计算每个节点的分裂收益选择增益最大的特征进行分裂:()()即用分割后的目标函数值减去分割前的目标函数值当增益大于 阈值时树才分裂这样目标函数在优化的同时也实现了预剪枝.当数据量极大时贪心算法十分耗费内存对此 算法还提出了一种近似搜索方法在难以精确搜索情况下运用全局近似或者局部近似选取候选分裂点再从中选择最佳分裂点结果同样具有准确性.通过调用 开发环境的 工具包进行重复 辽宁大学学报 自然科学版 年 购买行为的预测.数据采集与分析.数据集数据集来源于阿里云天池大数据平台“天猫复购预测大赛”的公开数据集.该数据集包含
10、了 名匿名用户的基本信息以及他们在“双十一购物狂欢节”前 个月以及“双十一购物狂欢节”当天的交互行为记录和购物记录同时标记了这些用户在购物节后 个月是否有重复购买行为.数据集一共包括“用户信息表”“用户行为日志表”“用户 商家消费行为表”张数据表提供了“用户编号”“用户年龄范围”“用户性别”“商品编号”“商品类别编号”“商品品牌编号”“商家编号”“行为时间”“行为类型”个属性.数据初筛发现数据集的样本用户皆有过一次以上的购买记录且“双十一购物狂欢节”期间都有首次进行消费的商家.用户信息表和用户行为表包含了所有样本用户的相关数据.为满足模型训练及测试的需求天池大数据平台提供的数据集将样本用户分为
11、数量相当的两部分并分别归入电商用户行为模型的训练集和测试集之中.其中训练集中的 字段已经完成对用户的标签化即标明用户在“双十一购物狂欢节”后是否会重复购买用于有监督学习对模型进行分类训练而测试集中的 字段表示预测用户是否在促销活动后重复购买在模型训练后对无标签对象进行预测.数据清洗.缺失值处理原数据集用户信息表中的(用户年龄范围)字段有 条缺失值、(用户性别)字段有 条缺失值缺失值在属性中占比较大使用均值替换法在已有数据中寻找缺失数据的最可能值.购买同一产品的用户群体往往具有相似的年龄和性别.对应数据处理流程包括:首先在用户信息表中获取缺失年龄或性别属性用户对应的(用户编号)通过这些 在用户行
12、为日志表中寻找属性值缺失用户购买过的所有商品的(商品编号)其次在用户行为表中寻找购买过这些商品的其他用户的编号通过用户信息表得到这些用户的年龄范围或性别属性以此计算商品用户群的平均年龄范围或性别属性最后以所有已购商品的平均用户年龄和性别的平均值填补该用户缺失的年龄或性别属性.用户行为日志表中的(商品品牌编号)字段有 个缺失值但由于同一商家售卖同一类别的同一商品其品牌应当是相同的其中大部分的缺失值可以通过与(商品编号)(商品类别编号)(商家编号)进行匹配找回.数据转换在特征构造过程中需要按照时间进行数据提取而原字段“”时间戳以 标识如 月 日记为“”的 类型数据来记录用户在线行为发生时间无法进行
13、数学运算因此在数据集成时对“”时间戳进行转换并添加一个 类型的新字段“”用来表示用户在线行为发生时间在从 月 日至 月 日这 的时间周期内所处的位置如将“”转化为“”将“”转化为“”这样就不必考虑每月天数之间的差异并可以按时间进行数据提取.特征工程特征工程即对原始数据进行一系列处理的工程最大限度地提炼出特征作为输入供模型和算 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 法使用.特征工程是对数据进行理解、表示和展示的过程其在实际过程中要求尽可能地去除原始数据里的噪声提炼出更加高效的特征以供预测模型调用解决问题.高质量特征对于提高模型的性能和精准度有很大意义.特征工程需要结合多学科知
14、识首先对电商用户重复购买行为的影响因素模型进行分析.用户自身属性方面徐鹏鹏构建结构方程模型研究用户重复购买电商品牌的影响因素认为客户的个人特征、质量关注、感知价值、网购依赖及购物满意度会造成影响.商品属性方面李海霞根据环境心理学理论和社会交换理论认为客户面对与商家在口碑、技术、人员、产品等服务接触时产生的刺激会对社会关系及经济关系进行是否满意和信任的考量从而决定是否重复购买.在用户与商家间的交互关系上经典的 模型通过客户最近一次的消费时间、消费频度和消费金额对客户价值进行衡量.针对电商行业特点李敏等在 模型的基础上加入客户对商品满意度和关注度的考量构建()模型对用户忠诚度进行分类.薛红松等验证
15、了电商客户重购行为和商家商品销量和排名符合幂律分布重购行为倾向于在一定时期内集中发生且随着购买次数增加重购周期将缩短状态趋向稳定.由此可见当前针对电商用户重复购买行为影响因素的研究很多学者尚未将商家推广促销和电商平台购物节活动等纳入具体分析.促销刺激可以加速新用户与商家产生交互关系也增加了对新用户价值判断的难度.对新老客户重复购买意愿的不同特点卢美丽等考虑了购买强化效应并验证受此影响顾客购买次数可呈幂律分布或广延指数分布即可将客户分为易受促销影响的提升区顾客和已形成购物惯性的稳定区顾客.结合上述研究以及数据集提供的有限信息本研究将在特征提取时构建 大类特征即用户特征、商家特征、关系特征、促销特
16、征.原数据集的可用特征维度较低因此在提取原特征之外还需要通过对原属性进行分割和结合构造出新的特征.商家特征考虑商家热度、口碑、产品对重复购买的影响用户特征考虑其人口特征、网购依赖度、网购信任度、稳定忠诚度交互特征考虑用户对商家的交互时间、交互频次促销特征考虑商家的促销力度以及用户的价格敏感度.如图 所示.图 特征工程设计.用户特征用户特征是对用户个人属性和购物偏好的描述包括人口特征、网购依赖度、网购信任度、稳定度会对其是否重复购买造成影响.多数研究者会从原始数据集的用户信息表中提取用户人口特征数据参照此方法本研究基于所用数据集中的用户信息表提取用户年龄和性别数据探究其对消费 辽宁大学学报 自然
17、科学版 年 者的购买行为和购买偏好的影响作用即将上述两类数据属性作为原特征进行提取.网购依赖度则体现用户是否为电商平台的重度使用者主要考虑其活跃度和使用深度.用户行为日志表中记录了用户在促销活动前和促销活动中的 个月内在平台内点击、加入购物车、购买收藏的行为.用户各类行为频次越高登录天数越多说明其对平台越忠实具有更高的维护价值.因此可以从行为日志表统计出用户的点击总次数、加入购物车总次数、购买总次数、收藏总次数、登录总天数、购买总天数作为特征.另一方面相较于只在平台购买小部分类别产品的用户部分用户对平台使用程度更深运用平台满足其大部分购物需求有更高的重复购买可能性.可以据此统计用户购买类别总数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 XGBoost 算法 商用 重复 购买 行为 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。