基于CLV偏好挖掘模型的数字社区用户偏好挖掘研究_肖耘.pdf
《基于CLV偏好挖掘模型的数字社区用户偏好挖掘研究_肖耘.pdf》由会员分享,可在线阅读,更多相关《基于CLV偏好挖掘模型的数字社区用户偏好挖掘研究_肖耘.pdf(16页珍藏版)》请在咨信网上搜索。
1、2023年第35卷第2期基于 CLV 偏好挖掘模型的数字社区用户偏好挖掘研究肖耘1,许欢欢1,肖雅元1,赵又霖2,3*,庞航远3(1.广西中烟工业有限责任公司,南宁530001;2.南京大学 信息管理学院,南京210023;3.河海大学 商学院,南京211100)摘要:目的/意义数字社区已经成为企业高效管理用户的一种方式,用户行为信息以及用户的客户生命周期价值对数字社区的用户偏好挖掘具有重要意义。且现有的数字社区研究缺乏对用户价值和未来偏好挖掘的研究。方法/过程针对数字社区的用户群体,本文提出基于客户生命周期价值 CLV(Customer Lifetime Value,CLV)的偏好挖掘模型
2、CLV-PM(CLV-Preference Mining,CLV-PM)。首先,为反映用户真实偏好,基于用户行为信息,借助 RFM 模型和 K-Means+算法挖掘用户群体特征,生成用户价值类别标签;其次,为考虑用户时序性和差异性以及增强模型对偏好的认知,利用用户 CLV 构建用户-评分矩阵,并借助协同过滤算法挖掘用户预测偏好;最后,绘制数字社区目标用户的用户偏好画像。结果/结论“微信社群”管理平台的用户数据集中,可划分为重要价值用户、低价值用户、回流用户和重要挽留用户 4 种用户价值类别;目标用户 16254 为重要价值用户,采取“留存和维持”为主的运营策略;历史偏好为欢乐跳一跳、秒杀等活动
3、,预测偏好为飞行棋大作战、猜码图等活动,目标用户偏好画像为数字社区运营和维护用户提供依据。关键词:CLV-PM;协同过滤;数字社区;用户偏好;信息行为中图分类号:G250文献标识码:A文章编号:1002-1248(2023)02-0045-16引用本文:肖耘,许欢欢,肖雅元,等.基于 CLV 偏好挖掘模型的数字社区用户偏好挖掘研究J.农业图书情报学报,2023,35(2):45-60.收稿日期:2023-01-10基金项目:广西中烟工业有限责任公司科技项目“基于机器学习方法的营销活动效果动态评估”(CGAXZX20210030050001-044);江苏省社会科学基金青年基金“社会感知数据驱动
4、下的公共卫生事件时空演化研判机制研究”(20TQC001);中国博士后科学基金特别资助“面向应急管理的时空数据语义模 型构建及创新应用机理研究”(2021T140311);中国博士后科学基金面上项目“环境污染突发事件的时空数据挖掘及协同治理机制研究”(2019M650108)作者简介:肖耘(1971-),硕士,研究方向为“互联网+”营销产品产品研发、生产与运营。许欢欢(1988-),女,硕士,研究方向为互联网营销及研究。肖雅元(1988-),女,研究方向为互联网营销及研究。庞航远(2002-),女,硕士研究生,研究方向为知识组织研究*通信作者:赵又霖(1986-),女,副教授,博士生导师,南京
5、大学博士后,河海大学商学院,研究方向为数据分析与挖掘、知识组织研究。E-mail:DOI:10.13998/ki.issn1002-1248.23-00841引言随着信息技术和互联网的迅猛发展,数字化社区应运而生并迅速发展。数字社区作为一种全新的生活方式,以数字技术为基础,通过网络、手机等终端进行信息传播和交流。然而,由于数字社区的用户信息数字营销专题452023年第35卷第2期飞速增长,信息过载问题相继出现,用户难以从海量数据资源中找到自身需要的物品。数字社区用户生命周期描述了用户参与社区活动的不同阶段,不同的用户拥有不同的生命周期,并且用户对于社区的价值贡献和需求存在差异。因此,衡量数字社
6、区用户的客户生命周期价值不仅考虑了用户的差异性,而且考虑了用户的时序性。在众多的用户偏好挖掘研究算法中,协同过滤算法的应用最为普遍。协同过滤依赖于偏好或兴趣与目标用户相似的用户,并推荐用户可能感兴趣的项目。由于传统的协同过滤算法的实现非常依赖物品和用户的评分信息,但用户的评分信息往往伴随数据稀疏性和数据真实性问题,而用户行为信息能够真实反映用户的偏好,有效减少数据的稀疏性和失真性问题。因此,为提高预测和挖掘的精度,考虑用户时序性和用户价值。本文将用户行为数据作为数据源,从客户生命周期价值的视角出发,构建CLV-PM(CLV-Preference Mining,CLV-PM)模型。通过聚类划分用
7、户价值类别,生成用户价值类别标签,挖掘用户历史偏好,再结合协同过滤算法预测用户未来偏好,最后,生成数字社区用户偏好画像,为数字社区用户的偏好挖掘提供依据。同时,为数字社区用户偏好挖掘提供新的研究视角。2相关研究基础2.1 CLV理论及应用客户生命周期价值CLV(Customer Lifetime Value,CLV)1是一项用于衡量客户贡献利润的典型指标,对企业的精准营销具有重要的价值和意义,其测量和计算被广泛应用于学术研究和营销领域。现有研究成果表明,以CLV为基础的营销资源分配为企业带来了更多的利润。VENKATESAN和KUMAR2发现前5%的顾客所创造的价值要比其他模型高出10%15%
8、;KUMAR等3指出CLV模型可以帮助企业衡量客户关系,制定更为合理的营销政策,实现个性化管理,使客户价值最大化;李玉婷等4指出CLV高的企业,其客户续保率越高、赔付率越低。有关CLV的主要研究内容可以分为:用户价值细分4、客户生命周期建模5、CLV对相关决策管理的支持6,7等。2.2数字社区用户研究现状数字社区是指通过数字信息将服务提供者和管理部门与用户连接起来的虚拟在线社区,而数字社区的用户是指使用由服务提供者提供的服务的人。近年来,数字在线社区方面的研究引起了学者们的广泛关注,并得到了许多出色研究成果。数字在线社区的研究主要涉及用户信息披露8,9、用户行为影响因素10-18、用户偏好挖掘
9、19-23等。由于本文涉及数字社区用户偏好挖掘以及用户行为方面的分析,下面将重点阐述这两个方面的数字社区研究现状。在用户行为分析方面,肖雪等10以“豆瓣读书”作为数据来源,通过社会网络分析法、内容分析法和统计分析法分析虚拟阅读社区的用户互动特征和影响因素;普哲缘和李胜利11以哔哩哔哩作为数据来源,借助双向固定效应模型探究视频评论特征对观众评论行为的影响;付少雄等12以好大夫在线作为数据来源,基于社会基本理论探究在线医疗社区医生知识贡献行为的关键动因;潘涛涛和吕英杰15以某在线健康社区的发帖行为数据为数据源,借助SOA模型探究影响用户参与社区意愿的因素;赵欣等16以问卷数据作为数据来源,运用AM
10、OS软件探究用户行为与用户信任的互惠因果关系;陈星等18以问卷数据作为数据来源,运用AMOS探究影响用户持续知识分享行为意愿的因素。在用户偏好挖掘方面,学者主要以用户评论数据、用户基本属性以及用户行为数据等为研究数据来源;借助扎根理论、标签分类、聚类分析以及情感分析等方法展开用户需求主题识别、关键用户识别等研究。如成全和郑抒琳24以母婴网站的提问数据作为数据源,分析其用户信息需求主题标签体系,并构建层级多标签分类模型;余佳琪等8基于患者的评论数据构建了一个挖掘不同阶段患者评论主题与情感状态的主题情感混合模型;吴江等19以网易云社区为研究对象,借助DOI:10.13998/ki.issn1002
11、-1248.23-0084数字营销专题462023年第35卷第2期BERT主题聚类的方法,分析不同音乐主题的特征;张军等20从用户交互行为属性、信息质量属性和情感倾向属性3个方面展开关键用户识别研究;王帅21从用户的基本属性、兴趣主题、情感倾向、问诊需求以及社交网络5个方面进行用户画像和用户分群研究;钱宇星等23以“老年人之家”论坛中的文本为数据源,借助共现分析和主题分析挖掘老年在线健康社区的健康信息需求(表1)。2.3协同过滤算法研究现状协同过滤算法是目前推荐系统中应用范围最广且成功率最高的推荐算法。常常被应用于预测和挖掘用户的需求和偏好。传统的协同过滤算法通常基于用户对项目的评分数据预测用
12、户偏好25。但是,评分信息的失真问题导致预测结果不够精确,因此学者们提出结合文本内容和社区网络26-28、用户的属性信息29,30、时空信息31、用户的浏览、复制以及收藏信息32-34等提高结果的准确性。从CLV的理论及应用来看,CLV作为用户价值衡量的重要指标,其对资源的有效利用和用户价值的最大化具有重要的地位,且被广泛应用于用户价值衡量领域,为基于用户价值的用户偏好挖掘提供新的视角;从数字社区用户的研究现状来看,数字社区的用户行为研究主要集中在用户行为的影响因素方面,数字社区用户偏好研究多以文本数据作为数据来源,少以用户的行为数据作为研究对象,而用户的行为数据真实反映用户的偏好;借助主题分
13、析等方式挖掘用户的偏好,少有对未来偏好的预测研究;现有的数字社区用户研究少有考虑用户生命周期价值,但用户生命周期价值反映用户整个生命周期内对数字社区的贡献,考虑用户生命周期价值有利于挖掘和预测用户偏好,从而提高数字社区的运营效率和效果。从协同过滤算法的研究现状来看,单一评分数据存在失真问题,现有研究采用多属性特征结合的方法提高预测和挖掘的精确度。综上所述,以现有的研究为基础,本文提出了一种以用户行为数据作为研究对象,考虑用户生命周期价值的混合用户偏好挖掘模型CLV-PM模型。该模型从CLV的视角出发,将用户行为数据作为用户偏好数据,评估和计量用户的CLV;以用户的CLV为衡量指标,利用K-me
14、ans+算法进行用户聚类,生成用户价值类别标签,最后通过协同过滤算法挖掘不同用户价值类别的未来偏好,并在此基础上绘制数字社区中目标用户的用户偏好画像,为数字社区用户的偏好挖掘提高依据。3 CLV-PM模型的构建为克服现有研究的局限性以及数字社区“信息过载”的问题,并基于数字社区用户的时序性以及用户价值差异性的特点。本文提出一种基于CLV的偏好挖掘模型CLV-PM,用于数字社区的用户偏好挖掘研究。CLV-PM模型的作用有二:一是提高偏好挖掘和预测的准确度,以用户行为数据作为研究对象,真实反映用户偏好;二是从用户的CLV的视角出发,进行用户聚类,生成用户价值类别标签,实现数字社区资源最大化,用户价
15、值最大化。CLV-PM模型的算法框架如图1所示。3.1 RFM模型在数字社区中,用户的评分存在失真或数据稀疏性问题,RFM模型通过量化用户行为信息,对用户进数据类型 用户评论数据、用户基本属性、用户行为数据等 研究方法 扎根理论、层级多标签分类、K-means 方法、EM 聚类、情感分析、BERT 主题聚类、AttriRank 算法、共现分析等 研究主题 用户需求主题识别、关键用户识别等 表1数字社区用户偏好挖掘研究特征表Table 1 Digital community user preference mining research肖耘,许欢欢,肖雅元,赵又霖,庞航远基于 CLV 偏好挖掘模
16、型的数字社区用户偏好挖掘研究472023年第35卷第2期图1 CLV-PM模型计算框架Fig.1 CLV-PM model calculation framework行价值划分,以此衡量用户对社区的评分。本文通过基于RFM模型量化数字社区的用户行为信息,以挖掘用户偏好和衡量用户价值。RFM(Rational FunctionModel)分析模型最早是1994年HUGHES提出的35,该模型从企业的角度综合考虑客户一般购买行为。BULT和WANSBEEK对RFM的定义为:R(Recency)是指用户消费的临近性,与客户重复购买的可能性成反比,通常以用户在观测期内的最近消费时间作为衡量指标;F(F
17、requency)是指用户的消费频率,与客户忠诚度成正比,通常以观测期内用户的消费次数作为衡量指标;M(Monetary)是指用户的消费能力,与公司对客户的关注度成正比,通常以观测期内用户的消费总额作为衡量标准36。基于RFM模型的定义,本文对数字社区用户进行价值划分,帮助社区精准服务于用户。另外鉴于数字社区中用户参与不同活动所获得的奖励额度和奖励物品不同,在测算R、F、M值时需通过最大最小归一化方法将数据标准化,以减少测量误差。用户参与活动m的近度Rm(m=1,2,.m),Rm的含义为最近一次参与活动m的时间,即最后一次参与项目活动距离设定时间的间隔长度。Rm越小说明数字社区用户越活跃,对数
18、字社区的价值以及贡献就越大。假设实验数据采集的时间点为T,用户的生命周期为Tnm(n=1,2,.,n;m=1,2,.,m),其中,Tnm表示用户参与活动m的时间点。用户参与活动的近度计算公式如公式(1)所示。Rm=min(T-Tnm)(1)用户参与活动m的频度Fm(m=1,2,.m),Fm的含义为顾客一段时间内参与活动m的次数,参与频率越高代表用户忠诚度越高。假设用户在参与活动m的各个时间点上的参与次数集合为Fnm(n=1,2,.,n;m=1,2,.,m),其中fnm表示用户在时间点n上参与活动m的频次。用户参与活动的频度计算公式如公式(2)所示。用户参与活动m的值度Mm(m=1,2,.m),
19、Mm的含义为用户一段时期内参与活动m的消费总额。值度越大表示用户对该平台或该活动项目的贡献越大,重要程度越大。本文通过用户参与活动时消耗的游戏货币或积分等作为衡量用户价值贡献和重要性程度。假设用户在各个参与活动的时间点上的消费额度为Mnm(n=Fm=fnm(2)ni=1DOI:10.13998/ki.issn1002-1248.23-0084数字营销专题482023年第35卷第2期1,2,.,n;m=1,2,.,m),其中Mnm表示用户在参与活动m的时间点n上的消费额度。则用户参与活动的值度计算公式如公式(3)所示。由于每个用户可能同时参与多个活动项目,因此本文测算R、F、M值,取每个用户参与
20、的所有活动项目的R、F、M对应的平均值。3.2用户价值类别标签基于聚类算法无监督且事先不知道是否被明确分类的特点,本文将“类内高聚合、类间低耦合”作为指导思想。本文将每个用户的R、F、M均值,作为用户相似度测量的指标。此外,为了加速收敛,采用K-Means+算法,将未聚类的数据看作在多维空间上的点,采取“欧式距离”作为测量指标,计算每个对象与中心对象的距离,并根据最小距离重新对相应对象进行划分,然后重新计算每个聚类均值直至没有对象再被重新分配给其他类,且聚类中心不再变化。并将误差平方和(SSE)作为度量聚类效果的目标函数,选取SSE最小的分类结果作为最终的聚类结果。计算公式如(4)、(5)所示
21、。欧氏距离计算公式37:(4)误差平方和(SSE)计算公式38:(5)3.3用户-评分矩阵RFM是评估和计量用户CLV的典型模型,考虑到数字社区用户评分存在失真以及数据稀疏性的缺点。本文借助数字社区用户行为数据量化分析用户CLV,并以此作为基于用户的协同过滤算法的用户-评分矩阵,用户CLV越大,表示用户的满意度越高,评分越高。熵可用来衡量事物出现不确定性的概念39,信息熵理论认为,信息是对系统有序状态的度量,而熵是系统无序状态的度量。一般来说,某项指标的信息熵与该项指标所提供的信息量、在综合评价中起的作用以及该项指标的权重成反比。由于RFM模型中的R、F、M三个变量对用户的CLV的贡献不同,本
22、研究借助熵权法计量3个变量在影响用户对活动喜爱程度中的比重,将其作为数字社区用户的项目偏好比。最后根据公式(6)得到加权RFM值,并以此构建相应的用户项目-评分矩阵。CLV=wRRm+wFFm+wMMm(6)其中,Rm、Fm和Mm分别表示对应活动m的Rm、Fm和Mm指标,wR、wF和wM表示Rm、Fm和Mm的权重。3.4综合相似度计算余弦相似度是协同过滤推荐算法中衡量用户相似度的一种常用方法。在协同过滤算法中,它通过计算用户或项目之间的余弦相似度来评估用户或项目之间的相似度。因此,本文所构建的CLV-PM模型借助余弦相似度衡量用户的相似度。用户间余弦相似度的计算公式如公式(7)40所示。其中,
23、sim(u,v)表示用户u与用户v的综合相似度,分子表示u的向量和用户u向量的乘积,分母表示两者模长的乘积。(7)3.5数字社区用户偏好画像根据公式(7)得到目标用户的N个近邻用户之后,依据“目标用户与其相似用户的喜好是相似的”的假设,预测目标用户的偏好。常用的方法是,利用用户相似度和相似用户评分的加权平均值,来获得目标用户的预测评分,按照评分大小降序排序,生成n个预测偏好。计算公式如公式(8)所示。(8)其中,权重wu,v是用户u和用户v的相似度,Rv,p是用户v对项目p的预测评分。在获得用户v对不同项目的预测评分后,选择前n个项目生成预测偏好矩阵列表。并据此构建用户偏好画像如图2所示。Mm
24、=mnm(3)ni=1肖耘,许欢欢,肖雅元,赵又霖,庞航远基于 CLV 偏好挖掘模型的数字社区用户偏好挖掘研究492023年第35卷第2期4基于CLV-PM模型的数字社区用户偏好挖掘研究4.1数据源与数据预处理广西中烟工业有限责任公司通过“微信社群”管理平台对加入平台的用户进行管理和维护,该平台具备个人信息维护、消息推送以及开展营销活动的功能,是一个功能完善且用户累积量较大的数字社区平台。基于此,本文以广西中烟工业有限责任公司“微信社群”的平台数据作为数据源,该数据集包含猜成语、猜歌名和猜码图等14个活动的参与情况。具体的活动列表以及各表的数据结构如表2、表3所示。研究涉及该营销平台20192
25、022年的用户数据,共计259 268条。考虑到部分用户数据缺失且不同活动的用户所获得的奖励额度和奖励物品不同,为减少误差,在基于RFM模型的计算时需要对不同活动的R、F、M值通过最大最小归一化方法使其数据标准化后共得到38 192条数据。由于每个用户可能同时参与多个活动项目,因此本文测算的R、F、M值取每个用户参与的所有活动项目的R、F、M所对应的平均值,最终得到共计19 362条数据,数据格式如表4所示。图2用户偏好画像Fig.2 User preference portrait活动名称 猜成语、猜歌名、猜码图、猜谜语、猜诗词、飞行棋大作战、欢乐跳一跳、决胜 21 点、秒杀、趣味大话骰、天
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CLV 偏好 挖掘 模型 数字 社区 用户 研究 肖耘
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。