基于在线评论的智能手机需求偏好判别及客户细分模型构建研究.pdf
《基于在线评论的智能手机需求偏好判别及客户细分模型构建研究.pdf》由会员分享,可在线阅读,更多相关《基于在线评论的智能手机需求偏好判别及客户细分模型构建研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、Computer Era No.9 20230 引言随着互联网技术及购物平台快速发展,线上购物逐渐成为人们交易商品最为主要的渠道。根据中国互联网信息中心(CNNIC)发布的第50次 中国互联网络发展状况统计报告,截至2022年6月,我国网络支付用户规模达9.04亿,较2021年12月增长81万,占网民整体的86.0%。用户们更多地在购物平台上发表对于购物的体验以及产品的个性化看法。用户需求挖掘方法可以分为两大类:基于问卷调研的传统需求获取方法1-3和基于文本挖掘算法的自动化需求提取方法。数据激增背景下,基于在线评论的各类文本挖掘算法/方法应用广泛,如何从用户的在线评论中挖掘需求,成为热点问题。
2、研究者采用关键词提取算法来提取评论中的主题,获取用户关注的产品特征,典型算法如隐含狄利克主题模型4、词频逆文档频率5和TextRank6等;一些研究者进一步结合情感词典来分析用户对于产品特征的情感倾向,进而分析用户的消费需求7-11。现有方法能够快速、低成本地处理大规模用户评论,但仍面临频数不突出的特征内容容易被忽略、产品特征被过分切分等问题。在客户细分方面,现有的在线评论尚未涉及。有鉴于此,本文在爬取四款智能手机的在线评论后,挖掘出了产品的潜在特征,并且在此基础上进行了客户细分,最终不仅得到了用户对DOI:10.16644/33-1094/tp.2023.09.028基于在线评论的智能手机需
3、求偏好判别及客户细分模型构建研究朱韦光(江南大学商学院,江苏 无锡 214028)摘要:为了帮助商家从在线评论中挖掘产品的需求偏好及客户构成,构建了基于LDA主题模型、情感分析,以及改进的K均值聚类算法等方法的产品需求偏好判别及客户细分模型。通过LDA模型挖掘用户需求偏好,利用情感分析进行情感打分,再用改进的聚类算法得到客户细分群体。最终得到用户对于手机的需求偏好以及客户细分群体构成,帮助商家更好地作出经营决策。关键词:在线评论;需求偏好;LDA模型;情感分析;聚类算法中图分类号:TP391文献标识码:A文章编号:1006-8228(2023)09-132-04Research on the
4、construction of smart phone demand preferencediscrimination model based on online reviewZhu Weiguang(School of Business,Jiangnan University,Wuxi,Jiangsu 214122,China)Abstract:In order to help merchants mine product demand preferences and customer composition from online reviews,a productdemand prefe
5、rence discrimination and customer segmentation model is constructed based on LDA topic model,sentiment analysisand improved K-means clustering algorithm.The LDA model is used to mine user needs and preferences,sentiment analysis isused to score sentiment,and the improved clustering algorithm is used
6、 to obtain customer segmentation groups.Finally,usersdemand preferences for smart phones and the composition of customer segments are obtained,which helps merchants make betterbusiness decisions.Key words:online comments;demand preference;LDA model;sentiment analysis;clustering algorithm收稿日期:2023-03
7、-01作者简介:朱韦光(1998-),男,江西瑞金人,江南大学商学院硕士研究生,主要研究方向:数据分析。132计算机时代 2023年 第9期产品的需求偏好,还将客户群体进行了分组,帮助商家更加有的放矢地去改进产品、采取经营策略,提升了决策效率。1 模型构建基于在线评论构建的主题发掘、情感分析及其聚类模型主要分为五个步骤,分别为数据获取及预处理、Word2Vec 近似词识别、LDA 主题挖掘及词向量聚类分析,以及主题细粒度情感分析比较。1.1 数据获取及预处理本文的数据来自于京东电商平台的在线评论。运用Python爬虫技术,共获得四款智能手机的在线评论。本次爬取的数据包括产品名称、用户名称、评论
8、内容、评论时间。对四款智能手机的评论文本进行去重、去除部分评论内容,运用Jieba分词对评论文本进行分词,通过知网停用词表去除停用词及表情图案。考虑到主题挖掘和分析的效果,将名词和形容词搭配组成的词语中的形容词从用于主题挖掘的文本数据中去除。1.2 基于Word2Vec的词意相似度判别由于存在多个特征词在多个主题中重复出现、多个特征词之间词义相近等问题,另一种是不同形容词和形容词表达含义相同,含义相近词汇会影响主题挖掘效果。而Word2Vec可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,表示文本语义上的相似度,从而识别出近似词。本文选用Skipgram模型进行训练
9、,该模型通过随机梯度下降算法训练目标函数。根据当前词语预测上下文的信息,提取的名词和形容词作为输入语料,借助Word2vec函数训练生成词向量文件,利用相似度函数公式,计算词语的相似特征词,将表达相同含义的相似词设置为同一个词。Similarity=u.v u v其中,u和v分别表示两个词汇的词向量。1.3 于LDA主题模型的产品特征挖掘根据 Word2Vec 近似词识别中的 Similarity 的大小,将相似度高的产品特征词归到一起之后,采用隐含狄利克雷分布。从评论文本数据中提取潜在主题。在使用主题模型对评论文本进行分析时,确定最佳主题数以及主题的命名非常重要,本文采用网格搜索法,利用一致
10、性评分来确定最佳主题数,通过主题整合得到了不同的用户关注的产品特征维度。1.4 情感倾向分析基于LDA主题特征词挖掘结果,运用词典分析方法进行情感分析,计算各主题属性的情感值。本文所用情感词典是HowNet词典,并根据电子数码产品评论文本内容特征,添加人工自定义词典。分离出文本单元。将评论文本原始数据按照标点符号和连接词分成独立的文本单元,对所有文本单元进行分词,将含有两个或两个以上特征词的文本单元进一步分离,使每个文本单元仅含有一个特征词。标记情感词。将分词后的文本单元与完善后的情感词典进行匹配,标记每个文本单元中情感词的位置及其情感权重,每个正面情感词得分+1,每个消极情感得分-1。得出每
11、个文本单元的情感得分。考虑否定词。若情感词前有奇数个否定词,则情感倾向改变;若短句中有偶数个否定词,则情感倾向不变。考虑程度副词。建立程度副词词典,并赋予相应的权重,确保计算所得情感值的准确性。参照HowNet程度副词词典,依据相关文献和消费者对程度副词的实际使用和区分情况,对程度副词词典进行扩充和赋值如表1。修改情感得分。依据文本单元中否定词词表和程度副词词典,对各个文本单元情感得分进行修改,假设文本集合D=d1,dm,dM,其中dm是第m个文本单元,M是文本单元数量,m=1,2,M:score()dm=(-1)ii=1kPtj=1nDj其中,j、n和k分别表示第m个文本单元中否定词、程度副
12、词和情感词的数量,Dj表示第m个文本单元中第m个程度副词的权重值,Pt表示第m个文本单元中第t个情感词的值。计算各主题情感得分。假设特征词集合为Wij=w11,w12,wij,其中wij表示第i个主题的第j个特征词。将特征词与文本单元进行匹配得出每个特征词所在的文本单元及其出现次数aij,则每个特征词的情感得分为:score()wij=score(dm)aijwij dm则各主题的情感得分为:133Computer Era No.9 2023score()zk=i=ksore(wij)aiji=kaij1.5 于K-means聚类分析的用户分类本文将上文得到的每个用户的产品需求偏好的多维分值向
13、量作为数据基础,利用K-means聚类算法来进行用户群组的分类。用轮廓系数来评判聚类效果,以此来确定聚类的个数。计算样本i到同簇其他样本的平均距离a(i)值,该值越大,说明样本i越应该被聚类到该簇。将a()i称为样本i的簇内不相似度。计算样本i到其他某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:b(i)=minb(i1),b(ik)。该值越大说明样本越不属于其他簇。根据样本i的簇内不相似度a(i)和簇间不相似度b(i)定义样本i的轮廓系数:S()i=b()i-a(i)max a()i,b(i)当S(i)接近1时,则说明样本i合理;S(i)接近-1
14、,则说明样本 i 该分类到其他的簇;当S(i)近似为 0,则说明样本i在两个簇的边界上。所有样本的S(i)的均值称为聚类结果的轮廓系数,S(i)越大,说明聚类效果越好。2 实证分析2.1 数据来源本文选取的研究对象是四款智能手机。京东在数码产品方面具有更好的口碑,因此选用京东商城作为数据获取平台。运用了Python爬虫技术在京东商城上获取了这四款手机在不同店铺的共17723条有效在线评论。评论时间在 2020 年 5 月 15 日到 2021 年3月15日。2.2 智能手机主题发掘及产品需求判别根据主题一致性得分确定最佳主题数。实验结果表明,四款智能手机京东平台的在线评论最佳主题数 为 6,此
15、 时 一 致 性 得 分 最 高(Coherence Score=0.945)。通过不断调试迭代,将每个主题中词频超过30的特征词进行保留。最终得到了六个主题组为性价比组、娱乐体验组、软硬件组、外观组、物流服务组以及拍照组以及47个产品特征词。如表1所示。主题主题性价比组娱乐体验组软硬件组外观组物流服务组拍照组产品特征词产品特征词性价比、价格流畅、运行、速度、待机时间、充电、质量、音质、舒服、游戏处理器、指纹、系统、屏幕、手感、内存、耳机、质感、电池、屏幕显示、通讯颜值、好看、漂亮、外形、轻薄、颜色、包装、设计、做工速度、物流、快递、客服、售后、发货、运输、卖家、送货像素、前置、拍照、摄像头、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 在线 评论 智能手机 需求 偏好 判别 客户 细分 模型 构建 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。