基于LDA主题模型的电商评论数据分析.pdf
《基于LDA主题模型的电商评论数据分析.pdf》由会员分享,可在线阅读,更多相关《基于LDA主题模型的电商评论数据分析.pdf(5页珍藏版)》请在咨信网上搜索。
1、第33卷第3期2023年9月信阳农林学院学报Journal of Xinyang Agriculture and Forestry UniversityVol.33 No.3Sep.2023基于LDA主题模型的电商评论数据分析魏丽(安徽中澳科技职业学院管理系,安徽合肥2 30 0 31)摘要:以京东电商评论数据为研究对象,探讨评论数据的情感指数及关键词提取。首先,基于Scarpy框架爬取商品评论数据,分析顾客评论数据,直观地了解顾客的需求,从词云中掌握食品数据特点;其次运用LDA主题建模方法对上述数据进行情感分析,得出具体评论数据的情感系数(越接近1 越积极),了解各分数段的评论分布情况;最终
2、,分别对正、负评论数据进行LDA主题分析,分析文本中有价值的内容。关键词:LDA模型;爬虫;情感分析;SnowNLP;顾客评论数据中图分类号:TP391.1商品评论数据分析一直是国内外研究的热点,通过对顾客的评论信息进行情感分析,可以推断出他们的消费偏好、消费缘由等1,从而使商家更好地制定商品的发展策略,提升商品和服务的质量,以吸引更多的消费者购买。电商评论数据中含有大量的有用信息,这些文字评论既体现顾客购买后对于商品、客服的情感表达,也成为了顾客购物决策的参考标准。因此对于电商评论数据进行挖掘,能够估计顾客的情感倾向和卖家的管理、运营情况,更好地帮助企业改进自身产品的不足,提升服务质量,吸引
3、更多的顾客购买;同时帮助顾客根据数据分析的结果确定该产品是否符合自己的预期。1模型简介1.1SnowNLP本研究利用SnowNLP工具对食品评论的内容进行文本情感分析2 。具体思路为:分词提取特征一特征选择一分类模型一识别结果。SnowNLP情感分析是基于内置的情感系统所实现的,它将文本简单地分为积极与消极两类,输人文本评论信息即可获得返回值:这条评论是正面评论的概率(越接近于1 越积极,接近0 为消极)。其底层思想为朴素贝叶斯模型,在已知样本信息的情况下推测评论信息积极的概率,具体如公式(1)所示:(1)其中ci代表某条评论分类为积极,而w1,W 2,w,代表每条评论的样本信息(每条评论被划
4、分成n个词向量,每个词向量都有一定的积极性权重,相加可得评论的积极性得分信息)。1.2LDA主题模型LDA是一个三层贝叶斯模型3,其中每一个文档都被看做不同主题的随机混合项,而每个主题都是由单词组成的分布。在给定主题数K、文档集合数M以及词汇表V的条件下,词向量的分布由P(w,=|n=t)定义,并由矩阵(KV)表示。同样类似的的是主题的条件分布:P(z,=t l d,=d),并由9(MK)表示。语料库w和相应主题z的联合概率如公式(2)所示:(2)其中Nwlt是主题t产生词向量w的次数,Ntld是文档d中主题t产生的次数文档集合数M以及词汇表V的条件下,词向量的分布由P(w,w l z,=t)
5、定义,该模型设定词向量、主题分别为参数、的Dirichlet分收稿日期:2 0 2 3-0 1 一31基金项目:2 0 2 1 年安徽省高校优秀青年骨干人才国内访学研修项目(gxgnfx2021215)。作者简介:魏丽(1 97 8 一),女,安徽阜阳人,副教授,研究方向:电子商务、物流管理。:112:文献标识码:AP(w1,w2,.,w,Ic)P(c,)文章编号:2 0 9 5-8 9 7 8(2 0 2 3)0 3-0 1 1 2-0 5魏丽:基于LDA主题模型的电商评论数据分析布,最终由主题t生成的单词w的预测概率如公式(3)所示:Nwlt+nwP(wlt,W,z,)=N.It+其中N.
6、It是主题t产生任何单词的总次数,文档d中主题t的预测概率如公式(4)所示:N.ld+m,P(tld,w,z,)=N.Id+其中N.Id是该主题中主题的总数,最终相乘得到每个主题下生成词语的概率,即实现不同主题的关键词提取。1.3最优主题数的选取在构建LDA模型时,确定最优主题数是必不可少的L4。本研究希望用最少的迭代次数获得最优的主题数。具体的步骤如下:(1)取初始的主题数为k,并构建模型,计算各主题之间的平均余弦相似度。(2)在k的基础上增加或减少主题数,分别计算相似度。(3)重复上述步骤直至得到平均余弦相似度最低时的k值。使用LDA模型寻找到不同主题的关键词,并以词频为基础,构建任何两个
7、主题之间的向量并计算其余弦相似度,如公式(5)所示:ZA,B;cos0=Z-,(A,)*2-,(B,)2TABI余弦相似度的值越大,则表明两个主题越相似。因此当相似度最低时,各个主题的差异就最明显,也便是最优模型。2楼数据采集与处理2.1楼数据来源本研究中选取的电商评论数据全部来自京东网。由于互联网评论数据随时间变化很大,具有时效性,因此没有选择过往数据,而是从京东商品的评论页直接爬取实时数据,爬取的是坚果的热评数据,具体的步骤:打开谷歌浏览器的调试工具,发现评论数据存放于json包中,其中的“content”字段便是本研究需要提取的数据集。2.2数据词云设计将采集到的数据进行数据处理,对处理
8、后的数据进行词频统计并通过绘制词云查看分词的效果。首先对各关键词进行词频统计,并按照词频倒序排序,选择前1 0 0 个词并生成词云,食品评论数据的词云如图1所示。3情感分析本文研究的对象是电商产品的评论数据,在此部分期望实现文本数据的自动分类(依据评论信息自动划分成好评、差评),并对产品的特征、品质的优缺点进行分析,因此并不需要过于精确地计算每条评论的情感:113:(3)(4)AB(5)价格很快正品服务质力放心太品质量过年旦装信赖品牌孩子口度希望道贵饱满发货味物流下次产品物美价康划算活动性价比力购感零食挺好物优惠分量实惠品质冒下单商品回购卖家合适配赞图1 食品评论数据的词云态度里超级坚果特别感
9、二加家满意爱第33卷第3期指数。接下来将从匹配情感词、修正情感倾向、SnowNLP情感分析三部分展开阐述。3.1匹配情感词情感分析的第一步是采用词典匹配,本文使用2 0 0 7 年知网发布的“情感分析用词语集”,对于中文正面评价表中的词语,赋予初始权重1;对于负面评价表中的词语赋予权重0,同时将“便宜”“实用”“贵”“不好”等电商评论情感倾向词加入表中,构成词典集。最后将情感词表与jieba分词后的评论数据相匹配,得出初始的情感系数。3.2修正情感倾向中文文本中存在双重否定的现象,因此当否定词出现次数为奇数次时,将这条评论调整为相反的情感分类。在上述步骤的前提下,对情感值的方向进行修正并计算每
10、条评论的情感得分(0 到1 之间),为了减少负面词汇带来的误差,以0.6 为界限将所有评论数据分为正面评论、负面评论,并计算情感分析的准确度。以下是根据情感得分进行划分得到的食品数据的混淆矩阵,可知在匹配词典的情况下,食品数据的查准率为79.7%。初步观察,可以得到结论:食品数据为热评数据,其中存在大量的好评,而差评多被隐藏,导致差评数据量较少,仅占5%,使得预测的准确率降低。3.3SnowNLP情感分析基于情感词典的SnowNLP,能够很好地契合电商评论数据,其能够将文本分为两类:积极评论与消极评论,并返回情绪的概率值,越接40近于1 为积极,接近于0 为消极。其底层逻辑是朴素贝叶斯模型,在
11、30gueno已知评论样本的信息情形下,推测其为好评的概率。下面对爬取到的20食品进行情感分析。首先统计各情感指数分数段出现的频率并绘制10柱状图,食品的评论情感频率图如图2 所示。0.0通过初步观察,可知食品评论数据在预测中大多偏向正面,这与本文选取的数据有一定的关联:食品的热评数据中多为称赞或默认好评。其次,在上述情感分析的基础上,本文对最新的评论进行分类预测。4LDA主题建模在自然语言处理领域,主题模型是用来提取文档中抽象主题的一种数学模型5-6。人们往往使用词频统计方法如:TF一IDF(词频一逆向文档频率)判断文档的相似程度,而这种方法仅仅考虑文本的出现次数,却没有考虑到文字背后的深层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 LDA 主题 模型 评论 数据 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。