基于微博情感分析的分词方法的研究--毕业论文.doc
《基于微博情感分析的分词方法的研究--毕业论文.doc》由会员分享,可在线阅读,更多相关《基于微博情感分析的分词方法的研究--毕业论文.doc(41页珍藏版)》请在咨信网上搜索。
1、本科学生毕业设计基于微博情感分析的分词方法的研究系部名称:专业班级:学生姓名:指导教师:职 称:黑 龙 江 工 程 学 院二一五年六月摘 要 数十年来,我们从几台电脑发展到家家户户存在多台电脑,从没有渠道了解实事到评论各种社会新闻、明星八卦、微博、状态、说说、朋友圈等主客观文本信息。微博,我个人认为是迷你日志,也就是公共可观赏的概括日记。是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。微博共享和交流的信息,其更在意的是时刻和自变量。这里的情感分析也叫做态度的提取,都指的是将训练数据中的情感、意见、爱恨提取出来。主观的训练数据 (也就是语义态度) 在中国其研究情绪十分高涨,倾向于探究文
2、本中包涵的情感是主观还是客观,褒义还是贬义的特点。本文认为,微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。所以本文提出了一个以几种分词方法为主要的微博情感分析研究,选择bi-gram、斯坦福、中科院、哈工大作为微博的特征,以逻辑回归的模型作为此系统的机器学习机制,利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型。这系统执行后,得出结论:总体来说,斯坦福中文分词,中科院中文分词,哈工大中文分词都是非常值得我们提倡的分词工具,但由于微博语言是一种非严肃的迷你日志,存在误导如表情符号、错别字等,这三种分词工具在微博语料上的分词效果并不理想,而n-gram
3、分词在形势上对微博语料的分词更有效。由于评测时间比较仓促,在评测过程中也出现了一些错误,经过和参加单位的不断讨论,也进行了及时的修正;同时,对于评测方法的制定、评测指标的选择、人工标注的质量等都存在值得商榷的地方,需要进一步分析和完善。关键词:微博;情感分析;中文分词方法; 逻辑回归 ABSTRACTFor decades, we have developed from several computers to families exist multiple computers, and channels to understand the practical work to no comme
4、nts from all kinds of mini log, also is the generalization of the public can see the diary. Is a kind of dating to send any time anywhere mini life state of dynamic web pages.Weibo sharing and communication of information, it is more concerned moment and the independent variables.The extraction of s
5、entiment analysis also called attitude here, is refers to the training data are extracted from the feelings, opinions, love and hate.he subjective training data (that is, the semantic attitude) sentiment is running high in China, its research, tend to explore the inclusion in the text of the emotion
6、al it is subjective or objective, the characteristics of good or derogatory.Think, weibo emotion tendentiousness and the strength of the segmentation method, used by praise or blame righteousness, such as the strength of the subjective and objective factors.So this paper puts forward a word segmenta
7、tion methods as the main weibo emotional analysis, choose the bi - gramm, Stanford, the Chinese academy of sciences, Harbin institute of technology as a feature of weibo in a logistic regression model as a machine learning mechanism in the system, using the annotation is given priority to, objective
8、 weibo training data to obtain the subjective and objective analysis model based on logistic regression models.Carried out with this system, draw the conclusion: in general, the Stanford Chinese word segmentation, Chinese word segmentation of Chinese academy of sciences, Harbin institute of technolo
9、gy in Chinese word segmentation is a very worthy of we advocate segmentation tool, but as a result of weibo language is a kind of serious mini log, misleading as emoticons, wrong character, etc., the three segmentation tools on weibo corpus segmentation effect is not ideal, and n - gramm participle
10、in the situation to the microblogging corpus segmentation is more effective.Because evaluation time is hasty, there have been some mistakes in the evaluation process, through the constant discussion, and to participate in the unit.Also conducted a timely correction;At the same time, for the formulat
11、ion of evaluation methods, the choice of evaluation indexes, the quality of the manual annotation.Where there is questionable, need further analysis and improvement.Keywords: Weibo;Sentiment analysis;Chinese word segmentation method;Logistic regression目 录第一章 绪论1.1课题的背景1.2国内外分词研究的现状1.3本文讨论的情况(情感分析上的应
12、用)第二章 几种常用分词方法2.1 工大分词2.2 中科院分词2.3 斯坦福分词2.4 n-gram分词 第三章 常用的分类器3.1 LR3.2 SVM3.2.1 SVM概述3.2.2 线性SVM方法3.2.3 非线性SVM方法3.2.4 核函数3.2.5 lib-SVM(仿真平台)3.3 比较分析 第四章 分词方法的比较分析4.1实验数据4.2实验设计4.3 评价指标4.4实验结果比较第五章 结论与展望致谢参考文献第一章 绪论1.1课题的背景 数十年来,我们从几台电脑发展到家家户户存在多台电脑,从没有渠道了解实事到评论各种社会新闻、明星八卦、微博、状态、说说、朋友圈等主客观文本信息。这些主客
13、观文本信息包括有显性的、隐性的的情感文字,其具有价值去想、过滤、探究、推导,并且在网络商店(比如淘宝、天猫、唯品会、京东等)反馈、社会工作监督、个人生活空间等等方面有着很好的道路。 当人们面对成百上千条微博判断其情感时,会怎么办呢?是不是既头疼又效率不高?那么接下来我将针对成百上千的文本用情感分析来评价是主观的还是客观的,是褒义的还是贬义的。自二十一世纪以来,情感分析是一个值得探讨的事情,需要不断探究其未来的走向。那么什么是微博呢?微博最开始的创始是美国twitter。我个人认为是迷你日志,也就是公共可观赏的概括日记。是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。微博是一个靠朋友、
14、同事、同学关系的发表信息以及提取信息的环境。使用者可以通过万维网、无线应用协议等各种客户端建立个人主页,发表以包括标点符号的140的文字刷新信息,并随时随地呈现给广大群众。微博的关注种类可分为两种:(1)single acting;(2)two-way。微博共享和交流的信息,其更在意的是时刻和自变量。自博客出现以来,更在于总结作者自己在一个时间段上的当时的感觉、画面、心情、景色等等。所以微博是博客的缩影。其中在2014年3月27日晚上,在中国微博这个行业上独领风骚的新浪微博宣布对其更名为“微博”,同时新浪微博还创造了其标志,就在一瞬间,“新浪微博”这个短语被老百姓所忘记,而“微博”越来越被中国
15、人熟知。其实,微博包括:(1)、新浪微博(2)、腾讯微博(3)、网易微博(4)、搜狐微博等等。一般来说,微博默认为新浪微博。这里的情感分析也叫做态度的提取,都指的是将训练数据中的情感、意见、爱恨提取出来。 主观的训练数据 (也就是语义态度) 在中国其研究情绪十分高涨,倾向于探究文本中包涵的情感是主观还是客观,褒义还是贬义的特点。这让我们很清楚的知道被测文本的语义信息, 克服了杂乱无章等各种乱七八糟的情况,比较适合学生、刚刚步入社会的这些人看,所以情感分析也成为我们管理信息、文本的一个很主要的渠道。腾讯微博、新浪微博、朋友圈、QQ空间说说、校内网等等这些交朋友软件已成为各年龄段发表生活状态、情感
16、、心情的第一选择,所用的人他们自己关注的朋友、同学、亲属、同事等,他们关注的朋友、同学、亲属、同事连接起来,也就是说在这个世界上,从世界上抽取两个人,两个人之间或多或少地存在着一种潜在关系,也就是说最多连到六个人,这样的影响力我就不必多说了。情感分析主要应用于春晚吐槽、广告推销、社会工作监控、数据调查等等工作。 1.2国内外分词研究的现状我们用的腾讯微博、新浪微博、朋友圈、QQ空间说说等等这些都是靠交朋友网络相互关注、点赞才这么火的。它们不需要太冗长,都是短小精悍的,什么时间发生了什么事情,我们这些小伙伴在另一端就会知道,并且所描述的生活范围广泛,没有某一个焦距点,是发散性的。以前的情感分析是
17、比较严肃,是书面语,没有错别字,冗长,提取出重要信息容易得多。分析起来第一步考虑主客观,第二步考虑褒贬义。但是现在的微博生活状态基本短小,大约一百字左右,而且网络语言较多,表情,特殊符号等等这样的因素干预了我们的判断,从而情感分析技术比之前的分析要坚难、复杂得多。相对于中文情感分析的研究比较,世界各国人倾向于对英文情感分析的研究,因为英文简单易懂,更倾向于对情感的释放,并且已接近饱和状态。当前人们对中文微博的研究仅仅是刚刚开始,现在还没有与中文微博情感分析方面的相关的研究报告等。本文借鉴研究者们对中文微博的研究,深入到了情感分析的层次。考虑到以前的中文情感分析,本文尤其突出中文微博自身的特征,
18、比如说:以前的研究者们把表情、特殊字符、间接联系考虑到其微博的特色,与此同时还考虑了微博中忽略不计的重复现象,以便情感分析的过程进行的很顺利;中文微博与英文微博的情感分析任务相比,由于英文微博或多或少地一句、两句。已经有研究学者将一条微博信息作为一个整体给予了情感上极性来进行机器训练及学习测试,本文考虑到中文微博要比英文微博的语义要多出很多,所包含的句子中数目众多,且句与句之间所涉及的意思以及情绪都可能有不同,主要从微博的情绪级别及句子级别两个方面来剖析了情感上分析的效果,其实检验结果证实微博的句子级别的效果要更准确。然而对中文分词的情感分析的研究是屈指可数的。中国汉语博大精深,一个词对应多重
19、含义,比如兴奋、愤怒、讥讽、害羞等等的方式释放自己的感情,这对中文情感分析又多了几重困难,所以最近几年,中文的情感分析、倾向性少之又少,需要我们继续钻研。 当考虑到主客观时,对于其信息的分类,有一小部分的研究人员是通过观察、阅读其文章里面的内容含有怎样的情感来判断其主观和客观的类型。举个例子,前辈研究人员们根据修饰词(包括形容词、定语、状语等等的词性)词典,标注其词性的数值进行计算,建立其对应的加权词典,从而算出情感倾向性(主观和客观)。还有一部分研究将情感文本单元的主客观分类定义为分类任务,通过构建分类器判断文本的主客观性,是主客观信息分类的主流方法。分类器和分类特征的选取是基于分类方法主客
20、观信息分类的核心。相关研究包括Hatzivassiloglou使用词语作为特征,并利用了NB分类器,实现了微博篇章级情感文本的主客观分类。YAO从诸如符号、人称代词等一些特殊的特征角度调查了主客观文本。对于主观信息的情感极性,一般来说,研究者们将主观性质文本的属性分为:褒义贬义两类。与主客观信息分类类似,基于情感知识的方法以及基于特征分类的方法是主观信息的情感极性分析的主要方法。基于情感知识的方法利用已有的情感词典获取主观文本的极性。基于特征分类的方法通过选取微博的特征,利用机器学习方法完成分类任务。韩忠明等构建了一个计算短文本情感倾向性的自动机,构建了一个情感分类器,将微博分为积极的、消极的
21、和中立的三类。利用SVM分类器提出了一个两步的分类方法,第一呢,用主客观将微博分为两类,在以积极和消极两类分主观微博。应用K-最邻近法设计了一种有监督的分类器,许多Twitter的特有属性和习惯用法(比如标签和表情)被用作特征。采用了基于SVM的距离监督学习。刘志明等对微博情感分类进行了研究,证实利用其他三种机器学习结合的办法对微博情感分类的准确性比较高。许多在线的微博情感分析系统也随着微博的广泛应用被开发,比如Twend1,Twitter Sentiment2和TweetFeel3等。图2.1为传统微博情感分析的一般过程。 图2.1 我认为自从开始研究中文情感分析到目前为止,尚不完整,有太多
22、的缺陷,需要我们祖国的花朵去完善。1.3本文讨论的情况(情感分析上的应用) 对于情感倾向性的研究,常用的分析方法有两种:根据词典的语义方法和根据机器学习的方法。根据词典的语义方法通常通过计算要测试的词语和通用情感词典中的基准词的语义之间间距,判断要测试的词语的情感倾向。比如,将来自四面八方的信息收集起来组成一个整体框架,四面八方的信息主要包括该词在一般情感词典中的属性,在整个文章的情感指数,与该词的词义相同的词、相反的词等等,以及一些汉语的语法规则。另一种分析方法,根据机器学习的方法第一步是需要人工标记情感语料库,然后训练出一个模型来学习出不同类别的特征,从而预算出测试文本属于哪一类别。用于训
23、练的特征通常包括uni-gram,bi-grams,tri-grams,词性以及词语的位置等等。情感分析的分类算法主要有监督学习和半监督学习这两种。常用的监督学习的方法包括支持向量机算法(SVM)和逻辑回归模型算法(LR)。本文认为,微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。将微博的情感倾向性分析划分为三步,先对文本进行四种分词,再评价微博的主客观性,接着再评价微博的褒贬义。这种办法的建立是在完全信任的主客观分类成果的根基上,这将导致主客观分类的错误有意无意地传导到褒贬义的结果中。因此,本文提出了一个基于分词方法的微博情感分析的研究,选择bi-gram、斯坦福、中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 情感 分析 分词 方法 研究 毕业论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。