分享
分销 收藏 举报 申诉 / 41
播放页_导航下方通栏广告

类型基于微博情感分析的分词方法的研究--毕业论文.doc

  • 上传人:可****
  • 文档编号:2513718
  • 上传时间:2024-05-31
  • 格式:DOC
  • 页数:41
  • 大小:2.94MB
  • 下载积分:10 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    基于 情感 分析 分词 方法 研究 毕业论文
    资源描述:
    本科学生毕业设计 基于微博情感分析的分词方法的研究 系部名称: 专业班级: 学生姓名: 指导教师: 职 称: 黑 龙 江 工 程 学 院 二○一五年六月 摘 要 数十年来,我们从几台电脑发展到家家户户存在多台电脑,从没有渠道了解实事到评论各种社会新闻、明星八卦、微博、状态、说说、朋友圈等主客观文本信息。微博,我个人认为是迷你日志,也就是公共可观赏的概括日记。是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。微博共享和交流的信息,其更在意的是时刻和自变量。这里的情感分析也叫做态度的提取,都指的是将训练数据中的情感、意见、爱恨提取出来。主观的训练数据 (也就是语义态度) 在中国其研究情绪十分高涨,倾向于探究文本中包涵的情感是主观还是客观,褒义还是贬义的特点。 本文认为,微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。所以本文提出了一个以几种分词方法为主要的微博情感分析研究,选择bi-gram、斯坦福、中科院、哈工大作为微博的特征,以逻辑回归的模型作为此系统的机器学习机制,利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型。这系统执行后,得出结论:总体来说,斯坦福中文分词,中科院中文分词,哈工大中文分词都是非常值得我们提倡的分词工具,但由于微博语言是一种非严肃的迷你日志,存在误导如表情符号、错别字等,这三种分词工具在微博语料上的分词效果并不理想,而n-gram分词在形势上对微博语料的分词更有效。 由于评测时间比较仓促,在评测过程中也出现了一些错误,经过和参加单位的不断讨论,也进行了及时的修正;同时,对于评测方法的制定、评测指标的选择、人工标注的质量等都存在值得商榷的地方,需要进一步分析和完善。 关键词:微博;情感分析;中文分词方法; 逻辑回归 ABSTRACT For decades, we have developed from several computers to families exist multiple computers, and channels to understand the practical work to no comments from all kinds of mini log, also is the generalization of the public can see the diary. Is a kind of dating to send any time anywhere mini life state of dynamic web pages.Weibo sharing and communication of information, it is more concerned moment and the independent variables.The extraction of sentiment analysis also called attitude here, is refers to the training data are extracted from the feelings, opinions, love and hate.he subjective training data (that is, the semantic attitude) sentiment is running high in China, its research, tend to explore the inclusion in the text of the emotional it is subjective or objective, the characteristics of good or derogatory. Think, weibo emotion tendentiousness and the strength of the segmentation method, used by praise or blame righteousness, such as the strength of the subjective and objective factors.So this paper puts forward a word segmentation methods as the main weibo emotional analysis, choose the bi - "gramm, Stanford, the Chinese academy of sciences, Harbin institute of technology as a feature of weibo in a logistic regression model as a machine learning mechanism in the system, using the annotation is given priority to, objective weibo training data to obtain the subjective and objective analysis model based on logistic regression models.Carried out with this system, draw the conclusion: in general, the Stanford Chinese word segmentation, Chinese word segmentation of Chinese academy of sciences, Harbin institute of technology in Chinese word segmentation is a very worthy of we advocate segmentation tool, but as a result of weibo language is a kind of serious mini log, misleading as emoticons, wrong character, etc., the three segmentation tools on weibo corpus segmentation effect is not ideal, and n - "gramm participle in the situation to the microblogging corpus segmentation is more effective. Because evaluation time is hasty, there have been some mistakes in the evaluation process, through the constant discussion, and to participate in the unit.Also conducted a timely correction;At the same time, for the formulation of evaluation methods, the choice of evaluation indexes, the quality of the manual annotation.Where there is questionable, need further analysis and improvement. Keywords: Weibo;Sentiment analysis;Chinese word segmentation method;Logistic regression 目 录 第一章 绪论 1.1课题的背景 1.2国内外分词研究的现状 1.3本文讨论的情况(情感分析上的应用) 第二章 几种常用分词方法 2.1 工大分词 2.2 中科院分词 2.3 斯坦福分词 2.4 n-gram分词 第三章 常用的分类器 3.1 LR 3.2 SVM 3.2.1 SVM概述 3.2.2 线性SVM方法 3.2.3 非线性SVM方法 3.2.4 核函数 3.2.5 lib-SVM(仿真平台) 3.3  比较分析 第四章 分词方法的比较分析 4.1 实验数据 4.2 实验设计 4.3 评价指标 4.4 实验结果比较 第五章 结论与展望 致谢 参考文献 第一章 绪论 1.1课题的背景 数十年来,我们从几台电脑发展到家家户户存在多台电脑,从没有渠道了解实事到评论各种社会新闻、明星八卦、微博、状态、说说、朋友圈等主客观文本信息。这些主客观文本信息包括有显性的、隐性的的情感文字,其具有价值去想、过滤、探究、推导,并且在网络商店(比如淘宝、天猫、唯品会、京东等)反馈、社会工作监督、个人生活空间等等方面有着很好的道路。 当人们面对成百上千条微博判断其情感时,会怎么办呢?是不是既头疼又效率不高?那么接下来我将针对成百上千的文本用情感分析来评价是主观的还是客观的,是褒义的还是贬义的。自二十一世纪以来,情感分析是一个值得探讨的事情,需要不断探究其未来的走向。 那么什么是微博呢?微博最开始的创始是美国twitter。我个人认为是迷你日志,也就是公共可观赏的概括日记。是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。微博是一个靠朋友、同事、同学关系的发表信息以及提取信息的环境。使用者可以通过万维网、无线应用协议等各种客户端建立个人主页,发表以包括标点符号的140的文字刷新信息,并随时随地呈现给广大群众。微博的关注种类可分为两种:(1)single acting;(2)two-way。 微博共享和交流的信息,其更在意的是时刻和自变量。自博客出现以来,更在于总结作者自己在一个时间段上的当时的感觉、画面、心情、景色等等。所以微博是博客的缩影。 其中在2014年3月27日晚上,在中国微博这个行业上独领风骚的新浪微博宣布对其更名为“微博”,同时新浪微博还创造了其标志,就在一瞬间,“新浪微博”这个短语被老百姓所忘记,而“微博”越来越被中国人熟知。其实,微博包括:(1)、新浪微博(2)、腾讯微博(3)、网易微博(4)、搜狐微博等等。一般来说,微博默认为新浪微博。 这里的情感分析也叫做态度的提取,都指的是将训练数据中的情感、意见、爱恨提取出来。 主观的训练数据 (也就是语义态度) 在中国其研究情绪十分高涨,倾向于探究文本中包涵的情感是主观还是客观,褒义还是贬义的特点。这让我们很清楚的知道被测文本的语义信息, 克服了杂乱无章等各种乱七八糟的情况,比较适合学生、刚刚步入社会的这些人看,所以情感分析也成为我们管理信息、文本的一个很主要的渠道。腾讯微博、新浪微博、朋友圈、QQ空间说说、校内网等等这些交朋友软件已成为各年龄段发表生活状态、情感、心情的第一选择,所用的人他们自己关注的朋友、同学、亲属、同事等,他们关注的朋友、同学、亲属、同事连接起来,也就是说在这个世界上,从世界上抽取两个人,两个人之间或多或少地存在着一种潜在关系,也就是说最多连到六个人,这样的影响力我就不必多说了。情感分析主要应用于春晚吐槽、广告推销、社会工作监控、数据调查等等工作。 1.2国内外分词研究的现状 我们用的腾讯微博、新浪微博、朋友圈、QQ空间说说等等这些都是靠交朋友网络相互关注、点赞才这么火的。它们不需要太冗长,都是短小精悍的,什么时间发生了什么事情,我们这些小伙伴在另一端就会知道,并且所描述的生活范围广泛,没有某一个焦距点,是发散性的。以前的情感分析是比较严肃,是书面语,没有错别字,冗长,提取出重要信息容易得多。分析起来第一步考虑主客观,第二步考虑褒贬义。但是现在的微博生活状态基本短小,大约一百字左右,而且网络语言较多,表情,特殊符号等等这样的因素干预了我们的判断,从而情感分析技术比之前的分析要坚难、复杂得多。相对于中文情感分析的研究比较,世界各国人倾向于对英文情感分析的研究,因为英文简单易懂,更倾向于对情感的释放,并且已接近饱和状态。当前人们对中文微博的研究仅仅是刚刚开始,现在还没有与中文微博情感分析方面的相关的研究报告等。本文借鉴研究者们对中文微博的研究,深入到了情感分析的层次。考虑到以前的中文情感分析,本文尤其突出中文微博自身的特征,比如说:以前的研究者们把表情、特殊字符、间接联系考虑到其微博的特色,与此同时还考虑了微博中忽略不计的重复现象,以便情感分析的过程进行的很顺利;中文微博与英文微博的情感分析任务相比,由于英文微博或多或少地一句、两句。已经有研究学者将一条微博信息作为一个整体给予了情感上极性来进行机器训练及学习测试,本文考虑到中文微博要比英文微博的语义要多出很多,所包含的句子中数目众多,且句与句之间所涉及的意思以及情绪都可能有不同,主要从微博的情绪级别及句子级别两个方面来剖析了情感上分析的效果,其实检验结果证实微博的句子级别的效果要更准确。然而对中文分词的情感分析的研究是屈指可数的。中国汉语博大精深,一个词对应多重含义,比如兴奋、愤怒、讥讽、害羞等等的方式释放自己的感情,这对中文情感分析又多了几重困难,所以最近几年,中文的情感分析、倾向性少之又少,需要我们继续钻研。 当考虑到主客观时,对于其信息的分类,有一小部分的研究人员是通过观察、阅读其文章里面的内容含有怎样的情感来判断其主观和客观的类型。举个例子,前辈研究人员们根据修饰词(包括形容词、定语、状语等等的词性)词典,标注其词性的数值进行计算,建立其对应的加权词典,从而算出情感倾向性(主观和客观)。还有一部分研究将情感文本单元的主客观分类定义为分类任务,通过构建分类器判断文本的主客观性,是主客观信息分类的主流方法。分类器和分类特征的选取是基于分类方法主客观信息分类的核心。相关研究包括Hatzivassiloglou使用词语作为特征,并利用了NB分类器,实现了微博篇章级情感文本的主客观分类。YAO从诸如符号、人称代词等一些特殊的特征角度调查了主客观文本。 对于主观信息的情感极性,一般来说,研究者们将主观性质文本的属性分为:①褒义②贬义两类。与主客观信息分类类似,基于情感知识的方法以及基于特征分类的方法是主观信息的情感极性分析的主要方法。基于情感知识的方法利用已有的情感词典获取主观文本的极性。基于特征分类的方法通过选取微博的特征,利用机器学习方法完成分类任务。韩忠明等构建了一个计算短文本情感倾向性的自动机,构建了一个情感分类器,将微博分为积极的、消极的和中立的三类。利用SVM分类器提出了一个两步的分类方法,第一呢,用主客观将微博分为两类,在以积极和消极两类分主观微博。应用K-最邻近法设计了一种有监督的分类器,许多Twitter的特有属性和习惯用法(比如标签和表情)被用作特征。采用了基于SVM的距离监督学习。刘志明等对微博情感分类进行了研究,证实利用其他三种机器学习结合的办法对微博情感分类的准确性比较高。许多在线的微博情感分析系统也随着微博的广泛应用被开发,比如Twend1,Twitter Sentiment2和TweetFeel3等。图2.1为传统微博情感分析的一般过程。 图2.1 我认为自从开始研究中文情感分析到目前为止,尚不完整,有太多的缺陷,需要我们祖国的花朵去完善。 1.3本文讨论的情况(情感分析上的应用) 对于情感倾向性的研究,常用的分析方法有两种:根据词典的语义方法和根据机器学习的方法。根据词典的语义方法通常通过计算要测试的词语和通用情感词典中的基准词的语义之间间距,判断要测试的词语的情感倾向。比如,将来自四面八方的信息收集起来组成一个整体框架,四面八方的信息主要包括该词在一般情感词典中的属性,在整个文章的情感指数,与该词的词义相同的词、相反的词等等,以及一些汉语的语法规则。另一种分析方法,根据机器学习的方法第一步是需要人工标记情感语料库,然后训练出一个模型来学习出不同类别的特征,从而预算出测试文本属于哪一类别。用于训练的特征通常包括uni-gram,bi-grams,tri-grams,词性以及词语的位置等等。情感分析的分类算法主要有监督学习和半监督学习这两种。常用的监督学习的方法包括支持向量机算法(SVM)和逻辑回归模型算法(LR)。 本文认为,微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。将微博的情感倾向性分析划分为三步,先对文本进行四种分词,再评价微博的主客观性,接着再评价微博的褒贬义。这种办法的建立是在完全信任的主客观分类成果的根基上,这将导致主客观分类的错误有意无意地传导到褒贬义的结果中。因此,本文提出了一个基于分词方法的微博情感分析的研究,选择bi-gram、斯坦福、中科院、哈工大作为微博的特征,以逻辑回归的模型作为此系统的机器学习机制,利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型,将其称为LR-SO(Logistic Regression-Subjective Objective)模型。利用标注为褒、贬义的微博训练数据,获得基于逻辑回归模型的褒贬义分析模型,将其称为LR-PN(Logistic Regression-Positive Negtive)模型,并通过两个模型的线性融合计算微博的情感倾向性强度,将其称为LR-SOPN模型,利用LR-SOPN进行微博的主客观分析,然后,借助情感词典,获得特征的先验概率,将其融入到LR-PN模型中,将该模型称为LR-PND(Logistic Regression-Positive Negtive Dictionary),据此完成微博的褒贬义倾向性分析。 本文的随后部分安排如下。第二章介绍了几种常用分词方法模式,第三章介绍了常用的分类器。其中包含机器学习的模型、特征函数以及训练方法,第四章是实验研究的设计,得出的结果,最后给出了本文的结论。 第二章 几种常用分词方法 近年来,分词方法日益崛起。是因为人们在看文章的时候,潜意识地会将文章分成几段,再将段落分成几句话。再将话语分成几个关键词。世界各国的人,那么多。分出来的部分也千奇百怪,各有各的优点,没有统一的分词方法。汉语这个语言是一个非常复杂的语言,不是所有人都会明白汉语的规则。为了避免这一尴尬的现象,人们想利用机器,能够瞬间明白汉语的语义,也省略其分段的繁琐步骤,更加能够统一其分词方法。下面粗略地介绍工大中文分词、中科院中文分词、斯坦福中文分词、n-gram算法的分词。 2.1工大中文分词 哈工大中文分词是几种分词方法之一,是由哈尔滨工业大学发明的。其主要是运用统计的方法进行分词的,先将词串的频率算出接着统计出来,词语一对一匹配出来,然后将它们结合起来。 已是 早春 , 京 州 的 主要 街道 上 , 虽然 仍 残存 着 些 积雪 , 却已 被 路人 踩踏 成灰 黑色 , 在这 即将 到来 的 温暖 中 , 逐渐 地 消融 着 。 2.2 中科院中文分词 中科院中文分词是几种分词方法之一,是由中科院大学发展的。主要运用它的字典结构进行分词的。我们要先准确地弄清楚中科院的词典以及词典的结构,我们对分词的研究更容易些,更容易把握其精髓,由于在中科院中文分词这个系统中最重要的局部就是它的字典,这样本文研究的范围广阔乃至研究的成果才更具有说服力。中科院中文分词系统中的字典有两种构造:(1)、通用的、主要的词典(2)、字与字之间、词与词之间还有内容中它们与上下文之间的关系;并且分词过程和保存过程同时进行着。 下面介绍一下怎么下载中科院中文分词java包: 第一也是接口的调用。 其次主要是说明怎么使用汉语分词系统怎么调用。需要下载中科院分词系统汉语分词系统,然后再下载支持java版的补充包,这个补充包中主要包括两个文件:(1)、NLPIR_JNI.dll文件(2)、一个DEMO,这个NLPIR_JNI.dll文件是中科院分词系统的汉语分词系统需要的Windows的环境是32位的,Java调用的应用程序界面也是NLPIR_JNI.dll文件提供的。 已 是 早春 , 京 州 的 主要 街道 上 , 虽然 仍 残存 着 些 积雪 , 却 已 被 路 人 踩踏 成 灰 黑色 , 在 这 即将 到来 的 温暖 中 , 逐渐 地 消融。 2.3 斯坦福中文分词 斯坦福中文分词也是几种分词方法之一,是斯坦福大学自然语言处理组研究出来的分词方法,自然语言处理组编译了一系列关于分词的Java代码,包括Chinese word segmentation machine,The part of speech tagging tool,Named entity recognition tool,syntactic analysis system等,也训练了英文模型,然而对于我们中国人来说,英文模型不方便(阻碍了)我们的阅读和分析自然语言的处理,所以自然语言处理组为我们训练对应的中文语言模型,也会对中文文本、文件进行处理和分析。自然语言处理组已经给我们编译了斯坦福文本处理工具接口、标注、词性、命名实体识别和句法分析器的接口等等,不过,美中不足的是在使用自然语言处理工具包(Python)的过程中没有编译出分词器的接口。鉴于我在大学期间没有学习过Python语言,学习过Java语言,所以我用代码Java语言编程来实现斯坦福中文分词。 下面介绍一下怎么下载斯坦福中文分词的java包: 第一、需要做一些准备工作。步骤如下: 第一步:当然是安装NLTK,不过这里建议check github上最新的Natural Language Processing with Python的源代码并用“python setup.py install”的方式安装这个版本。第二步:安装Java的环境,包括(1)、my eclipse(2)、JDK; 第三步:必须要下载(1)、源代码;(2)、模型文件;(3)、词典文件等。而且还要留意斯坦福分词器并不仅仅拥护中文分词,还能把阿拉伯的语言进行分词, 第二、 准备工作就绪后,我们首先考虑的是在Natural Language Processing with Python的源代码里的哪些地方来添加这个接口文件。 已是 早春 , 京 州 的 主要 街道 上 , 虽然 仍 残存 着 些 积雪 , 却 已 被 路人 踩踏 成 灰黑色 , 在 这 即将 到来 的 温暖 中 , 逐渐 地 消融 着 。 2.4 n-gram分词 n-gram分词即基于n-gram的无词典中文分词算法 一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词称为n-gram。假定一个词的呈现仅依赖于它面前出现的一个词,那么就叫它为bi-gram。假定句子U是由序列Y1,Y2,Y3,…Yn的词构成,即 P(U)=P(Y1Y2Y3…Yn)=P(Y1)P(Y2|Y1)P(Y3|Y1Y2)…P(Yn|Y1Y2…Yn-1) ≈P(Y1)P(Y2|Y1)P(Y3|Y2)…P(Yn|Yn-1) (1) 如果一个词的呈现与它前面出现的两个词有关,那么就称它为tri-gram。 在实际的操作中,最适合的就是bi-gram和tri-gram分词了,并且得出的结果也很不错。四元及四元以上的分词方法用的不多,是由于用此方法训练语料是需要更宏大的语料,而且数据严重不均匀,时间复杂度高,精确度却不能明显提高。 求解P(Yn|Y1Y2…Yn-1)的一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate)了。 即P(Yn|Y1Y2…Yn-1)= (C(Y1 Y2…Yn))/(C(Y1 Y2…Yn-1)) (2) 微博做n-gram分词处理过程:将文本分成形成长度为n的字节片断序列,是依照字节流进行的滑动窗口操作,其大小为n,n在此字节片断称为gram。n元文法按字节流进行采用长度为n的窗口切分,如:不差钱儿,切分为:不差、差钱、钱儿,这样3个2-gram。对于 n-gram分词的处理时,要去掉表情符号,和去掉停用词,所有英文都划为一个分词. 已 已是 是早 早春 春, ,京 京州 州的 的主 主要 要街 街道 道上 上, ,虽 虽然 然仍 仍残 残存 存着 着些 些积 积雪 雪, ,却 却已 已被 被路 路人 人踩 踩踏 踏成 成灰 灰黑 黑色 色, ,在 在这 这即 即将 将到 到来 来的 的温 温暖 暖中 中, ,逐 逐渐 渐地 地消 消融 融着。 第三章 常用的分类器 所谓的常用的分类器,就是机器学习的大致过程。 人们对样本进行标注,并利用计算机对标注好的样本去统计,而后总结、开掘其潜在的方式,然后预计出一个可以解释、适用于所有模式的模型,借鉴这个模型对未来能够会出现的数据进行各种各样的预计。针对分类器来说,训练集就是标注好的样本,也就是人工分好类的文本,估计模型就是训练分类器,估计就是应用训练好的分类器为新文本规定其属于哪种类型。 上述情况讲,人类可以直接分出类型是因为有某种类似的经验,计算机要怎么区分出类型呢?就要有某种经验啊。那么怎么才能用某种经验呢?当然是取得这种经验了。那么怎么获取呢?这就需要训练机器获得某种经验了,机器不能自动去学习、获得经验吧。那怎么办啊?这就需要我们人类的奇思妙想了。怎样去训练机器获得某种经验?我们人类会事先分好一些文本,我们通过程序,利用程序对机器的影响、执行力,让机器观察我们分类的规则,统计分类的数据,来预测其中的规则。训练的过程就是学习的过程。在机器学习中,模型就是规则集,模型就是机器所要获得的经验。 最近三五年期间,在机器学习的文本类法中的贝叶斯方法、支持向量机(SVM)方法、最大熵方法、压缩算法等在情感分析中代表无可替代的作用。其优点是花钱少,准确度数高,所以此方法被称为当前的最好的方法。应用机器学习的方法对于微博进行情感分析遇到三个问题是模型选择、特征抽取以及训练方法这几个方面。 从模型的角度上看,机器学习的技术可以简略分为(1)、生成模型;(2)、判别模型。在一些方面(如文本分类的方面中),分类效果相比判别模型要比生成模型更加理想,特别是训练文本特别少的情况下,这种现象更加突出。然而在生成模型方面中,Bogo系统是需要在贝叶斯模型根基之上的,在一些评测系统中作为Baseline的系统。 情感分析会引入数据压缩的(1)、Context Tree Weight(2)、Prediction by Partial Match等压缩算法。CTW和PPM是数据压缩中主要使用的动态压缩算法, 其原理是基于已经出现的数据流及预测后面所要出现的数据流,预测的越准,所需的编码也就越少,依据比特点将其进行分类。已经有研究学者们证明了判别模型的分类效果要比生成模型的分类效果要好的多。支持向量机计算量大的问题被 不严格的Relaxed Online SVM所克服用于解决情感分析的问题之中,2007年,在一些特别的评测中取得让我们欣慰的成果。 Goodman和 YIH要求使用在线的LR模型,同时也避免了 SVM、最大熵模型大量的计算,同一时间取得了比几年更好的成果。 在特征的抽取样本上,当前机器学习处理对的重点是微博的训练文本内容。对每一条微博都进行训练就是最简单也是最常用的训练方法。在实际应用中用这两种方法获得了很好的效果,可是存在两个问题,首先是意思相近的微博有可能和很多次被次训练,增添了资源的消耗。其次是会出现过多训练的问题,尤其是在特征库中,一个特征重复太多,就会有这个特征准确率的迅速降低的现象,假如已经有想当多的数据时,再进行太多的训练过程会产生不可预见的现象。可是如果用Train On Error的方法后,只有误判微博时才进行训练,这一种方法只是用于判别学习模型。如此可以减少大量训练,空间减少占用并提高速度。尽管大量训练肯定会影响此次训练的准确性,但TOE训练法能在另一个方向一直走过头,仅对误判的微博文本进行训练导致机器学习器训练数据不足,这样对准确率还是有影响。让Train On or Near Error在Train On Error 基础上加以修改,预定一个不特殊分数,当学习得分和判断阀值之差的绝对值在此分数时,就算判断正确应该进行训练这个过程。 本文采用逻辑回归模型、训练方法进行中文情感分析。下面我来介绍最常用的几种方法。 3.1逻辑回归模型(LR) 逻辑回归(LR)模型,是一种依照机器学习的模型。具有良好的性能;逻辑回归模型的时间复杂度和空间复杂度都低于SVM,更重要的是,逻辑回归模型可以很容易地以在线学习方式调整模型的参数,使模型能够适应不断演进的微博训练,因此,逻辑回归模型成为当前微博情感分析中的最流行的模型之一。 本文认为,微博的情感倾向性的强度不仅仅取决于褒贬义的强度,也取决于主观的强度。将微博的情感倾向性分析划分为二步,先评价微博的主客观性,再评价微博的褒贬义的方法建立在完全信任主客观分类结果的基础上,这招致了主客观分类的结果不是间接地传递到褒贬义的分析中。因此,本文提出了一个基于监督学习的微博情感倾向性分析方法,以逻辑回归模型作为机器学习模型,选择bi-gram作为微博的特征,利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型,将其称为LR-SO(Logistic Regression-Subjective Objective)模型。利用标注为褒、贬义的微博训练数据,获得基于逻辑回归模型的褒贬义分析模型,将其称为LR-PN(Logistic Regression-Positive Negative)模型,并通过两个模型的线性融合计算微博的情感倾向性强度,将其称为LR-SOPN模型,利用LR-SOPN进行微博的主客观分析,然后,借助情感词典,获得特征的先验概率,将其融入到LR-PN模型中,将该模型称为LR-PND(Logistic Regression-Positive Negative Dictionary),据此完成微博的褒贬义倾向性分析。 逻辑回归模型是一种判别类别的模型,在机器学习的增量学习方式下的逻辑回归模型能够很容易的调整参数,主要顾虑到具备p个独立变量的向量,设条件概率为按照观测量相对于某事情产生的概率。逻辑回归模型可表示为          (3.1.1) 上式3.1.1形式的函数称为称为逻辑函数。图3.1.2给出LR函数图象大致走向。 图 3.1.2 其中。假设含有两个名义变量,则将其变为一个sum变量。这样,有 (3.1.3)   定义不发生事件的条件概率为 (3.1.4) 那么,事件发生与事件不发生的概率之比为 (3.1.5) LR(逻辑回归)中部分代码: score=this.get_score(sum); if(score>0.5){ predict="+1"; }else{ predict="-1"; } String label=this.polarity.get(doc); if(predict.equals(label)||Math.abs((score-this.THRESHOLD))<=0.1){ if("+1".equals(label)){ for(String asen_arr:sen_arr){ if(!"".equals(asen_arr)){ double weights=this.weight.get(asen_arr)+(1-score)*1*this.RATE; this.weight.remove(asen_arr); this.weight.put(asen_arr, weights); } } }else{ for(String asen_arr:sen_arr){ if(!"".equals(asen_arr)){ double weights=this.weight.get(asen_arr)-score*1*this.RATE; this.weight.remove(asen_arr); this.weight.put(asen_arr, weights); } } } 3.2支持向量机(SVM) 3.2.1 SVM概述 二十世纪以来,统计学日益崛起,到现在已经形成了一个完整的体系。统计理论需要面临两个条件:(1)、渐进性(2)、最满意性。在VC发展之后,才开始出现支持向量机,其中它会在一些小数据内可以更好地分割数据的类型,以点到面地概括了所有的数据。 支持向量机(SVM)是一种解决小数据、非线性的数据挖掘的方法。适用于小样本数据,分成不相同的两个类别,与LR的性能不分上下。 统计学习还有神经网络等,与神经网络相比,SVM在以下性能取得优势: (1)、面对阻碍、危险时,后果承担的责任比较小,而且错误明显减少,适合机器学习; (2)、神经网络范围较狭窄,SVM覆盖了所有方面的解决方案; (3)、把一维、二维映射到N维,解决了神经网络解决不了的问题; 图3.2.1 图3.2.1中空心圆点和三角空心点分别代表两种不同的数据。支持向量机把它们准确分成了两种类型,并且SVM是一个最优分类面,是不会出任何错误的。图3.2.1中右边图比左边图的点疏松,所以右边图比左边图的结果准确些,面对阻碍、危险时,后果承担的责任也较小些。 被分类的每一个数与这个平面的距离是最大的。支持向量机包括:(1)、线性支持向量机(2)、非线性支持向量机(3)、lib-SVM仿真平台(4)、核函数。 3.2.2 线性SVM方法 设训练数据为,……,,,k=1,……,n。 存在一个分割面,使数据完全分开,sa+z=0 其中, , 这个式子需要点,满足以下两点: 计算间隔f时,必须先把s归一化, 并且要满足条件: 求解二次型规划问题: ,k=1,……,n 3.2.3 非线性SVM方法 根据线性SVM方法,我们可以把数据折射到n维空间上去,设其数据为(a)。 从以上函数可以看出来只与此向量积有关,此向量积可以通过上述函数来实现。即使维数增加,也不会改变其函数的运算复杂度。 分类后的函数为: 以上函数称为非线性的支持向量机。 3.2.4 核函数 核函数是SVM的核心部分,有的研究者提出自动选择核函数模型、参数;还有的研究者会观察适合目标的核函数,来提高适合度。核函数还分为很多个类别,主要的有三种(1)、多项式核函数;(2)、径向基核函数;(3)、sigmoid核函数; 3.2.5 lib-SVM(仿真平台) 这是一种人人都比较喜欢的SVM仿真平台,易学易用能够处理任何回归、分类等问题。 其优点多种多样,易学易用,自动选择最满意的算法。缺点输入的数据文件严格按照1,-1的格式,不能自动选择核函数。 训练指令为: svm-train [options] training_set_file [model_file] 训练数据为training_set_f
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:基于微博情感分析的分词方法的研究--毕业论文.doc
    链接地址:https://www.zixin.com.cn/doc/2513718.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork