文本分类综述.doc
《文本分类综述.doc》由会员分享,可在线阅读,更多相关《文本分类综述.doc(16页珍藏版)》请在咨信网上搜索。
1、(完整word版)文本分类综述山西大学研究生学位课程论文(2014 - 2015 学年 第 2 学期)学院(中心、所): 计算机与信息技术学院 专 业 名 称: 计算机应用技术 课 程 名 称: 自然语言处理技术 论 文 题 目: 文本分类综述 授课 教师(职称): 王素格(教授) 研 究 生 姓 名: 刘杰飞 年 级: 2014级 学 号: 201422403003 成 绩: 评 阅 日 期: 山西大学研究生学院2015年 6 月 2日文本分类综述摘要 文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、
2、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。 介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望 。关键词 文本分类;特征选择;分类器;中文信息处理1. 引言上世纪九十年代以来, 因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与
3、声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助 人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的 文本分类系统,
4、从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2. 文本分类技术的发展历史及现状2.1文本分类技术发展历史国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在J
5、ournal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检索上的应用。还有Salton提出利用向量空间模型(Vector Space Model,VSM)对文本进行描述等等。20世纪80年代,这一阶段主要采用传统的知识工程技术,根据专家提供的知识形成规则,手工建立分类器。这一段时期,信息检索技术逐渐成熟,为文本分类提供了许多技术支持,比如1962年H.Borko等人提出了利
6、用因子分析法进行文献的自动分类。Rocchio在1972年提出了再用户查询中不断通过用户反馈来修正类权重向量,来构成简单的线性分类器,还有Van RiJsbergen提出了信息检索的评估标准如准确率,查全率等。20世纪90年代后进入第三阶段,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预, 能适用于任何领域的学习, 使得它成为目前文本分类的主流方法。比如1
7、992年,Lewis在他的博士论文Representation and Learning in Information Retrieval中系统的介绍了文本分类系统实现方法的各个细节,并且在自己建立的数据集上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面做了大量的工作。Yang Yiming对各种特征选择算法进行了分析比较,讨论了文档频率(Document Frequency,DF)、信息增益(Informatiob Gain,IG)、互信息(Multi-information,MI)和CHI等方法,结合KNN分类器,得出IG和CHI方法分类效果相
8、对较好的结论,对后来的研究起到了重要的参考作用。新加坡的Hwee Tou NG等人研究了用Perceptron Learning的方法进行文本分类,使用了一直树状的分类结构,大大提高了准确率。1995年,Vipink基于统计理论提出了支持向量机SVM(Support Vector Machine)方法,基本思想是想找到最优的高维分类超平面。后来有人将线性核函数的支持向量机应用与文本分类,与传统的算法比较在性能上得到了很大的提高,后来也提出了AdaBoost算法框架,比较有代表性的有 Real AdaBoost,Gentle Boost,LogitBoost等。这些 Boosting 算法均己被
9、应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。2.2文本分类国内外发展现状国外在自动文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人 工提取出一组逻辑规则,作为计算机自动文本分类的依据。进入九十年代,基于统计的自动 文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。到目前为止,国外 的文本自动分类研究已经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在 邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。国外当前流行的文本分类算法有Rocchio法及其变异算
10、法、k近邻法(KNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法,这些方法在英文以及欧美语种的文本分类上有广泛的研究,并且KNN和SVm确实是英文分类的最好方法。国外对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。国内对文本分类研究比较晚,1981年,侯汉清教授首先探讨和介绍了国外文本分类的研究情况。随后,国内很多学者在这方面进行了比较深入的研究。1995 年,清华大学电子工程系的 吴军研制的汉语语料自动分类系统,以语料相关系数作为分类依据,以字频、词频及常用搭 配为补充,采用停用词表排除非特征词,进行人工指导分类。1998年,东北大学的
11、计算机系 的张月杰、姚天顺研制的新闻语料汉语文本自动分类模型,通过计算预定义类别和文本特征 项之间相关性来进行自动分类。1999年,邹涛、王继成等开发的中文技术文本分类系 统CTDS(Chinese Technical Document Classification System ) 采用了向量空间模型和基于统计的特征词提取技术,能够根据文本的具体内容将其分配到一个或多个类别。此外, 国内很多学者对中文文本分类算法也进行了深入的研究,黄萱箐等提出一种基于机器学习 的、独立于语种的文本分类模型。周水庚等在论述隐含语义索引的理论基础,研究了隐含语 义索引在中文文本处理中的应用。李荣陆等使用最大熵模
12、型对中文文本分类进行了研究。 张剑等提出一种以Word Net语言本体库为基础,建立文本的概念向量空间模型作为文本特征 向量的特征提取方法。朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提 出一种基于知识的文本分类方法。相比于英文文本分类,中文文本分类的一个重要差别在与预处理阶段,中文文本的读取首先需要分词,不同于英文文本的空格区分,从简单的查词典的方法到后来的基于统计语言模型的分词方法,中文分词技术经过多年的发展已经趋于成熟。比较有影响力的有中国科学院计算所开发的汉语词法分析系统ICTCLAS。很长一段时间由于中文文本分类的研究没有公开的数据集,使得分类算法难以比较,现在一般采用
13、北京大学建立的人民日报语料库和清华大学建立的现代汉语语料库等。一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程就可以参考英文文本分类的方法,因此当前的中文文本分类主要集中在如何利用中文文本本身的一些特征来更好的表示文本样本,国内外很多学者在基于知识和统计的两种方法上对中文文本分类进行了大量的研究,主要有基于词典的自动分类系统和基于专家系统的分类系统。这其中上海交通大学,清华大学,北京大学,东北大学,山西大学,新加坡香港的一些大学都有显著的研究成果。3. 文本分类关键技术一个完整的文本分类过程主要包括以下几部分 : 首先是预处理 , 根据采用的分类模型将文档集表示成易于计
14、算机处理的形式;对文本类别进行人工标注;对文本进行特征提取;再次是根据预处理的训练集(已预知类别的文档)学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定的目标。具体流程图如下:图1文本分类流程图3.1文本预处理文本预处理包括字符编码转换,去掉网页中导航信息、tag标记等,去掉一些低频词和停止词比如“的”“啊”“the”“a”等,另外要去掉单词前后缀,还有就是词性标注,短语识别,去除停用词,数据清洗也就是去除噪声文档或者垃圾数据还有词频的统计,这里重点介绍自然语言处理技术范畴的中文分词和文本表示。3.1.1中文分词
15、介绍由于中文语言的的特点,同一句话可能有不同的分词方式导致不同的意思,所以对文本分类首先要进行分词。目前比较成功的分词系统有北京航空航天大学的CDWS,山西大学的ABWS,采用联想回溯来解决引起组合切分歧义,正确率达到了98.6%,还有哈工大统计分词系统,北大计算语言所分词系统,复旦分词系统等等,根据有无词典切分,基于规则统计切分,现有的分词算法主要有三类分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。(1)基于字符串匹配的分词方法这种机械分词方法是按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。根据扫描方式分为
16、正向匹配和逆向匹配;按照不同长度优先匹配的情况,分为最大和最小匹配;按照是否与词性标注过程相结合,又分为单纯分词方法和分词与标注相结合的一体化方法。目前常用的有正向最大匹配算法(FMM)、逆向最大匹配算法(BMM)、还有结合前两种方法优点的双向最大匹配算法(Bi-directional MM),还有最少分词法也叫最短路径法,这是属于贪心算法的一种思想。还有一种是改进扫描方式,称为特征扫描或者标志切分,优先把一些带有明显特征的词作为断电,将原来的字符串分为较小的串再进行机械切分,从而提高准确率,还有就是将分词和词性标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中对分词结果进行
17、检验、调整,极大的提高切分准确率。(2)基于理解的分词方法基于理解的分词方法是通过让计算机模拟人对句子的理解,从而达到分词的效果,也就是在分词的同时进行句法,语义分析,利用局发信息和语义信息来进行歧义消解。这种分词方法需要大量的语言知识和信息,由于汉语语言知识的笼统,复杂性,很难将各种语言信息组织成机器可以直接读取的形式,所以目前还处于研究阶段。(3)基于统计的分词方法基于统计的分词思想在于利用字与字之间和词与词之间共同出现的概率作为分词的依据。这种方法属于无词典分词,只需要对语料库中的字组频度进行统计,定义两个字的互现信息,计算两个汉字的相邻共现概率,这种互现信息反映了汉字之间的结合关系的紧
18、密程度,当紧密程度高于某一个阈值,我们可以认为这个字组可能构成了一个词。但是这种方法的弊端在于对“这一”“我的”这些词的辨识度不高,所以实际应用中结合基本的分词词典进行分词。还有一些别的分词方法比如我校刘开瑛老师提出的串频统计和词形匹配结合的分词方法,还有许多好的分词方法,在对中文进行分词时,面临两个难题,一是进行歧义消解,还有就是对未登录词的识别。对于歧义消解目前的研究工作室基于统计方法、词性方法还有就是利用汉字独有的二元关系来处理。对于未登录词主要是进行词性标注,这方面北京大学和山西大学都做了很多工作。3.1.2文本表示介绍不同于数据库中的结构化数据,文本使用自然语言,通常是非结构化的,计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 分类 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。