中文文本分类.pptx
《中文文本分类.pptx》由会员分享,可在线阅读,更多相关《中文文本分类.pptx(62页珍藏版)》请在咨信网上搜索。
1、北京理工大学北京理工大学大数据搜索与挖掘实验室大数据搜索与挖掘实验室 吕笑吕笑 2013.10.31文本分类问题的提出文本分类问题的提出 假想图书馆的图书资料不加以分类,结果如何?随着互联网技术的飞速发展,各种电子文本数据 的数量急剧增加 信息数据量的爆炸性增长使得传统的手工处理方 法变得不切合实际文本表示文本表示文本分类的基本概念文本分类的基本概念第一部分第一部分特征选择特征选择第三部分第三部分分类器设计分类器设计第四部分第四部分目目 录录分类器评价分类器评价第五部分第五部分第二部分第二部分有意义串对分类的改进有意义串对分类的改进第六部分第六部分文本分类的基本概念文本分类的基本概念文本分类文
2、本分类(Text Categorization或Text Classification,TC)l是根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。l这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。l由于类别是事先定义好的,因此分类是有指导的(或者说是有监督的)文本分类的基本概念文本分类的基本概念分类体系一般人工构造政治、体育、军事。中美关系、恐怖事件。分类系统可以是层次结构,如yahoo!分类模式2类问题,属于或不属于(binary)多类问题,多个类别(multi-class),可拆分成2类问题一个文本可以属于多类(mul
3、ti-label)这里讲的分类主要基于内容很多分类体系:Reuters分类体系、中图分类文本分类的基本概念文本分类的基本概念冗余过滤 在数字图书馆和搜索引擎的建设中组织管理图书馆利用图书分类法来管理所收藏的图书资料 智能检索搜索引擎的构建过程中 信息过滤 “人找信息”成为“信息找人”其它应用 元数据提取、构建索引、文本过滤应用领域文本分类的基本概念文本分类的基本概念文本分类的一般过程文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别文本分类的基本概念文本分类的基本概念文本表示文本表示第一部分第一部分特征选择特征选择第三部分第三部分分类器设计分类器设计第四部分第四部分
4、目目 录录分类器评价分类器评价第五部分第五部分第二部分第二部分有意义串对分类的改进有意义串对分类的改进第六部分第六部分文本表示文本表示-中文分词中文分词中文的预处理要比英文的预处理要复杂的多,因为汉语的基元是字而不是词,中文的预处理要比英文的预处理要复杂的多,因为汉语的基元是字而不是词,句子中的词语间没有固定的分隔符(如空格),因此必需对中文文本进行句子中的词语间没有固定的分隔符(如空格),因此必需对中文文本进行词词条切分处理条切分处理。基于基于词典和规则词典和规则的方法,应用词典匹配、汉语词的方法,应用词典匹配、汉语词法、约束矩阵等知识进行分词法、约束矩阵等知识进行分词基于基于统计的方法统计
5、的方法:将汉语基于字与词的统计信息,将汉语基于字与词的统计信息,如相邻字间互信息、词频及相应贡献信息等应用于如相邻字间互信息、词频及相应贡献信息等应用于分词分词混和方法混和方法文本表示文本表示-向量空间模型向量空间模型向量空间模型(Vector Space Model,简称VSM)文档(Document):泛指一般的文献或文献中的片断(段落、句子组或句子),一般指一篇文章。项(Term):当文档的内容被简单地看成是它含有的基本语言单位(字、词、词组或短语等)所组成的集合时,这些基本的语言单位统称为项,即文档可以用项集(Term List)表示为 其中 是项,文本表示文本表示-向量空间模型向量空
6、间模型n 项的权重(Term Weight):对于含有n个项的文档 ,项常常被赋 予一定的权重,表示它们在文档中的重要程度,即 为了简化分析,可以暂不考虑 在文档中的先后顺序并要求 无异(即没有重复)这时可以把 看成一个n维的坐标系,而 为相应的坐标值,因而 被看成是n维空间中的一个向量文本表示文本表示-向量空间模型向量空间模型相似度(Similarity):当文档被表示为VSM,常用向量之间的内积来计算:或用夹角余弦值来表示:文本分类的基本概念文本分类的基本概念特征选择特征选择第一部分第一部分文本表示文本表示第三部分第三部分分类器设计分类器设计第四部分第四部分目目 录录分类器评价分类器评价第
7、五部分第五部分第二部分第二部分有意义串对分类的改进有意义串对分类的改进第六部分第六部分特征选择特征选择目的:为了提高程序的效率,提高运行速度为了提高分类精度一些通用的、各个类别都普遍存在的词汇对分类的贡献小在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大对于每一类,我们应去除那些表现力不强的词汇,筛选出针对该类的特征项集合特征选择特征选择文档频率DF 信息增益IG互信息MI 统计量(CHI-2)常用方法常用方法特征选择特征选择常用方法常用方法-文档频率文档频率DFDocument frequency,文档频率,简称DF指在训练语料中出现某词条的文档数Term的DF小于某个阈
8、值去掉(太少,没有代表性)Term的DF大于某个阈值也去掉(太多,没有区分度)特征选择特征选择常用方法常用方法-信息增益信息增益IG对于特征词条t和文档类别c,IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益,定义如下:特征选择特征选择常用方法常用方法-信息增益信息增益IG信息增益的优点在于,它考虑了词条未发生的情况,即虽然某个单词不出现也可能对判断文本类别有贡献。但在类分布和特征值分布是高度不平衡的情况下其效果就会大大降低了。特征选择特征选择常用方法常用方法-互信息互信息MI互信息(Mutual Information)在统计语言模型中被广泛使用。它是通过计算特征词条t和类别c之
9、间的相关性来完成提取的。其定义如下:特征选择特征选择常用方法常用方法-互信息互信息MI如果用A表示包含特征词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但不包含t的文档频数,N表示语料中文档的总数,t和c的互信息可由下式计算:特征选择特征选择常用方法常用方法-统计量(统计量(CHI-2)它度量特征词条t和文档类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的分布。特征词条对于某类的统计值越高,它与该类之间的相关性越大,携带的类别信息也越多。反之,统计量也是反映属性t和类别c之间的独立程度。当值为0时,属性t与类别c完全独立。特征选择特征选择常用方法常用方法
10、-统计量(统计量(CHI-2)令N表示训练语料中的文档总数,c为某一特定类别,t表示特定的词条A表示属于c类且包含t的文档频数,B表示不属于c但是包含t的文档频数C表示属于c类但是不包含t的文档频数,D是既不属于c也不包含t的文档频数.其定义为:ABCDttcc特征选择特征选择特征选择方法性能比较特征选择方法性能比较特征选择特征选择特征选择方法性能比较特征选择方法性能比较注:以上实验结果来自于Yang,Y.,Pedersen J.P.A Comparative Study on Feature Selection in Text Categorization Proceedings of th
11、e Fourteenth International Conference on Machine Learning(ICML97),1997,pp412-420.特征选择特征选择文本分类的基本概念文本分类的基本概念分类器设计分类器设计第一部分第一部分文本表示文本表示第三部分第三部分第四部分第四部分目目 录录分类器评价分类器评价第五部分第五部分第二部分第二部分有意义串对分类的改进有意义串对分类的改进第六部分第六部分分类器设计分类器设计文本分类的方法大部分来自于模式分类,基本上可以分为三大类:一种是基于统计的方法,如Nave Bayes,KNN、类中心向量、回归模型、支持向量机、最大熵模型等方法另
12、一种是基于连接的方法,即人工神经网络还有一种是基于规则的方法,如决策树、关联规则等,这些方法的主要区别在于规则获取方法 K K近邻算法近邻算法-KNN-KNN支持向量机算法支持向量机算法-SVM-SVM决策树算法决策树算法-Decision Tree神经网络算法神经网络算法-Neural Networks朴素贝叶斯算法朴素贝叶斯算法-Nave Bayes 分类器设计分类器设计常用分类器常用分类器分类器设计分类器设计K近邻算法近邻算法-KNN基本思想是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本根据这K篇文本所属的类别判定新文本所属的类别 新文本k=1,A类k=4,
13、B类k=10,c类分类器设计分类器设计K近邻算法近邻算法-KNN具体的算法步骤:根据特征项集合重新描述训练文本向量在新文本到达后,根据特征词,确定新文本的向量表示在训练文本集中选出与新文本最相似的K个文本,计算公式为:其中,K值的确定目前没有很好的方法,一般先定一个初始值,然后根据试验测试的结果调整K值,一般初始值定在几百到几千之间分类器设计分类器设计K近邻算法近邻算法-KNN在新文本的k个邻居中,依次计算每类的权重,计算公式如下:其中,为新文本的特征向量,为相似度计算公式,与上一步骤的计算公式相同,而 为类别属性函数,即如果 属于类 ,那么函数值为1,否则为0;比较每类的权重,将文本分到权重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 文本 分类
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。