局部加权稀疏表示的文本分类算法研究.pdf
《局部加权稀疏表示的文本分类算法研究.pdf》由会员分享,可在线阅读,更多相关《局部加权稀疏表示的文本分类算法研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期24计算机应用信息技术与信息化局部加权稀疏表示的文本分类算法研究祝利杰1 罗迪凡2 史彦丽3ZHU Lijie LUO Difan SHI Yanli 摘要 基于稀疏表示方法的文本分类强调使用训练样本特征的全局结构对测试样本进行稀疏表示,而对文本特征的局部邻域结构和文档之间相似性缺乏考虑,导致文本分类准确率低和高耗时。为了解决上述问题,本研究以最近邻和最近特征子空间为基础,并建立局部邻域结构和距离加权机制,提出一种局部加权稀疏表示的文本分类算法,使文本语义信息表达更丰富、稀疏表示更具判别力。实验结果表明本文算法准确率高于基线算法 2.4%5%,运行速度提高 1.352.8
2、 倍。关键词 文本分类;稀疏表示;局部邻域结构;距离加权doi:10.3969/j.issn.1672-9528.2023.08.0061.暨南大学信息科学技术/网络空间安全学院 广东广州 5114362.暨南大学伯明翰大学联合学院 广东广州 5114363.吉林化工学院理学院 吉林吉林 132022 0 引言文本分类(text categorization,TC)是自然语言处理的重要技术之一,根据主题自动将(非)结构化文档分类为一个或多个预定义类别,对包含大数据信息进行组织和管理,降低搜索信息成本,在情感分析1和垃圾邮件过滤2等方面具有广泛应用。随着文本数据量迅速增长,文本数据特征维度越来越
3、大,数据结构变得更加复杂。经典分类方法,如决策树、K 近邻分类器及其变体,依赖数据统计算法和特征选择算法,使用奇异值分解和词频-逆文本频率方法生成的词向量存在高维度和高稀疏问题,不能很好地表征文本特征信息。与此不同,稀疏表示分类方法不关注任何特征选择技术,而使用单词标识来表示特征,从训练样本中自适应地选择一些相关样本对文本文档进行分类,解决文本数据高维性问题。Sainath 等人3研究稀疏表示如何用于文本分类,以及分类性能随文档词汇量大小的变化。随后,高等人4引入结构化稀疏表示分类器,提高短文本分类效率和性能。该方案虽考虑结构化稀疏表示,但忽略高维数据中被聚类对象不是针对整个空间且子空间重要程
4、度不同。因此,脱婷等人5针对短文本在某些潜在子空间比较相似,提出一种熵权约束稀疏表示分类方法,缓解短文本特征稀疏问题。以上这些算法在构建稀疏字典矩阵时未考虑训练样本到所属类别中心的相似度,忽略样本在不同类别中的重要程度及样本之间距离加权因素,分类效果仍不佳。本文提出一种局部加权稀疏表示的文本分类(local weighted-sparse representation classifi cation,LW-SRC)算 法。该算法从文本特征局部结构以及文本在不同类别的重要程度这两个重要因素分析,寻找与待分类样本最相似距离最近的样本,使模型更加关注对分类有积极影响的文本特征,提升了文本分类准确度并
5、降低计算复杂度。1 基于局部加权稀疏表示分类方法1.1 模型设计本文考虑样本特征在特定类别的属性上具有相似性,把样本之间的相关性作为一个重要的决策因素。通过结合线性回归模型,以平方误差为损失函数,将分类问题转化为损失最小化问题。其中,建立训练样本的局部邻域结构,学习一个复杂度较小且携带更多分类信息的字典矩阵。同时,构造基于 l2范数稀疏正则化目标函数避免过拟合问题,使模型更加关注对分类有积极影响的文本特征。正则化常用方法是极小化加权范数平方,通过增加与范数相关的惩罚项或附加项使iiyD和i都很小。它量化了分类器预测值与类字典矩阵 Di相关联的真实类标签 y 之间损失。本文目标函数定义为:(1)
6、式中:是待求解稀疏系数向量。0 为正则化参数,用于平衡及调整重建误差和稀疏性,其值越大越稀疏。方程(1)第一项是惩罚项,通过在目标函数引入 l2范数正则项保证目标函数求得最优解,确保模型泛化能力。局部加权 W 是块对 2023 年第 8 期25计算机应用信息技术与信息化角矩阵,用来惩罚测试样本 y 与每个训练样本之间关系,说明测试样本和训练样本相似度之间的相对度量。第二项是损失函数,保证拟合效果。1.2 局部加权稀疏表示分类算法本文利用文档之间潜在、丰富的文本特征探索文本分类,提出一种局部加权稀疏表示的文本分类算法。首先,利用预处理方法对数据初步清洗,并借助词频-逆文档频率算法6提取文本关键词
7、,计算词权重并生成初始化字典2,icDD DD=。全局字典 D 每个基向量可以看作是一个或多个语义概念,Di为 D 对应的第类样本的子字典矩阵。接着,利用文本局部邻域结构表示全局特征,为每个类字典子空间选择最能代表数据的特征。本文计算待分类样本和训练样本之间的相似度,从训练样本选择个最近邻作为缩减后字典矩阵,具体为:(2)式中:sort()是一个降序函数。表示测试样本与基于类别的字典原子内积,等价于二者余弦相似度。sim(y,Di)为排序后测试样本与字典原子相似度大小,值越大说明样本之间越相似。值得注意,k 个最近邻样本特征通过上述相似度计算方式被选择。文本特征类别相似度由 c 种类别样本相似
8、度求和再平均得到。该过程将不相关数据作为目标样本“噪声”数据,从模型中剔除。Dik由与测试样本 y 最相似的前 k 个训练样本组成。考虑到样本之间距离加权对分类产生积极影响,加权对角矩阵为:()()()22:,1,:,ikikikWdiagDyDny=(3)式 中:Dik(:,j)是 第 i 类 字 典 矩 阵 Dik第 j 列,nik(nik k 或nik m)是其列数。W 是加权范数矩阵,表示测试样本和字典原子(训练样本)之间相似性。稀疏系数求解:(1)字典矩阵TTikikikikikTTikikikikikUD DW WVD DW W=+=+(4)(2)稀疏系数(5)式中:Uik 和 V
9、ik 是计算的中间矩阵。Wik是新定义的局部加权矩阵,但对其求逆计算稀疏系数要考虑两种情况:当局部类邻域字典样本个数小于等于样本维度时,即k m,数由1ikU求解;反之,由1ikV求解。此外,本文构造基于局部加权的2范数稀疏约束目标函数,求得稀疏系数最优值。LW-SRC 算法的伪代码如下:在求解过程中,LW-SRC 算法在计算稀疏系数之前确定文本特征空间的局部邻域结构。具体而言,该算法计算测试样本与每种类别对应的训练样本之间的相似度,并选择与测试样本相似度最大的个最近邻样本进行噪声数据过滤,从而确定测试样本的局部邻域结构;其次,考虑目标样本和训练样本之间的距离,结合距离加权机制构建基于距离加权
10、的目标函数。本文利用岭回归方法求解目标函数,将测试样本分类为重构残差最小的类别。2 实验2.1 数据集本节描述四种文本数据集和实验设置。表 1 中关键词反映每个数据集的关键特征。本文将 Macro-F1、Micro-F1 和准确率作为评价指标,在锐龙3600CPU,运行内存 24 GB 的环境下进行实验。表 1 四种数据集统计数据集类别关键词训练集测试集R88150054852189TREC630005452500WebKB4150028031396SST225000779218212.2 性能和效率评估2.2.1 性能分析本文将非基于文本类别和距离加权稀疏表示算法局部稀疏表示分类(local
11、 sparse representation classifi cation,LSRC)7、类邻域字典的线性回归分类(class neighborhood dictionary-linear regression classifi cation,CND-LRC)8作为基线方法。具体结果如表 2 所示。2023 年第 8 期26计算机应用信息技术与信息化表 2 LW-SRC 与基线算法在最佳 k 值下性能比较数据集评价方法LSRCCND-LRCLW-SRCWebKBMacro-F1(k)Micro-F1(k)0.609(200)0.793(200)0.635(200)0.807(100)0.65
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 局部 加权 稀疏 表示 文本 分类 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。