基于多层语义融合的结构化深度文本聚类模型.pdf
《基于多层语义融合的结构化深度文本聚类模型.pdf》由会员分享,可在线阅读,更多相关《基于多层语义融合的结构化深度文本聚类模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2364-2369ISSN 10019081CODEN JYIIDUhttp:/基于多层语义融合的结构化深度文本聚类模型马胜位1,2,黄瑞章1,2*,任丽娜1,2,林川1,2(1.公共大数据国家重点实验室(贵州大学),贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)(通信作者电子邮箱)摘要:近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码
2、器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract 这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。关键词:深度文本聚类;逐层语义增强;文本
3、语义信息;图神经网络;自监督学习中图分类号:TP391.1 文献标志码:AStructured deep text clustering model based on multi-layer semantic fusionMA Shengwei1,2,HUANG Ruizhang1,2*,REN Lina1,2,LIN Chuan1,2(1.State Key Laboratory of Public Big Data(Guizhou University),Guiyang Guizhou 550025,China;2.College of Computer Science and Techn
4、ology,Guizhou University,Guiyang Guizhou 550025,China)Abstract:In recent years,due to the advantages of the structural information of Graph Neural Network(GNN)in machine learning,people have begun to combine GNN into deep text clustering.The current deep text clustering algorithm combined with GNN i
5、gnores the important role of the decoder on semantic complementation in the fusion of text semantic information,resulting in the lack of semantic information in the data generation part.In response to the above problem,a Structured Deep text Clustering Model based on multi-layer Semantic fusion(SDCM
6、S)was proposed.In this model,a GNN was utilized to integrate structural information into the decoder,the representation of text data was enhanced through layer-by-layer semantic complement,and better network parameters were obtained through triple self-supervision mechanism.Results of experiments ca
7、rried out on 5 real datasets Citeseer,Acm,Reutuers,Dblp and Abstract show that compared with the current optimal Attention-driven Graph Clustering Network(AGCN)model,SDCMS in accuracy,Normalized Mutual Information(NMI)and Average Rand Index(ARI)has increased by at most 5.853%,9.922%and 8.142%.Key wo
8、rds:deep text clustering;layer-by-layer semantic enhancement;text semantic information;graph neural network;self-supervised learning0 引言文本聚类1是一项处理无标签数据的文本分析任务,它将相似的文本数据分组到同一类簇中。传统的文本聚类算法难以处理高维的文本数据集,不能对高维文本数据集进行非线性关系的映射处理,于是,基于深度学习的文本聚类算法引起了众多学者的关注。深度文本聚类本质上可以看作是使用自动编码器(AutoEncoder,AE)预训练获取低维的特征表示以及
9、无监督学习微调的一个过程,其关键在于从数据本身提取有用的特征表示。近几年,随着图神经网络(Graph Neural Network,GNN)2在机器学习中的突出表现,人们开始将GNN与深度聚类相结合,考虑文本数据之间的结构关系,利用这种结构信息来揭示文本潜在的相似性,增强数据映射。尽管在深度文本聚类中成功融合了结构信息,但对图结构信息的使用仍然存在局限性。图结构作为样本相似信息的一种表示,目前在聚类中的应用是将结构信息融合到编码部分,未考虑结合解码部分,然而自动编码器的解码部分作为聚类生成的主要模块,仅以样本自身信息重构语义,忽略样本之间的相似信息,可能会导致在数据重构时出现编码特征被破坏、语
10、义信息丢失等问题,进一步影响聚类性能。为了在数据重构时同时考虑数据的语义信息和结构信息,在编码层和解码层进行结构信息的逐层融合是必要的。针对上述分析,本文设计了一种基于多层语义融合的结构化深度文本聚类模型(Structured Deep text Clustering Model 文章编号:1001-9081(2023)08-2364-06DOI:10.11772/j.issn.1001-9081.2022091356收稿日期:20220912;修回日期:20221013;录用日期:20221017。基金项目:国家自然科学基金资助项目(62066007)。作者简介:马胜位(1999),女,贵州
11、紫云人,硕士研究生,CCF会员,主要研究方向:自然语言处理、深度聚类;黄瑞章(1979),女,天津人,教授,博士,主要研究方向:自然语言理解、数据融合分析、文本挖掘、知识发现;任丽娜(1987),女,辽宁阜新人,讲师,博士研究生,CCF会员,主要研究方向:自然语言处理、文本挖掘、机器学习;林川(1975),男,四川自贡人,副教授,硕士,主要研究方向:文本挖掘、机器学习、大数据管理与应用。第 8 期马胜位等:基于多层语义融合的结构化深度文本聚类模型based on multi-layer Semantic fusion,SDCMS),该模型在编码层和解码层都融入图结构信息,以此来丰富语义特征的学
12、习,避免语义信息的丢失。首先,引入特征表示提取模块,通过构建自动编码器来获取文本数据本身的特征表示;其次,引入结构信息获取模块,利用图卷积网络(GCN)学习文本的图结构信息,建立一个逐层融合策略,将文本数据携带的特征信息逐层融入GCN中;最终,以GCN生成的重构信息对文本语义信息进行补充和增强。同时,本文设计了一个三重自监督模块,来指导模型参数的更新。本文的主要工作如下:1)考虑了解码层对语义补足的重要性,使用GCN模块引入数据的结构信息,将结构信息集成到解码层的特征信息中,补充语义信息,增强文本数据的表示。2)设计了一个三重自监督模块来统一自动编码器和GCN模型,使它们学习更好的数据表示,并
13、对模型进行端到端的训练,帮助更新整个网络的参数。3)在真实数据集上对模型进行验证,结果表明SDCMS的聚类性能更好。1 相关工作 本章主要介绍最相关的工作:深度聚类和使用GCN的图聚类。深度聚类方法旨在将深度表征学习与聚类目标相结合。例如,深度聚类网络(Deep Clustering Network,DCN)3将自动编码器和 k-means 算法4结合,预先训练一个自动编码器(AE),而后将优化重构损失和 k 均值损失。深度嵌入聚类(Deep Embedding for Clustering,DEC)5使用神经网络同时学习特征表示和聚类分配,学习从高维数据空间到低维特征空间的映射,并通过构造辅
14、助分布将无监督聚类转化为有监督聚 类 目 标。变 分 深 度 嵌 入(Variational Deep Embedding,VaDE)6是一个基于变分自编码器(Variational Auto-Encoder,VAE)7的非监督生成聚类方法,它使用一个高斯混合模型和一个深度神经网络来建模数据生成的过程。图是一种由若干个节点及链接两个节点的边所构成的图形,用于刻画不一样节点之间的关系,是一种非欧空间。传统的卷积神经网络仅能处理欧氏空间数据,很难应用于图数据。GNN最初是为了解决一些严格意义上的图论问题。目前最经常使用的GCN是GNN的一个分支。2013年,Bruna等8首次提出基于频域和基于空域
15、的两种图卷积神经网络分类方法。为了处理数据背后的结构信息,一些基于GCN的聚类方法得到了广泛的应用。例如,变分图自动编码器(Variational Graph Auto-Encoder,VGAE)9,使用GCN作为编码器,对图经过编码器学到节点向量表示的分布进行采样;对抗正则化变分图自动编码器(Adversarially Regularized Variational Graph Autoencoder,ARVGA)10将对抗性方法引入VGAE,使得低维的输出尽可能地保留原始图拓扑结构信息和节点特征信息;边缘图自编码器(Marginalized Graph AutoEncoder,MGAE)1
16、1是一种将边缘化过程与图形上的光谱卷积相结合的自动编码器;图协议模型(Graph Agreement Models,GAM)12引入了一个辅助模型,该模型预测两个节点共享相同标签的概率作为其特征的学习函数;深度邻居感知嵌入式节点聚类(Deep Neighbor-aware Embedded Node Clustering,DNENC)13模型侧重于属性图,以充分探索图中信息的两侧,对图数据进行聚类;结构深度聚类网络(Structural Deep Clustering Network,SDCN)14,将自动编码器和GCN结合,实现特征信息与结构信息的结合;注意力驱动的图形聚类网络(Attent
17、ion-driven Graph Clustering Network,AGCN)15提出了两个融合模块,即逐层融合模块和逐尺度融合模块,分别合并了来自同一层的GCN特征和AE特征以及来自不同层的多尺度特征。但这些模型只考虑在编码层部分进行融合,忽略了解码层的学习,使解码层不能利用图形的特征,导致语义缺失的问题。2 SDCMS设计 SDCMS总体框架如图1所示。2.1特征表示提取模块对于不同类型的数据,可以使用不同的无监督学习方法,如去噪自动编码器16、卷积自动编码器17、长短期记忆(Long Short-Term Memory,LSTM)自动编码器18和对抗式自动编码器19。为了通用性,本文
18、使用基本的自动编码器20来学习原始数据的表示。编码层学习的表示如下:H(l)e=(W(l)eH(l-1)+b(l)e)(1)其 中:是 全 连 接 层 的 激 活 函 数 ReLU(Rectified Linear Unit)21,W(l)e和b(l)e分别是编码器中第l层的权重矩阵和偏置。解码器的输出与编码器类似,公式如下:H(l)d=(W(l)dH(l-1)+b(l)d)(2)其中:W(l)d和b(l)d分别是解码器中第l层的权重矩阵和偏置;H(l-1)表示自动编码器第l-1层学到的特征表示。2.2结构信息获取模块结构信息揭示了数据样本之间潜在的相似性,利用结构信息可以有效丰富语义特征的学
19、习。本文考虑将解码层学习图1SDCMS总体框架Fig.1Overall framework of SDCMS2365第 43 卷计算机应用到的特征表示与结构信息相融合,充分利用样本数据的互补性,实现文本数据的语义增强。2.2.1图结构构建文本数据集一般包括文本数据类型和图结构数据类型两种类型。对于图结构数据类型的数据集,只需要使用它本身的图结构实验,而对于文本数据类型的数据集,本文使用KNN(K-Nearest Neighbor)将文本数据转换为图结构数据,获取其邻接矩阵A。首先利用如下公式计算文本数据之间的相似性:Sij=xTjxi(3)在计算相似矩阵后,选取每个样本的K个相似点作为其近邻,
20、构造无向k近邻图。这就可以从非图数据中得到邻接矩阵A。Aij=aij 0,eij=0,其他(4)若图中存在一条连接顶点vi与vj的边eij,则aij 0;否则为0。2.2.2逐层融合策略GCN专门用来处理图结构的数据,使用卷积的方法从图数据中提取特征,因此可以利用GCN模型来学习结构信息。通过以下卷积运算可获得GCN第l层学习的表示:Z(l)=(D-1/2AD-1/2Z(l-1)W(l-1)(5)式中:D为度矩阵,表示每个节点的度的个数;A=A+I,Dij=jAij,I是单位矩阵。为了使GCN学习到的表示包含更多有价值的信息,本文设计了一个逐层融合策略。将文本数据的特征表示逐层集成到GCN,则
21、GCN可学习表示两种不同类型的信息,即数据本身和数据之间关系的信息。对于编码层学习的表示H(l-1)e,首先让它与GCN中l-1层学习到的结构信息相结合,公式如下:Z(l-1)e=12Z(l-1)+12H(l-1)e(6)其次使用Z(l-1)e作为GCN层中第l层的输入,将结构信息集成到编码层,公式如下:Z(l)e=(D-1/2AD-1/2Z(l-1)eW(l-1)(7)将结构信息集成到解码层的步骤与上述相似,先将解码层学习的表示H(l-1)d与结构信息叠加,表示为:Z(l-1)d=12Z(l-1)+12H(l-1)d(8)再将Z(l-1)d作为解码层所对应GCN的第l层的输入,公式如下:Z(
22、l)d=(D-1/2AD-1/2Z(l-1)dW(l-1)(9)最后对原始数据进行重构,具体表示为:Z=12Z(L)d+12X(10)其中:X为自编码器的重构数据,L 表示 GCN 最后一层的层数。这样将编码层和解码层的特征表示与结构信息逐层连接起来,既加强了数据的特征映射,又丰富了语义特征的学习,有效避免了语义信息的缺失。2.3三重自监督模块自动编码器主要用于数据学习表示是无监督学习,而传统的GCN层则是半监督学习。本文定义了一个三重自监督模块来统一自动编码器和GCN两种不同的神经网络,对两种神经网络进行端到端的聚类训练。首先分别在自动编码器和GCN层使用学生t-分布22来衡量样本H(i)和
23、Z(i)与聚类中心j之间的相似性,表示为Q1和Q2,如下所示:Q1ij=()1+hi-j2v-v+12j()1+hi-j2v-v+12(11)Q2ij=()1+zi-j2v-v+12j()1+zi-j2v-v+12(12)其中:j是由k-means初始化得出,v是学生t-分布的自由度,Qij为将样本i分配给簇j的概率。使用学生t-分布可以很好地解决高维数据映射到低维数据时发生的重叠问题。学生t-分布的横轴表示距离,纵轴表示相似度,由于t-分布的拖尾效果比高斯分布强,使得高维空间中距离较大的点在低维空间中的映射也能保持一个较大的距离,即对于低相似度的点,t-分布在低维空间中的距离需要更远,从而缓
24、解重叠问题。其次,利用辅助分布Q2构造目标分布P,从高置信度任务中迭代细化聚类,公式如下:pij=Q22ij/fjjQ22ij/fj(13)其中:fj=iQij是软集群频率。使用目标分布P可以帮助自编码器层和GCN层模块学习更好的聚类表示,即数据表示更靠近聚类中心。因此使用分布P来监督分布Q1与Q2:LDNN=KL()PQ1=i jpijlnpijQ1ij(14)LGCN=KL()PQ2=i jpijlnpijQ2ij(15)此外,式(9)得到的重构数据Z不仅在文本语义上有丰富的学习,还能保持数据的局部结构。因此,本文使用最小化损失函数对整体网络进行训练,定义如下:Lres=12Ni=1Nxi
25、-xi22=12NX-Z22(16)其中:为L2范数,X为原始数据,N为样本数。Lres值越小,说明预测模型拥有更好的精确度。通过三重自监督模块,SDCMS将不同的目标集中在一个损失函数中,该模型的总体损失函数为:L=Lres+Ldnn+LGCN(17)其中:,0,是调解重构数据聚类优化的系数,是平衡原始数据聚类优化和局部结构保存的超参数,是控制图卷积网络模块对特征空间的干扰的系数。模型的整体流程如算法1所示。算法 1 基于多层语义融合的结构化深度文本聚类算法。输入 文本数据集X;邻接矩阵A;聚类个数K;最大迭代次数MaxIter;输出 文本聚类结果R。1)预训练AE模型,初始化参数W(l)e
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多层 语义 融合 结构 深度 文本 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。