基于文本融合特征的突发事件子话题聚类研究.pdf
《基于文本融合特征的突发事件子话题聚类研究.pdf》由会员分享,可在线阅读,更多相关《基于文本融合特征的突发事件子话题聚类研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷 第 期 智 能 计 算 机 与 应 用 年 月 文章编号:()中图分类号:文献标志码:基于文本融合特征的突发事件子话题聚类研究芦子涵,郑中团(上海工程技术大学 数理与统计学院,上海)摘 要:突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信息,提出一种基于 文档主题分布与 句向量融合的文本特征表示方法与文本相似度计算方法,应用 增量聚类算法实现同一突发事件下子话题聚类,并根据 值与单一文本特征子话题聚类实验结果进行对比
2、。结果表明,本文方法子话题聚类效果更佳,值为,表明该方法能够有效地表达文本特征,进而提高子话题聚类的准确度。关键词:突发事件;子话题聚类;文本特征;主题模型;模型 ,(,)【】,【】;?哈尔滨工业大学主办学术研究与应用基金项目:全国统计科学研究项目()。作者简介:芦子涵(),女,硕士研究生,主要研究方向:社会网络分析、文本挖掘;郑中团(),男,博士,副教授,主要研究方向:机器学习与数据挖掘、应用统计与综合评价、随机过程与复杂网络等。通讯作者:郑中团 :收稿日期:引 言话题检测与追踪(,)是 美 国 国 防 高 级 研 究 计 划 局(,)于 年开展的语言信息研究项目,曾在评测会议上对话题等相关
3、要素进行了定义,认为话题是由一个种子事件或活动,和全部与之直接关联的后续事件和活动构成。而在国内,曾有学者定义子话题为话题内一组相关事件的集合,是话题内所有事件集合的一个子集。近年来,突发事件时有发生。譬如 年“”东航航班坠机等事故灾难事件、年 月河北唐山打人等社会安全事件、年“”河南特大暴雨等自然灾害事件与至今仍时有发生的 年新冠肺炎疫情等公共卫生事件。与此同时,随着网民规模的扩大与社交平台的普及,像新浪微博这样传播范围广、普及率高的社交网络平台逐渐成为突发事件的曝光口。社会大众可自由地在网络平台上发表自身对突发事件的看法或评论,从而形成网络舆情。由于突发事件具有不确定性、危害性等特点,通常
4、会给社会大众带来负面的心理冲击。如若不能针对性地根据社会大众对于某一突发事件所关注的不同子话题来引导积极的舆论走向,并建立舆情治理机制,则会放大社会大众的负面情绪,引起不必要的激进言论,甚至会对政府机构造成不良影响。现有研究大多基于事件这一粒度进行话题聚类,而忽略了同一事件下不同侧面的更细粒度子话题的研究。因此,如何有效地挖掘某一事件中的潜在子话题,逐渐成为了新兴研究热点,也对舆情管控相关部门实现舆情精准化管控具有重要现实意义。本文针对以往话题聚类大多基于事件这一层次,而忽略了同一事件下更细粒度子话题的研究,且文本特征表示上缺乏上下文语义信息的缺陷,提出一种基于 文档主题分布与 句向量融合的文
5、本表示方法与文本相似度计算方法,最后通过 增量聚类算法实现同一突发事件下子话题聚类。相关研究目前,在话题挖掘领域,多以基于概率主题模型的话题发现、基于文本特征表示的话题聚类两种为主要途径与方法。概率主题模型是对文本中隐含主题的一种非监督建模方法,其认为一篇文档中的每个词都是通过以一定概率选择某个主题,并从这个主题中以一定概率选择某个词的方式得到的。早期,为解决 文本模型的缺陷,利用奇异值分解将高维共现矩阵映射到低维潜在语义空间的潜在语义分析模型(,)被提出。因 其 计 算 复 杂 度 高 且 缺 乏 概 率 基 础,在 年将 的思想引入到概率模型中,提出概率潜在语义分析模型(,)。年,等基于贝
6、叶斯思想,认为文档主题概率分布是服从狄利克雷概率分布的随机变量,提出了潜在狄利克雷模型(,)。在话题挖掘领域,主题模型也成为目前最为成熟的概率主题模型。由于概率主题模型以词袋模型为基础,通常忽略了单词与单词之间的语义信息,导致语义缺失、主题可解释性差等问题。基于此,赵林静等通过 常识知识库计算单词间的语义相似度,来调整 主题模型中的超参数,提出 模型以提高主题挖掘的精度。居亚亚等为解决 主题模型语义连贯性较差等问题,在 框架下引入 模型加入单词单词和文档单词语义相似度来引导建模,提出了 模型。闫盛枫利用词嵌入技术进行语义向量编码,以此来合并同语义信息主题词并调整主题词分布及权重,增强了主题模型
7、的语义表达性。也有学者通过优化 主题建模结果实现子话题的挖掘。如:周楠等基于 模型得到每个子话题下不同的词频分布,通过相似子话题合并、子话题更新优化主题建模结果,解决了传统方法的子话题区分度差等缺陷。夏丽华等将概率主题模型融合词共现关系,提出 方法对原始子话题进行合并与更新,解决了描述同一产品的文档十分相似,难以保证子话题差异性的问题。聚类是一种十分重要的非监督学习技术,其任务是按照某种标准或数据的内在性质及规律实现样本的聚类。在话题挖掘领域,话题聚类基于文本的特征表示或文本间的相似度,将目标文档分为若干个簇,使得每个簇内文本间的相似度尽可能高,不同簇间文本的相似度尽可能低。因而,众多研究者基
8、于文本特征表示或文本相似度进行话题发现。史剑虹等利用隐主题模型挖掘微博内容中隐含主题文档分布作为文本特征表示,并基于 聚类实现话题发现。颜端武等针对微博文本高维稀疏与上下文语义缺失等问题,以 文档主题分布特征和加权 词向量特征构建文本融合特征,并通过 聚类实现主题聚类。肖巧翔等提出一种基于 扩充文本和 主题模型的 服务聚类方法,将短文本主题建模转化为长文本主题建模,进而通过 算法更准确地实现了服务内容主题聚类。赵爱华等针对子话题间文本相似度高的特点,引入主题特征词相关性分析,提出一种改进的文本相似度计算方法,并基于 增量聚类实现新闻话题子话题挖掘。李湘东等针对 建模结果较泛化的缺陷,将 建模结
9、果主题特征词分布作为文本较粗粒度的特征,将 向量作为文本较细粒度的特征来融合表示文档,采用知网语义词典得到文本相似度,通过 聚类实现国内各地时事新闻子话题划分。综上,子话题挖掘多以 主题模型建模、主题模型建模结果优化、基于文本特征表示的话题聚类为主要方法。其中,对于评论短文本 主题模型具有文本向量高维稀疏、缺乏上下文语义信息等缺陷;改进的 主题模型以引入外部知识库来修改超参数 来引导建模,通用性低且计算复杂度高。基于文本特征表示的话题聚类多以事件为层次进行主题发现,而忽略了同一事件下更细粒度、更深层次的子话题聚类研究。基于此,本文提出一智 能 计 算 机 与 应 用 第 卷种基于 文档主题分布
10、与 句向量融合的文本特征表示方法与文本相似度计算方法,通过 增量聚类算法实现同一突发事件下子话题聚类。一方面,上述文本融合特征不仅通过 文档主题分布提取了全局主题信息,同时也通过句向量的构建提取了局部上下文语义信息以补充 主题模型语义信息的缺乏。另一方面,不同于大多话题所基于的事件层次,针对同一事件下子话题相似度高、区分度低的问题,本文给出了一种同一事件下更细粒度、更深层次的子话题聚类方法。预备知识 主题模型主题模型是一种用来发现一系列文档中隐含主题的无监督统计模型,认为一篇文档中的每个词都是以一定概率而选择某个主题,并从该主题中以一定概率而选择某个词所生成的。如图 所示,主题模型是 年被 等
11、人提出的文档主题单词的三层贝叶斯主题模型。该模型以词袋模型为基础,认为一篇文档是由词所组成的集合,而词与词之间没有语义联系与顺序。其能够将一篇文档表示为隐含主题的多项分布,即该文档属于每个主题的概率;将主题表示为词集上的多项分布,即该主题下各个词出现的概率。与其他概率主题模型不同的是,主题模型基于贝叶斯思想,认为文档主题分布 的先验分布为 分布,即()。主题词分布 的先验分布为 分布,即 ()。D i r i c h l e t先验向量主题一词概率分布求解目标文档-主题概率分布D i r i c h l e t先验向量DNKkdWd,nZd,n图 主题模型 在 主题模型中,通常使用 采样算法来
12、进行求解。,作为已知的先验输入,目标是得到各个,、,对应的整体文档主题分布与主题词分布。模型为表达整条文本评论或整篇文档的特征,常将由 得到的词向量进行向量拼接,此方法导致信息损失较大,得到的新向量不能涵盖丰富语义信息内容;或将由 得到的词向量进行平均求和,但此方法未考虑到词与词之间的语序信息,一定程度上忽略了文本上下文语义信息。等 人在 的 基 础 上 提 出 了 模 型,以 期 构 建 文 档 的 向 量 化 表 示。模型本质上一个具有输入层、隐藏层、输出层的三层神经网络结构,其包含()与 两种学习模型。模型根据所输入的目标词上下文单词的 向量表示来输出对目标词的预测,而 则是输入当前词来
13、预测上下文词。与 不同的是,模型在训练过程中增加了段落向量 ,进而可以结合上下文词训练文本,从而得到句向量和文本向量。在 模型中,段落向量与单词一样首先将被映射成一个句向量 ,其次将段落向量与上下文词语所映射成的向量累加或拼接起来,作为输出层的输入。由于 在同一个文档的每一次训练中是共享的,因此随着文档每次滑动窗口取上下文单词训练的过程中,作为输入层向量的一部分每次都将被训练,向量所储存的段落信息将会越来越准确。模型同样包含()与()两种学习模型。本文拟采用 模型,如图 所示。模型根据所输入目标词的上下文单词来预测目标词,而 则是输入当前词来预测上下文词。Wn-2Wn-1Wn+1Wn+2Wn预
14、测向量相加求平均/向量拼接词向量P a r a g r a p h i d词向量图 模型 基于文本主题与语义融合特征的子话题聚类 思路与流程本文针对同一突发事件下子话题具有相似度高而区分度低的特点,同时考虑到 主题模型以词袋模型为基础,其构建的单一主题特征常忽略文本第 期芦子涵,等:基于文本融合特征的突发事件子话题聚类研究语义信息的问题,重点构建基于文本主题特征与文本语义特征的文本融合特征向量,并对上述两种不同特征的文本相似度进行线性结合,从而通过 增量聚类实现突发事件下子话题聚类。首先,以新浪微博平台为数据来源,爬取突发事件评论文本构建语料库,并对数据进行清洗、分词、去停用词等预处理;其次,
15、在全局主题层面通过 主题模型提取文档主题分布以表达文本主题特征,在局部语义层面通过 模型提取文档句向量以表达文本语义特征,从而构建文本融合特征;然后将基于 距离与余弦相似度线性结合计算融合特征相似度,以度量文本相似度;最后通过 增量聚类实现子话题聚类。具体流程如图 所示。单一特征S i n g l e-P a s s 聚类算法S i n g l e-P a s s 增量聚类算法聚类效果评估数据清洗人工标注文本分词去停用词评论语料库模型搭建L D A主题模型D o c 2 V e c模型文本主题特征文本语义特征特征拼接文本相似度K L 距离特征提取与文本相似度余弦相似度图 研究思路与流程 文本融
16、合特征的构建假设预处理后的突发事件评论文本语料库 ,其中 为语料库中评论文本的数目。首先,通过 主题模型提取文本主题特征。主题模型所提取的主题信息为 ,为主题个数,通常由人为自主设定,本文将采用困惑度这一指标来确定最优主题个数。本文采用 采样算法求解 主题模型,在初始时刻为每个单词随机地赋予主题,其次,对于每个文本 中的每个词,通过 采样公式获取其所对应的主题。采样公式如式()所示:,(),()其中,()表示在第个文本中第个主题词的个数,()表示第 个主题中第 个词的个数。重复上述采样过程直至 采样收敛,即可得到所有词的采样主题。通过统计每个文本 对应词的 主 题 计 数,每 个 文 本 可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 融合 特征 突发事件 话题 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。