基于LDA主题模型的中国国家形象研究——以越南通讯社报道为例.pdf
《基于LDA主题模型的中国国家形象研究——以越南通讯社报道为例.pdf》由会员分享,可在线阅读,更多相关《基于LDA主题模型的中国国家形象研究——以越南通讯社报道为例.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:作者简介:覃秋荣(),女,级硕士研究生,研究方向为网络与新媒体。基于 主题模型的中国国家形象研究 以越南通讯社报道为例覃秋荣(广西大学新闻与传播学院 广西南宁)摘 要:目的 意义越南通讯社作为越南官方媒体,具有一定地位,研究其如何报道中国、如何建构中国国家形象对于中国完善国际传播的形式、考量未来与越南的发展方向具有重要意义。方法 过程使用文本挖掘的研究方法,对越南通讯社官方网站 年 月至 年 月的涉华报道进行内容分析,使用 主题模型提取媒体报道的重要主题,通过主题分析揭示越南媒体报道建构的潜在中国形象,并将研究结果可视化。结果 结论从文本集中共提取到 个主题,进行主题聚类后赋予主题名
2、称并展示 个关键词。越南官方媒体塑造的中国形象既有大国崛起的“威胁”,又是经济发展的机遇,还有文化“同化”的风险。关键词:主题模型;中国国家形象;越南通讯社中图分类号:文献标识码:():(“”)“”“”:;引言国家形象作为国家软实力的重要组成部分,对一个国家在全球政治中的战略地位具有重要作用。中国国家形象的建构包含基于民族文化特性与对外话语权争夺而“自塑”的形象,也包括其他国家和民族基于对中国的现实观察和政治目的而“他塑”的形象。中国与越南有着数千年的交往史,两国毗邻而居,在历史的长河中曾是亲密无间的伙伴,也曾兵戎相向;在南海问题上发生过争端,也因中国东盟自由贸易区的开设,区域全面经济伙伴关系
3、协定的签订等有了更多互惠往来。越南在东南亚国家中具有一定影响力,作为中国的邻居、伙伴与竞争对手,对于中国国家形象的建构可能发挥积极作用,也可能发挥消极作用。越南通讯社(简称越通社)作为官方媒体,是越南民众了解信息的来源,研究其如何报道中国、如何建构中国国家形象对于中国完善国际传播的形式、考量未来与越南的发展方向具有重要意义。年 月 情报探索 第 期(总 期)()文献综述 主题模型 等人于 年提出 主题模型(),这是一种文档主题生成模型。由于包含词、主题和文档三层结构,也被称为三层贝叶斯概率模型。可以用来推测文档的主题分布,根据词语的概率分布情况推导出文章主题的概率分布情况,因此可以用于识别文本
4、数据中隐含的主题。运行 模型得到文档的主题分布后,就可以根据主题分布进行主题聚类或文本分类。采用的是词袋模型,不计词汇出现的顺序,即仅考量其在文档中是否出现。很多词语构成主题的概率分布,多个主题又构成文档的概率分布。主题模型不是单纯的词频统计,而是词语、主题与文档之间的概率统计,能够精确客观地揭示词项间的语义关联,有助于分析文本深层次的语义关系。当前研究概况 主题模型应用的科学性已经有学者在实例中进行佐证,等通 过 主 题 模 型 与 基 于 文本挖掘的方法相比较,抽取网络新闻文本中的话题内容,发现 主题识别的结果更准确。长期以来有大量学者利用 主题模型挖掘文档的潜在主题及其演化趋势,主题模型
5、已经成为一种有效且热门的方法。就传播效果研究而言,尹章池等利用包含 主题模型在内的研究计算工具获取量化数据,探讨微博上两大公益博主的传播策略,及其在不同维度内形成的传播效果。该研究所取的样本是微博博文,因此只能看到 主题模型在短文本中的应用情况。就网络舆情研究而言,李振鹏等利用 主题模型基于天涯杂谈语料库对帖子分类,探究天涯杂谈版块的网络舆情方向和网民态度。该研究虽然在网络舆情监测方面为研究者提供了良好的方向,但却缺乏一定国际视野。就国家形象研究而言,段淳林等运用 主题模型分析“一带一路”背景下的网络舆情及公众态度,得到的主题基本都是积极的反馈,表明该战略确实能够驱动国家品牌形象构建。该研究以
6、公众态度的视角分析了“一带一路”战略对于构建中国国家形象的作用,对塑造国家形象相关研究具有重要意义,但是公众的态度极大程度会受到媒体的影响,该研究没有从媒体的角度进行分析。同时,随着中国与东南亚国家的交往越来越频繁,如何向东南亚国家塑造全面立体的中国国家形象、东南亚国家如何看待中国成为研究的热点,通过内容分析的方法研究东南亚国家的涉华报道也早有先例。罗奕以东盟国家大众媒体的涉华报道为研究对象,对报道进行舆情分析,他认为这些报道虽存在偏颇,但中国国家形象传播策略的制定也可从中挖掘参考价值。该研究以东盟国家大众媒体为研究对象,虽然全面,但却缺乏针对性。东南亚各个国家之间的差异也将导致不同国家对中国
7、的看法不同。李春霞与黄敏则聚焦于越南,李春霞以越南人民报为样本分析了越南官方媒体的中国认知变迁,从榜样到伙伴、从追赶到平等,关注的政治领域从低级到高级。但是该研究重点在于越南官方媒体对中国的认知,而非其塑造的中国国家形象。黄敏用内容分析法研究了越南年轻人报报道中的中国形象,更详尽精准地分析出中国在越南民众心目中的形象。该研究虽关注到越南媒体报道中的中国形象,但是所取样本已经过于陈旧。主题建模在文本挖掘、医学、经济学、社会网络分析等领域都有着广泛的应用,但却很少有研究使用 主题模型来研究越南官方媒体的涉华报道并以此分析中国国家形象。因此,本文基于 主题模型对越南官方媒体越通社 年以来的报道内容进
8、行分析,挖掘报道潜在主题,并分析越南官方媒体试图构建的中国国家形象。研究方法本文使用文本挖掘的研究方法对媒体报道进行数据分析与可视化。首先进行数据收集,收集特定时间范围内更具权威性与相关性的媒体报道文章,创建新闻文本语料库;其次对文本进行预处理,目的在于去除冗余与无意义信息;再进行 向量化处理,以确定词语重要性;最后利用 模型提取主题与关键词,并将结果可视化。具体操作步骤如图 所示。图 数据处理流程图 年 月情报探索第 期(总 期)数据收集越通社是越南的国家通讯社。作为官方消息来源,不仅向世界传递越南的信息,也将其他国家的信息传回国内,因此本研究新闻报道数据取自越通社官方中文网站。年 月 日,
9、新年伊始,国际格局与国际关系动荡剧烈,包括中国、东盟十国在内的 个国家签署的区域全面经济伙伴关系协定正式生效,在新机遇与新挑战的背景下,媒体对于中国形象的建构也有了不同改变,因此以该事件为时间节点,选取越通社在 年 月 日至 年 月 日期间发布的报道作为研究对象。在越通社官方网站以“中国”为关键词进行检索,限定上述时间范围,共搜集到 篇新闻报道。文本预处理 噪音数据过滤在 篇报道中,有些文章的主题与中国无关,只是文中提及中国,而没有对中国进行任何实质性的讨论。为了关注与中国实质相关的新闻报道,要对收集到的新闻文本进行人工筛选,去除重复报道及不相关报道。筛选规则为:与中国相关的关键词必须在标题或
10、正文第一段中至少出现一次,并且在全文中至少出现两次。筛选过后剩余 篇报道,保存为一个文本文件供后续处理。中文分词处理在对中文文本分析前要进行中文分词处理,这是中文文本处理的基础步骤之一。采用 中的 包对报道文本进行分词,包自带词典,但是分词原理基于特定算法,无法识别一些专业名词,例如“新冠肺炎”会被拆分为“新冠”与“肺炎”两个词。为了避免受到非专业词典的影响,防止专业名词被分割,新建词典文档加入“新冠肺炎疫情”“区域全面经济伙伴关系协定”“中国东盟自贸区”“联合国海洋公约”等专业名词。停用词处理文本中的标点符号等冗余信息及语气词、副词、介词等无意义的词汇会影响文档的主题提取效率,需要将这些信息
11、删除,最佳方式就是进行停用词处理。四川大学等机构都整理了专门的停用词表,本文将四个通用停用词表加入自编程序对文本进行处理,处理过后日常用语中“在”“尚且”“人们”“得”“你”“故而”等字词将不会出现在样本中,只保留有意义的实词。文本 向量化处理利用词频逆文本频率(,)方法将进行过预处理的文本数据转换为向量。是一种进行自然语言数据处理的统计方式,指词语在一篇文章中出现的频率;指词语在整个文本语料库的全部文章中出现的频数的倒数。使用 和,可以有效评估样本单词在整个文本语料库中的重要性程度,并过滤掉常见的、不相关的词汇,同时保留影响整个文本的重要单词。预处理后的文本数据变成了零散的词语集合,每篇文章
12、经过 向量化处理会变成由 个实数表示的特征向量,筛选后留下的 篇文章向量化处理后会产生一个 的特征矩阵。主题与关键词提取将构建好的特征矩阵放入 模型中提取主题与关键词,并计算主题概率分布情况。经过数据预处理后,对预处理后的文本进行分类训练,并拟定在区间,内的整数作为候选主题数,得出不同主题数下的困惑度数值,如图 所示。图 的折线图显示,随着主题数的增加,困惑度呈现一路走低的态势,而后在主题数为 时开始上升。困惑度越低,文档归属于某一潜在主题的可能性就越高,即模型的聚类效果越好。困惑度的极小值点出现在主题数为 的模型选择上,因此主题数的数值设定为。分析过程使用 版本,并使用 工具对计算结果进行可
13、视化处理。图 折线图 研究结果主题模型的可视化结果如图 所示。七个圆各自代表七个主题,圆圈区域所占面积代表了每个主题在整个语料库中的重要性,而各个圆圈圆点间距的差异则代表主题间的差异。设置参数,与主题相关度最高的前三十个关键词会以降序形式出现在条形 年 月覃秋荣:基于 主题模型的中国国家形象研究第 期(总 期)图中,以主题 为例,最相关的关键词包含关系、交流、主席、总理、国家、领域、会见等,如图 所示。图 主题间距离图 图 主题 关键词条形图 年 月情报探索第 期(总 期)主题提取结果运行模型后得到的主题没有名称,需要结合各个主题的关键词和相应的逻辑关系进行命名。最后抽象出两国外交活动、进出口
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 LDA 主题 模型 中国 国家 形象 研究 越南 通讯社 报道
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。