基于决策级融合策略的中文网络模因图片判别方法研究.pdf
《基于决策级融合策略的中文网络模因图片判别方法研究.pdf》由会员分享,可在线阅读,更多相关《基于决策级融合策略的中文网络模因图片判别方法研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、Vol.32No.2JournalofMUC(NaturalISeiencesEdition)第2 期第3 2 卷May,20232023年5月中央民族大学学报(自然科学版)基于决策级融合策略的中文网络模因图片判别方法研究南鹏2,群诺2,温瑶,尼玛扎西1,2(1.西藏大学信息科学技术学院,西藏拉萨8 50 0 0 0;2.西藏信息化省部共建协同创新中心,西藏拉萨8 50 0 0 0)摘要:网络模因的分类问题因其独特的研究价值和意义,已成为一个重要的多模态研究任务。在实际应用中,判断网络中的图片是否为网络模因图片是后续网络模因各种分类任务重要的前置任务。该文以中文文本为语言背景,构建了一个包含2
2、 0 0 0 0 张模因或非模因图片的网络图片数据集。在此基础上,分别使用多种单模态和多模态的方法对该数据集进行分类实验,其中基于TextRCNN+ResNet50网络的决策级融合方法的F1分数达到了0.9 6。实验充分验证了深度学习方法特别是决策级融合的多模态方法能够有效地对中文语言环境的网络图片进行模因和非模因的分类,也为网络模因各种后续任务的研究提供了有力的支撑。关键词:网络模因;文本图像多模态分类;决策级融合策略中图分类号:TP391文献标识码:A文章编号:10 0 5-8 0 36(2 0 2 3)0 2-0 0 2 4-0 7“模因”一词翻译自英文单词“meme”,该词最早可溯源到
3、Dawkins的作品The Selfish Gene 】,用于表示类似于基因一样不断传播、变异的文化单位。在各种社交网络平台上,互联网用户发现单纯的文字不足以表达其丰富的情感和观点,于是创造出来附带文本的图片表达方式,如图1右半部分所示。这种表达形式在英文中被称为“internet meme”,翻译成中文为“网络模因”,类似于中文俗称中“表情包”的概念。一般来说,网络模因的图片素材来自影视形象、公众人物、有时候也是互联网用户自制的形象,图片中的文本则多由创作者自行添加。这种表达方式能够更幽默、贴切、自由地传达使用者的情感和观点,因此迅速传播开来,得到互联网大众特别是年轻互联网使用群体的喜爱。在
4、当下的互联网环境中,网络模因承载了大量有用的舆情信息,这使得网络模因的相关研究受到越来越多的关注。然而,互联网上充斥着大量的图片,有的图片属于网络模因图片而有的并不属于(图1左半部分),许多非模因图片的样式和模因图片有着非常高的相似性。因此,在实际的研究和应用中,进行网络模因研究的一个重要的先行步骤就是准确的识别和判断互联网上传播的图片是否为网络模因图片。本文构建了总量达2 0 0 0 0 张的收集自中文网络环境的各类网络图片的数据集,并使用了文本和图像单模态的分类模型以及决策级融合方法的多模态分类模型分别对数据集进行了分类实验,获得了较好的实验结果,初步验证了使用深度学习方法对中文环境中的网
5、络模因图片和非网络模因图片进行分类研究的可行性。收稿日期:2 0 2 2-10-2 6基金项目:西藏大学珠峰学科建设计划项目(zf22002001);西藏大学研究生高水平人才培养计划项目(2 0 0-GSP-S172)作者简介:南鹏(19 9 3-),男(汉族),山西吕梁人,西藏大学信息科学技术学院在读硕士研究生,主要研究方向:舆情分析与网络安全。通讯作者:群诺(19 7 2-),男(藏族),西藏拉萨人,西藏大学信息科学技术学院教授,主要研究方向:自然语言处理。南鹏等:基于决策级融合策略的中文网络模因图片判别方法研究25第2 期中文网络模因图片如果丑能当饭吃你前创掌死13亿人你算哪根葱?启防文
6、化用品志小可爱你在购非模因网络图片雨女无狐瓜我能有什么办法开心到飞起图1网络图片示例Fig.1Examples of internetpictures1研究背景网络模因的分类研究是一个相对较新的多模态研究领域。早在2 0 17 年,French尝试结合图像和文本信息来确定网络模因图片的含义 2 。2 0 18 年,Amalia等人使用朴素贝叶斯算法创建了一个模因情感分析系统 3。2 0 19 年,Sabat等人使用BERT和VGG16建立了一个多模态系统来区分仇恨和非仇恨模因 4。2 0 2 0 年,Facebook的AI团队发起了一项仇恨网络模因分类挑战,旨在使用机器学习方法解决日益严重的网
7、络模因被用于互联网上传播仇恨的问题 5。同年,为了更好地理解网络模因的情感,国际语义评测大赛发布了一项对网络模因情感进行分类的比赛 6 。自此网络模因的各种分类任务进入研究者们的视野,迅速成为一个重要的多模态研究领域当前网络模因的研究方向主要包含模因的情感分类、模因的有害和无害分类等。然而,把网络图片分类为模因图片和非模因图片的研究所受到的关注相对较少。2 0 2 0,Perez-Martin等人以西班牙语为语言背景,构建了一个包含网络模因图片的网络图片数据集,并在该数据集上使用SVM和ResNet的实验方法取得了0.7 3的F1分数 7 。同年,Sharma等人使用了典型相关性分析方法(CC
8、A)研究了英文环境中的模因和非模因图片中文本信息和图像信息之间的相关性,发现模因图片的文本信息和图像信息的特征相关性较小,而非模因图片的文本信息和图像信息之间的特征相关性较大,该作者利用此方法在其自建的数据集上进行的实验达到了0.9 9 的F1分数值 8 。Beskow等人使用LSTM+Resnet18的网络模型,除使用文本和图像信息外,还结合了人脸编码信息,在其构建的包含英语、法语等多语言的网络图片数据集上获得了约0.9 6 的准确率 9 2数据集数据集自微信、微博、豆瓣等中文社交网络平台收集而来,包含了各种网络常见的图片类型,当然也包含了大量的中文网络模因图片。为了提高网络模型训练的鲁棒性
9、,我们侧重收集了和网络模因图片类似的同时具有文本信息和图像信息的网络图片。尽管我们需要构建的数据集是中文数据集,但是在中文网络社群中,英文也被较为广泛地使用,所以在收集数据集时并没有刻意回避包含英文文本的网络图片。另外,因为动态图目前不在我们的研究范围之内,所以我们在收集数据集的时候过滤了动态图。通过收集和筛选,我们最终整理出一个包含2 0 0 0 0 张网络图片的数据集,并且进一步把数据集按照6:2:2 的比例划分为训练集、验证集和测试集,数据集的详细情况如表1所示。图第3 2 卷中央民族大学学报(自然科学版)26表1数据集的详细情况Tab.1Details of dataset网络图片类型
10、网络模因图片非模因图片合计训练集4200780012.000验证集1 4002.6004000测试集1 4002.6004000合计70001300020000另外,我们选用了百度的PaddlePaddle平台经过预训练的OCR(光学字符识别)工具来对数据集图像中的文本信息进行了提取。这款工具检测和识别中英文文本的准确率非常高,效果也非常好。3模型3.1文本分类模型3.1.1FastTextFastText是一个相对简单而高效的模型,该模型只包含输人层、隐含层和输出层。输人是由n-gram特征经向量表示的单词,隐含层对多个词向量叠加平均得到文档向量,输出使用文档向量做Softmax进行分类 1
11、0 。其模型结构如图2 所示。3.1.2DPCNNDPCNN使用向量拼接作为模型输入,先通过一维卷积操作得到区域嵌人(Regionembedding),然后对其进行两次等长卷积操作,再将等长卷积操作后得到的结果与区域嵌人结果相加,接着进行1/2 的池化,最后通过Softmax得到最终的输出。该模型通过加深网络有效地获取句子的全局语义信息。其模型结构如图3所示,outputhidden不不不不x2XN-1XN图2FastText模型结构Fig.2FastTextmodel structure3.1.3TextRCNNPooling3.conv.2503conv.250Pooling,/23.co
12、nv.2503.conv.250Region embedding图3DPCNN模型结构Fig.3DPCNNmodel structureTextRCNN模型首先将词进行词向量编码,再利用前向和后向RNN得到每个词的前向和后向上下文的表示,这种结构可以抓到词汇更多的上下文信息是本模型的关键。该文在实现的时候使用了相似的LSTM结构,然后将向量拼接得到词的表示,通过全连接层及经过最大池化层,最后Softmax作为激活函数得到输出 12 。其模型结构如图4所示。3.2图像分类模型3.2.1AlexNetAlexNet网络结构包含5个卷积层、3个池化层、3个全连接层。经过第一个卷积层进行卷积计算来提取
13、特征,经过33的最大池化层后输人到第二个卷积层,再经过最大池化层后,对其进行连续三次的卷积计算,接下来再经过最大池化和三个连续的全连接层计算得到最终的分类输出 13。其模型结构如图5所示。南鹏等:基于决策级融合策略的中文网络模因图片判别方法研究第2 期27SofmaxFullyConnectedLayerMaxPoolingConvolutionConcatenateForwardRNNBackward RNNEmbeddingw,w.w.,wa,w,w,waw,w,ww,w.图4TextRCNN模型结构Fig.4TextRCNNmodel structure3.2.2ShuffleNet如图
14、6 所示,ShuffleNet模型的关键为虚线框中的通道混洗(Ch a n n e l Sh u f f l e)操作,即对分组卷积(group convolution)之后的特征图进行“重组”,这样可以保证采用的分组卷积的输入来自不同的组,因此信息可以在不同组之间流转即通过通道混合来增加信息交流【143.2.3ResNet50ResNet50网络模型的结构主要由残差学习块堆叠组成。残差学习块的局部结构如图7 左侧所示,每一个残差块都可以看作函数=f(x)+x,其中x表示输人向量,y表示输出向量。这样的结构可以有效地抑制信息传播过程中由于信息丢失导致FC:1000FC.4906/ReLU工FC
15、.4006/ReLUMaxPool3382Co0v3x391,384/RoLUComV3x3s1,384/ReLUConv3x3e1,384/ReLUMaxPool3x3e2Local Response NormConv56s1,256/RoLUMaxPool3x382工LocalResponee NormmConv11x1184,96/PoLU图5AlexNet模型结构Fig.5AlexNetmodel structureInputGConv1FeatureChannelShufleGConv2Output图6ShuffleNet模型结构Fig.6ShuffleNet model struc
16、ture梯度消失或爆炸的问题。激活函数使用ReLU函数。结构后面的全连接层包括平均池化层和生成最终输出的Softmax 15。整体的网络结构表现为一个深度为50 层的卷积神经网络,其结构如图7 所示。Input业7x7.64,stride23x3,maxpool,stride2X11,6411.64Lrelu()33,6433.643Lrelu11,25611,256reluy=f(x)+x11,12833,128411,51211.25633.256x611.1024业11,51233,512311.2048Average Pool业Softmax图7ResNet50模型结构Fig.7Res
17、Net50model structure网络图片图像分类模型OCR决策级融合策略Output文本信息文本分类模型图8多模态决策级融合模型结构Fig.8Multimodal decision level fusion model structure2500网络模因12951052000数据标签1500非网络模因100052500网络模因非网络模因预测结果图9TextRCNN+ResNet50实验结果混淆矩阵Fig.9confusion matrix TextRCNN+ResNet50 experimental result第3 2 卷中央民族大学学报(自然科学版)283.3决策级融合模型整体的多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 决策 融合 策略 中文 网络 图片 判别 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。