分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于决策级融合策略的中文网络模因图片判别方法研究.pdf

基于决策级融合策略的中文网络模因图片判别方法研究.pdf

上传人：自信****多点

文档编号：2353057

上传时间：2024-05-28

格式：PDF

页数：7

大小：3.10MB

《基于决策级融合策略的中文网络模因图片判别方法研究.pdf》由会员分享，可在线阅读，更多相关《基于决策级融合策略的中文网络模因图片判别方法研究.pdf（7页珍藏版）》请在咨信网上搜索。

1、Vol.32No.2JournalofMUC(NaturalISeiencesEdition)第2 期第3 2 卷May,20232023年5月中央民族大学学报（自然科学版）基于决策级融合策略的中文网络模因图片判别方法研究南鹏2，群诺2，温瑶，尼玛扎西1，2（1.西藏大学信息科学技术学院，西藏拉萨8 50 0 0 0；2.西藏信息化省部共建协同创新中心，西藏拉萨8 50 0 0 0）摘要：网络模因的分类问题因其独特的研究价值和意义，已成为一个重要的多模态研究任务。在实际应用中，判断网络中的图片是否为网络模因图片是后续网络模因各种分类任务重要的前置任务。该文以中文文本为语言背景，构建了一个包含2

2、 0 0 0 0 张模因或非模因图片的网络图片数据集。在此基础上，分别使用多种单模态和多模态的方法对该数据集进行分类实验，其中基于TextRCNN+ResNet50网络的决策级融合方法的F1分数达到了0.9 6。实验充分验证了深度学习方法特别是决策级融合的多模态方法能够有效地对中文语言环境的网络图片进行模因和非模因的分类，也为网络模因各种后续任务的研究提供了有力的支撑。关键词：网络模因；文本图像多模态分类；决策级融合策略中图分类号：TP391文献标识码：A文章编号：10 0 5-8 0 36(2 0 2 3)0 2-0 0 2 4-0 7“模因”一词翻译自英文单词“meme”，该词最早可溯源到

3、Dawkins的作品The Selfish Gene 】，用于表示类似于基因一样不断传播、变异的文化单位。在各种社交网络平台上，互联网用户发现单纯的文字不足以表达其丰富的情感和观点，于是创造出来附带文本的图片表达方式，如图1右半部分所示。这种表达形式在英文中被称为“internet meme”，翻译成中文为“网络模因”,类似于中文俗称中“表情包”的概念。一般来说，网络模因的图片素材来自影视形象、公众人物、有时候也是互联网用户自制的形象，图片中的文本则多由创作者自行添加。这种表达方式能够更幽默、贴切、自由地传达使用者的情感和观点，因此迅速传播开来，得到互联网大众特别是年轻互联网使用群体的喜爱。在

4、当下的互联网环境中，网络模因承载了大量有用的舆情信息，这使得网络模因的相关研究受到越来越多的关注。然而，互联网上充斥着大量的图片，有的图片属于网络模因图片而有的并不属于（图1左半部分），许多非模因图片的样式和模因图片有着非常高的相似性。因此，在实际的研究和应用中，进行网络模因研究的一个重要的先行步骤就是准确的识别和判断互联网上传播的图片是否为网络模因图片。本文构建了总量达2 0 0 0 0 张的收集自中文网络环境的各类网络图片的数据集，并使用了文本和图像单模态的分类模型以及决策级融合方法的多模态分类模型分别对数据集进行了分类实验，获得了较好的实验结果，初步验证了使用深度学习方法对中文环境中的网

5、络模因图片和非网络模因图片进行分类研究的可行性。收稿日期：2 0 2 2-10-2 6基金项目：西藏大学珠峰学科建设计划项目（zf22002001）；西藏大学研究生高水平人才培养计划项目（2 0 0-GSP-S172)作者简介：南鹏（19 9 3-），男（汉族），山西吕梁人，西藏大学信息科学技术学院在读硕士研究生，主要研究方向：舆情分析与网络安全。通讯作者：群诺（19 7 2-），男（藏族），西藏拉萨人，西藏大学信息科学技术学院教授，主要研究方向：自然语言处理。南鹏等：基于决策级融合策略的中文网络模因图片判别方法研究25第2 期中文网络模因图片如果丑能当饭吃你前创掌死13亿人你算哪根葱？启防文

6、化用品志小可爱你在购非模因网络图片雨女无狐瓜我能有什么办法开心到飞起图1网络图片示例Fig.1Examples of internetpictures1研究背景网络模因的分类研究是一个相对较新的多模态研究领域。早在2 0 17 年，French尝试结合图像和文本信息来确定网络模因图片的含义 2 。2 0 18 年，Amalia等人使用朴素贝叶斯算法创建了一个模因情感分析系统 3。2 0 19 年,Sabat等人使用BERT和VGG16建立了一个多模态系统来区分仇恨和非仇恨模因 4。2 0 2 0 年，Facebook的AI团队发起了一项仇恨网络模因分类挑战，旨在使用机器学习方法解决日益严重的网

7、络模因被用于互联网上传播仇恨的问题 5。同年，为了更好地理解网络模因的情感，国际语义评测大赛发布了一项对网络模因情感进行分类的比赛 6 。自此网络模因的各种分类任务进入研究者们的视野，迅速成为一个重要的多模态研究领域当前网络模因的研究方向主要包含模因的情感分类、模因的有害和无害分类等。然而，把网络图片分类为模因图片和非模因图片的研究所受到的关注相对较少。2 0 2 0,Perez-Martin等人以西班牙语为语言背景，构建了一个包含网络模因图片的网络图片数据集，并在该数据集上使用SVM和ResNet的实验方法取得了0.7 3的F1分数 7 。同年,Sharma等人使用了典型相关性分析方法（CC

8、A）研究了英文环境中的模因和非模因图片中文本信息和图像信息之间的相关性，发现模因图片的文本信息和图像信息的特征相关性较小，而非模因图片的文本信息和图像信息之间的特征相关性较大，该作者利用此方法在其自建的数据集上进行的实验达到了0.9 9 的F1分数值 8 。Beskow等人使用LSTM+Resnet18的网络模型，除使用文本和图像信息外，还结合了人脸编码信息，在其构建的包含英语、法语等多语言的网络图片数据集上获得了约0.9 6 的准确率 9 2数据集数据集自微信、微博、豆瓣等中文社交网络平台收集而来，包含了各种网络常见的图片类型，当然也包含了大量的中文网络模因图片。为了提高网络模型训练的鲁棒性

9、，我们侧重收集了和网络模因图片类似的同时具有文本信息和图像信息的网络图片。尽管我们需要构建的数据集是中文数据集，但是在中文网络社群中，英文也被较为广泛地使用，所以在收集数据集时并没有刻意回避包含英文文本的网络图片。另外，因为动态图目前不在我们的研究范围之内，所以我们在收集数据集的时候过滤了动态图。通过收集和筛选，我们最终整理出一个包含2 0 0 0 0 张网络图片的数据集，并且进一步把数据集按照6：2：2 的比例划分为训练集、验证集和测试集，数据集的详细情况如表1所示。图第3 2 卷中央民族大学学报（自然科学版）26表1数据集的详细情况Tab.1Details of dataset网络图片类型

10、网络模因图片非模因图片合计训练集4200780012.000验证集1 4002.6004000测试集1 4002.6004000合计70001300020000另外，我们选用了百度的PaddlePaddle平台经过预训练的OCR（光学字符识别）工具来对数据集图像中的文本信息进行了提取。这款工具检测和识别中英文文本的准确率非常高，效果也非常好。3模型3.1文本分类模型3.1.1FastTextFastText是一个相对简单而高效的模型，该模型只包含输人层、隐含层和输出层。输人是由n-gram特征经向量表示的单词，隐含层对多个词向量叠加平均得到文档向量，输出使用文档向量做Softmax进行分类 1

11、0 。其模型结构如图2 所示。3.1.2DPCNNDPCNN使用向量拼接作为模型输入，先通过一维卷积操作得到区域嵌人（Regionembedding），然后对其进行两次等长卷积操作，再将等长卷积操作后得到的结果与区域嵌人结果相加，接着进行1/2 的池化，最后通过Softmax得到最终的输出。该模型通过加深网络有效地获取句子的全局语义信息。其模型结构如图3所示，outputhidden不不不不x2XN-1XN图2FastText模型结构Fig.2FastTextmodel structure3.1.3TextRCNNPooling3.conv.2503conv.250Pooling,/23.co

12、nv.2503.conv.250Region embedding图3DPCNN模型结构Fig.3DPCNNmodel structureTextRCNN模型首先将词进行词向量编码，再利用前向和后向RNN得到每个词的前向和后向上下文的表示，这种结构可以抓到词汇更多的上下文信息是本模型的关键。该文在实现的时候使用了相似的LSTM结构，然后将向量拼接得到词的表示，通过全连接层及经过最大池化层，最后Softmax作为激活函数得到输出 12 。其模型结构如图4所示。3.2图像分类模型3.2.1AlexNetAlexNet网络结构包含5个卷积层、3个池化层、3个全连接层。经过第一个卷积层进行卷积计算来提取

13、特征，经过33的最大池化层后输人到第二个卷积层，再经过最大池化层后，对其进行连续三次的卷积计算，接下来再经过最大池化和三个连续的全连接层计算得到最终的分类输出 13。其模型结构如图5所示。南鹏等：基于决策级融合策略的中文网络模因图片判别方法研究第2 期27SofmaxFullyConnectedLayerMaxPoolingConvolutionConcatenateForwardRNNBackward RNNEmbeddingw,w.w.,wa,w,w,waw,w,ww,w.图4TextRCNN模型结构Fig.4TextRCNNmodel structure3.2.2ShuffleNet如图

14、6 所示，ShuffleNet模型的关键为虚线框中的通道混洗（Ch a n n e l Sh u f f l e）操作，即对分组卷积（group convolution）之后的特征图进行“重组”，这样可以保证采用的分组卷积的输入来自不同的组，因此信息可以在不同组之间流转即通过通道混合来增加信息交流【143.2.3ResNet50ResNet50网络模型的结构主要由残差学习块堆叠组成。残差学习块的局部结构如图7 左侧所示，每一个残差块都可以看作函数=f（x）+x，其中x表示输人向量，y表示输出向量。这样的结构可以有效地抑制信息传播过程中由于信息丢失导致FC:1000FC.4906/ReLU工FC

15、.4006/ReLUMaxPool3382Co0v3x391,384/RoLUComV3x3s1,384/ReLUConv3x3e1,384/ReLUMaxPool3x3e2Local Response NormConv56s1,256/RoLUMaxPool3x382工LocalResponee NormmConv11x1184,96/PoLU图5AlexNet模型结构Fig.5AlexNetmodel structureInputGConv1FeatureChannelShufleGConv2Output图6ShuffleNet模型结构Fig.6ShuffleNet model struc

16、ture梯度消失或爆炸的问题。激活函数使用ReLU函数。结构后面的全连接层包括平均池化层和生成最终输出的Softmax 15。整体的网络结构表现为一个深度为50 层的卷积神经网络，其结构如图7 所示。Input业7x7.64,stride23x3,maxpool,stride2X11,6411.64Lrelu()33,6433.643Lrelu11,25611,256reluy=f(x)+x11,12833,128411,51211.25633.256x611.1024业11,51233,512311.2048Average Pool业Softmax图7ResNet50模型结构Fig.7Res

17、Net50model structure网络图片图像分类模型OCR决策级融合策略Output文本信息文本分类模型图8多模态决策级融合模型结构Fig.8Multimodal decision level fusion model structure2500网络模因12951052000数据标签1500非网络模因100052500网络模因非网络模因预测结果图9TextRCNN+ResNet50实验结果混淆矩阵Fig.9confusion matrix TextRCNN+ResNet50 experimental result第3 2 卷中央民族大学学报（自然科学版）283.3决策级融合模型整体的多

18、模态融合模型实验流程如图8 所示。首先使用OCR工具从图像中提取文本信息；然后分别使用文本和图像相对应的分类模型方法得到各自对应的输出结果；最后基于决策级融合策略将两种模型的结果进行融合计算，得到最终的输出。决策级融合模型可以充分地利用各个单模态模型的初始输出信息，并整合两个模态的判断信息进一步做出最终的决策判断。p;=x;+(1-)(1)设定文本模态模型输出的概率向量为，,图像模态模型输出的概率向量为y1，y 2,那么整体决策级融合模型输出概率向量 p1，P2 的计算方法如公式（1)所示,其中是可调节的参数。4实验结果及分析4.1实验环境配置和参数设置实验使用的是Ubuntu18.04操作系

19、统的工作站，CPU为IntelXeonE5-2680v4，主频2.40 GHz。GPU为RTX2080Ti，显存11GB。环境配置PyTorch1.7.0的机器学习框架引擎，Python3.8的程序语言版本，Cuda版本为11.0。统一设置文本模态使用的模型参数batch_size为32，num_workers为8，learning_rate为3e-2,drop-out为0.5。统一设置图像模态使用的模型参数batch_size为32,num_workers为8,learning_rate为3e-2。在最终的决策级融合策略模型中，将文本和图像模态的权重比例参数设置为0.34。表2实验结果对比T

20、ab.2Comparison of experimental results评判指标使用的信息模态方法模型precisionrecallF1-scoreFastText0.919 10.91630.914.3文本模态信息DPCNN0.921 30.92130.920 4TextRCNN0.928 10.926 80.927 1AlexNet0.921 40.9140.915 2图像模态信息ShuffleNet0.93540.9320.9305ResNet500.95290.951 80.951 1FastText+AlexNet0.93540.9320.930 5FastText+Shuffl

21、eNet0.93930.939 50.939 4FastText+ResNet500.954 10.95430.9541文本模态信息DPCNN+AlexNet0.936 60.9360.9352+图像模态信息DPCNN+ShuffleNet0.940 10.94030.939 9（决策级融合方法）DPCNN+ResNet500.959.90.960.959 9TextRCNN+AlexNet0.936 60.93550.935 8TextRCNN+ShuffleNet0.94660.946 70.946 7TextRCNN+ResNet500.96080.960 80.960 64.2实验结果

22、使用3种文本单模态方法和3种图像多模态方法，并利用决策级融合模型把3种文本网络和3种图像网络交叉组合，得到9 种多模态方法。每种实验方法的结果见表2。实验采用了单模态或多模态共15种方法，其中使用TextRCNN+ResNet50网络并结合决策级融合模型的方法取得了最好的效果，该方法实验结果的混淆矩阵如图9 所示。南鹏等：基于决策级融合策略的中文网络模因图片判别方法研究第2 期294.3实验分析从实验结果可以看出，无论是基于文本和图像的各单模态方法还是使用了决策级融合策略的多模态方法都取得了不错的结果，充分验证了使用深度学习方法对中文环境中网络图片的模因和非模因分类研究的可行性，说明该研究任务

23、相对较为简单。对比文本模态和图像模态，我们可以发现不同于模因的情感分类任务，在判断网络图片是否为模因图片时图像模态信息和文本模态信息起到的作用不相上下，图像单模态信息甚至要比文本单模态信息对该任务的分类起到的作用还要更大一点。在单独的文本模态分类方法之间和单独的图像模态分类方法之间做对比，各模型方法的效果都不错，实验表现相差也不大，即使是FastText这种很轻量化的模型也能够取得非常好的实验效果。这也符合我们实际应用中的需求，毕竟判断网络图片是否为网络模因图片并非是网络模因研究的一个主要方向，如果还需要部署庞大的模型方法，耗费巨大的算力来完成该任务显然是得不偿失的。对比单模态方法和使用决策级

24、融合策略的多模态方法，多模态方法相比其中任一个单模态方法都取得了一定的效果提升。这说明在该任务中，使用决策级融合策略是一个较好的、能够在一定程度上稳定提升整体模型性能的有效途径。当然，目前该任务的分类效果也并非完美和完全令人满意的。在接下来的研究工作中，一方面需要继续扩充该数据集，另一方面还需要进一步探索结构简单效果更好的轻量化模型及有效的多模态方法。5讨论作为网络模因研究的先行任务，对网络图片进行模因和非模因的分类研究工作的重要性也是不可忽视的。为验证使用深度学习的方法对模因和非模因图片进行分类研究可行性，本文构建了适用于中文语言文本的网络模因图片和非模因网络图片分类的数据集，并在该数据集上

25、分别实验了只利用文本信息和只利用图像信息的单模态分类方法以及通过决策级融合策略来结合图像和文本两种模态信息的多模态分类方法。最终的实验结果验证了对网络图片进行分类研究的可行性，探讨了该项工作未来可能的研究方向。参考文献：1道金斯.自私的基因 M.卢允中，译.长春：吉林人民出版社，1998.2FRENCH,JEAN H.Image-based memes as sentiment predictors CJ/Proceedings of International Conference on Infor-mation Society,2017:80-85.3AMALIA A,SHARIF A,H

26、AISAR F,et al.Meme opinion categorization by using optical character recognition(OCR)and naive Bayes algorithm.C/Proceedings of Third International Conference on Informatics and Computing,2018:1-5.4SABAT B O,FERRER C C,GIRO-I-NIETO X.Hate speech in pixels:detection of offensive memes towards automat

27、icmoderation J/0L.arXiv preprint,arXiv:1910.02334,2019.5KIELA D,FIROOZ H,MOHAN A,et al.The hateful memes challenge:detecting hate speech in multimodal memes.C/Proceedings of Neural Information Processing Systems,2020:2611-2624.6SHARMA C,BHAGERIA D,SCOTT W,et al.SemEval-2020 task 8:memotion analysis-

28、the visuo-lingual metaphor!C/Proceedings of Fourteenth Workshop on Semantic Evaluation,2020:759-773.7PEREZ-MARTIN J,BUSTOS B,SALDANA M.Semantic search of memes on twitter J/OLJ.arXiv preprint,arXiv:2002.01462,2020.8SHARMA C,PULABAIGARI V,DAS A.Meme vs.non-meme classification using visuo-linguistic a

29、ssociation CJ/Proceedings of WEBIST,2020:353-360.9BESKOW D M,KUMAR S,CARLEY K M.The evolution of political memes:detecting and characterizing internet责任编辑：王向华30第3 2 卷中央民族大学学报（自然科学版）memes with multi-modal deep learning J.Information Processing&Management,2020,57(02):102170.10代令令，蒋侃.基于fastText的中文文本分类J

30、.计算机与现代化，2 0 18，（0 5）：3 5-40,8 5.11加米拉吾守尔，吴迪，王路路，等.基于多卷积核DPCNN的维吾尔语文本分类联合模型J.中文信息学报，2021,35(07):63-71.12武渊，徐逸卿.基于多层异构注意力机制和深度学习的短文本分类方法J.中北大学学报（自然科学版），2 0 2 1，42(05):426-434.13 郭敏钢，宫鹤.AlexNet改进及优化方法的研究 J.计算机工程与应用，2 0 2 0,56（2 0）：12 4-13 1.14刘烨.基于ShuffleNet网络模型的图片内容自动分类研究 D.开封：河南大学,2 0 18.15闫龙泉，骆沛然，史

31、伟，等.基于ResNet的唐卡检索J.宁夏大学学报（自然科学版），2 0 2 1，42（0 3）：2 57-2 6 2，269.Internet Meme Image Judgment Method Based on Decision LevelFusion StrategyNAN Peng2,QUN Nuol2,WEN Yao,NYIMA Tashil.2(1.School of Information Science and Technology,Tibet University,Lhasa 850000,China;2.Collaborative Innovation Centerfor

32、 Tibet informatization by MOE and Tibet Autonomous Region,Lhasa 850000,China)Abstract:The classification of internet memes has become an important multi-modal research taskbecause of its unique research value and significance.However,in practical research and applica-tion,it is an important pre-task

33、 to determine whether the images in the internet are Internet memeimages for various classification tasks of subsequent internet memes.Based on the Chinese text asthe language background,this paper constructs a internet image data set containing 20000 meme ornon-meme images.On this basis,single moda

34、l and multi-modal methods are used to classify the da-ta set respectively.The F1 score of the decision level fusion method based on TextRCNN+Res-Net50 network reaches 0.96.It fully verifies that the deep learning method,especially the multi-modal method of decision level fusion,can effectively classify the internet images of Chinese lan-guage environment into memes and non-memes.It provides a strong support for the follow-up classi-fication task of internet memes.Key words:internet meme;multi-modal classification with text and image;decision level fusionstrategy

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于决策融合策略中文网络图片判别方法研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。