分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于增强语义模型的货品名分类算法_李晓峰.pdf

基于增强语义模型的货品名分类算法_李晓峰.pdf

上传人：自信****多点

文档编号：368325

上传时间：2023-09-06

格式：PDF

页数：8

大小：4.30MB

《基于增强语义模型的货品名分类算法_李晓峰.pdf》由会员分享，可在线阅读，更多相关《基于增强语义模型的货品名分类算法_李晓峰.pdf（8页珍藏版）》请在咨信网上搜索。

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期文章编号：1006-2475（2023）03-0071-08收稿日期：2021-12-31；修回日期：2022-06-07基金项目：国家自然科学基金面上项目（72174086）作者简介：李晓峰（1979），男，河北衡水人，博士生，研究方向：自然语言处理，数据挖掘，E-mail：；通信作者：马静（1966），女，重庆人，教授，博士生导师，博士，研究方向：数据挖掘，自然语言处理，复杂网络，E-mail：；周琰（2000），男，江苏南京人，研究方向：大数据管理与应用。0引言报关是跨境贸易过程中不可或缺的核心环节，尤

2、其对于大批量多品种货物申报，需要花费更多的人力和时间。海关申报至关重要的流程为准确填写货物名称（货物归类），不同货物品名对应着不同海关编码，也对应着不同的海关税率。货物归类不仅是开展海关征税、监管、统计、缉私等各项业务的基础，同时也与海关执法权威性、公正性及国家安全息息相关1。目前，我国海关对进出口货物的申报工作主要是以人工申报方式为主，在货物品名填报时，依据客户报送的货物信息，凭借报关员经验来进行判断填写2，例如某批次货品描述文本为“新鲜优质冷冻大西洋鲑鱼冰鲜高蛋白美国原产批发”，报关员根据货品描述文本，依据经验判断货品名称为“大西洋鲑鱼”，并以此名称填写报关单，图1为该货品对应

3、的海关报关单实例。然而，现阶段此类工作中会出现货物归类错误的情况，导致一定程度上延缓了货物的通关时间，制约了海关的通关效率，大幅度地增加了报关成本，这对我国的进出口业务将会造成极大的影响3。现阶段的人工申报方式存在许多不足，例如严重依赖先验经验、准确率不稳定、效率低下、成本较高等，而进出口贸易单量巨大，使得以上不足更为突出。为解决人工报关模式存在的问题，本文提出一种基于增强语义及多模态特征的货品名分类算法。基于增强语义模型的货品名分类算法李晓峰1，马静1，周琰2（1.南京航空航天大学经济与管理学院，江苏南京 211106；2.合肥工业大学管理学院，安徽合肥 230009）摘要：海关申报（报

4、关）是指进出口货物所有人向海关办理进出境手续的过程。报关过程主要包括：填写报关单、单据检验、货物查验等流程。本文主要针对报关单中的货物品名依赖人工填写，存在申报成本高、效率低下、准确率不稳定等有待优化的问题，提出以报关货物描述短文本为基础，分别使用TF-IDF模型和BERT模型提取词频特征与语义特征，根据语料特点创新性地用词频特征增强语义特征；用ViT模型提取货物图像特征并与文本特征在交叉注意力机制作用下融合，再由多粒度级联森林分类器实现货物名称分类，达到精准获取货物品名的目的。实验结果显示：货物品名分类准确率为0.92，召回率为0.90，F1-score为0.91，表明了本文所提算法在解决报

5、关货物品名分类问题上具有合理性与优越性，有助于解决现有问题。关键词：货物描述；货物名；货物名分类；增强语义中图分类号：TP391.1文献标志码：ADOI：10.3969/j.issn.1006-2475.2023.03.013Classification Algorithm for Goods Names Based on Enhanced Semantic ModelLI Xiao-feng1，MA Jing1，ZHOU Yan2（1.College of Economics and Management，Nanjing University of Aeronautics and Astro

6、nautics，Nanjing 211106，China；2.School of Management，Hefei University of Technology，Hefei 230009，China)Abstract：Customs declaration is the process of the owner of the import and export goods to the customs.The process of customsdeclaration mainly includes：filling customs declaration，document inspecti

7、on，cargo inspection，and others.This paper primarily focuses on the name of goods in the customs declaration depends on manual filling and the problems of high declaration cost，low efficiency，unstable accuracy，and other to be optimized，proposes to take the short texts of goods description at customs

8、declaration as corpus，and extractes the word-frequency features and semantic features using the TF-IDF and the BERT models.According to the characteristics of the corpus，this paper innovatively enhances semantic features with word-frequency features.Secondly，the ViT model extractes image features an

9、d fuses them with text features under the cross-attention mechanism.Finally，the multi-grain cascade forest classifier realizes the classification of goods names and achieves the purpose of accurately obtaining goods names.The experimental results show that the precision is 0.92，the recall is 0.90，an

10、d the F1-score is 0.91，whichfully demonstrates the rationality and superiority of the algorithm in solving this problem and helps solve the existing problems.Key words：goods description；goods name；goods name classification；enhanced semantic计算机与现代化2023年第3期本文发现货物描述文本是获取货物品名的主要信息来源，而货物描述文本属于短文本类型，与长文本相

11、比所包含的词汇量较少，同时此类文本具有诸如词语间关联性较弱、语法结构松散、词序随机性较强等特点，即此类短文本中所蕴含的上下文语义特征较弱，词语的位置信息作用有限。为了能更好地从该类型短文本中准确分类货物品名，提出利用词频特征增强文本语义特征，融合货物图像特征并运用注意力机制分配特征权重，通过级联森林分类器完成货物品名分类的模型设计思路。本文主要工作如下：1）针对语料特点，创新性地提出了使用词频特征增强语义特征的语义增强方法。2）将语义信息、词频信息及图像信息相互融合实现多模态语义增强，提升分类精度。3）使用交叉注意力机制实现语义特征与图像特征的合理融合。4）多粒度扫描与级联森林的配合替代传统分

12、类器，取得对复合特征向量较好的分类效果。运用本文模型算法优化货物报关流程可极大地提升报关效率、确保报关信息准确度、降低报关成本，促进传统报关模式向信息化、智能化模式的全面转型，因此相关研究有着非常重要的现实意义。1相关工作货物品名分类问题可以抽象为短文本分类问题，其本质是将不同的货物描述文本准确分类到不同类别（货物名）。依据与本研究内容的相关性，本文将所涉及的文本分类算法分为机器学习和深度学习、预训练及其改进模型2类。1.1机器学习和深度学习分类算法如何运用机器学习算法研究本问题，Ma等4和李晓峰等5分别结合改进的SVM模型与XGBoost模型实现货物品名精准分类；而贺波等6将Attentio

13、n机制运用到特征向量的表示中，调整词语权重，再结合LSTM模型显著提高了货物品名分类精度。这些算法取得较好效果，但其仅运用了Word2Vec等静态词向量模型表示特征，缺失了对上下文语义的理解与表示，无法解决一词多义问题。1.2基于预训练模型的分类算法随着深度学习算法的发展，陆续出现了基于预训练机制大规模语言模型，如ELMO7、GPT8、BERT9等，这些模型在预训练和注意力机制的双重作用下可以更好地捕获词语所蕴含的上下文语义，实现动态词嵌入、解决一词多义等问题，在下游的短文本分类任务中，利用ELMO模型可实现对录音文本的分类10，运用GPT模型对邮件评论短文本进行分类也取得了很好的效果11；而

14、使用BERT模型对短文本进行句子层面的特征向量表示，配合softmax模型分类亦可显著提升分类的精度12。当然，预训练模型也存在参数众多、收敛缓慢、对硬件要求高等问题，于是轻量化 BERT 改进模型ALBERT13、MobileBERT14被提出，通过知识蒸馏机制15、任务无关机制16等措施提升了 BERT 模型部署运用的灵活性。同时，BERT模型也是许多混合模型主要组成部分17-20，对混合模型的性能提升发挥着显著的作用。于是，利用BERT预训练模型在获取上下文语义的同时实现词向量的动态表示则成为本文模型构建的主要思路。据已有研究可知，同时使用与文本内容相对应的图像特征可以有效地提升文本分类

15、精度21-22，此研究基础也为本文模型使用多模态特征提供了借鉴与参考。2本文模型2.1算法设计流程首先是数据筛选、清洗、标注、分词等数据预处理；其次，分别使用BERT模型和TF-IDF模型23提取语料不同类型的特征。其中BERT主要提取语义特征；TF-IDF提取词频统计特征；接着，拼接语义词向量和词频向量，使用词频特征增强文本语义特征；然后，使用ViT模型24提取货物图片特征，生成128维特征向量；接下来，根据谢豪等25图文特征融合研究成果，将短文本语义增强后的特征向量与图像特征向量计算交叉注意力，并进行特征融合。最后，复合特征向量经多粒度级联森林26分类器，完成货物品名分类任务。图2所示为基

16、于复合语义增强模型的报关货物品名分类算法流程图。2.2TF-IDF模型提取词频特征TF-IDF 模型23是一种用于数据挖掘的算法模型。其中TF是词频，IDF是逆词频。通常使用该模型来度量语料集中某个字或者某个词语对于包含这个字或者这个词语的文本的重要程度。本算法运用该模型来提取短文本词频特征。TF-IDF数值的计算图1海关报关单实例中华人民共和国海关进口货物报关单预录入编号：海关编号：进口口岸（C）经营单位食品公司442391（E）收货单位442391许可证号批准文号（M）合同协议号WT 2003/20集装箱号（Q）标记唛码及备注TRLU3837719/20/2800项号商品编码商品名称、

17、规格型号数量及单位（R）原产国（地区）（S）单价总价币制（T）征免0103032210大西洋蛙鱼5025一般征税0203034400冷冻金枪鱼5028.05一般征税税费征收情况录入员录入单位报关局单位地址路号邮编电话填制日期（G）起运国（地区）美国（J）成交方式3（N）件数500（A）备案号兹声明以上申报无讹并承担法律责任（P）随附单据A：3506002003382运输方式（F）贸易方式一般贸易（K）运费502/500/3（H）装货港纽约（O）包装种类1（D）运输工具名称MIN HP/208WO征免性质（L）保费2进口日期毛重（公斤）用途海关审单批注放行日期（签章）审单审价征税统计（I）境

18、内目的地44239（B）申报日期2003.09.28提运单号征税比例杂费净重（公斤）722023年第3期如公式（1）：w()tj,di=tf()ti,dj idf()ti,dj=tf()ti,dj lg()Nnj+0.01（1）其中，w()tj，di为特征词权重；tf()tj，di为特征词词频；idf()tj，di为特征词在文档di中的逆词频；N为语料集中文档总数；nj为语料集中出现特征词的文档数。如图 3 所示，计算货物描述文本中词语的 TF-IDF 值，对语料集中的任意短文本可以表示为Di=wt1，wt2，wtn，其中Di为第i个文本，wtn为该文本中第 n个词语 TF-IDF 值，生成各

19、文本所对应的 TF-IDF序列。2.3BERT模型提取语义特征BERT模型9中含有双向Transformer编码层，能较好地捕捉文本中上下文语义特征，本文算法用BERT模型提取文本初始语义特征。图4为短文本字粒度输入BERT模型，BERT模型将为其嵌入 3 个部分内容，分别是字向量（TokenEmbedding）、文本向量（Segment Embedding）和位置向量（Position Embedding），经训练输出语义特征向量dm，可表示为公式（2），因为是单文本encoder任务，所以无需SEP。其中组成字wij嵌入的字向量、文本向量和位置向量的维度均为768。Multi-Head

20、AttentionForestForestForestForestForestForestForestForestAVGsoftmaxForestForestAVG牛肉台灯T恤眼镜手机手机第N层完全随机森林随机森林第1层BERTTF-IDF数据采集数据筛选用户字典分词系统去停用词语料聚类数据预处理文本文本特征工程词频特征语义频特征语义向量词频向量T恤短袖新款圆领纯棉女装货物图片图像特征提取模型图像特征向量交叉注意力权重矩阵全连接层增强语义复合特征向量多粒度级联森林分类器图块扁平化线性映射Norm0*1 2 3 4 5 6 7 8 9NormMLPTransfortnerEncoderLxw1

21、w2w3wiw3n图4BERT模型文本语义提取流程新款T恤白男纯棉:TokenEmbeddingsBERTE0E1E2E3E4E5E6E7E8EPEPEPEPEPEPEPEPEPECLSE新E款ETE恤E白E男E纯E棉+计算句向量Dm=1nWini=1768维句向量CLS:SegmentEmbeddings:PositionEmbeddingsInputCE新E款ETE恤E白E男E纯E棉Class Label李晓峰，等：基于增强语义模型的货品名分类算法图2货物品名分类算法设计流程图3文本词频特征计算流程73计算机与现代化2023年第3期dm=wij(+)（2）在模型的训练过程中，多头注意力层将

22、发挥重要作用，合理分配权重；多头自注意力层中的注意力机制计算可表示为公式（3）的形式：attention_output=Attention（Q，K，V）（3）Multi-Head Attention 是通过 h个不同的线性变换对Q、K、V进行投影，最后把不同Attention值拼接，如公式（4）和公式（5）：Multi-Head(Q，K，V)=concat(head1，headh)Wo（4）headi=Attention()QWQi，KWKi，VWVi（5）其中，Wo为head1，head2，headh权重分配矩阵，WQ、Wk、WV分别是Q、K、V权重矩阵。其中的Self-Attention部

23、分则是令Q、K、V相同即可。此外，在计算Attention的时候采用了scaled dot-product算法，将结果进行缩放，如公式（6）：Attention（Q，K，V）=softmax()QKTdkV（6）其中，dk为 Q 向量和 K 向量的维度。再由第 11 层Transformer编码层获取词向量表示，并通过公式（7）计算当前文本句向量Dm：Dm=1ni=1nWi（7）其中，n是词语个数，Wi是词向量。将计算所得768维的句向量Dm与词频特征向量Di进行拼接，再经全连接层后降维至128维，获得复合语义向量Dm，拼接如公式（8）：Dm=DmDi（8）2.4ViT模型提取图像特征ViT（

24、Vision Transformer）24模型的核心思想是将一张图片划成固定大小的图块（patches），经线性变换得到各图块嵌入（Patch Embedding）表示，包括图块嵌入与位置嵌入（Position Embedding）这2种嵌入机制。模型嵌入过程如图5所示。图5ViT模型图像嵌入过程本文使用该模型提取货物图像特征。首先将图像（C，H，W）分割为N个大小为（C，P，P）的不重叠图像块。这里 C 为图像通道数，H 和 W 为图像的高和宽，表示为N=HW/P2。然后，将划分后的图像块折叠拉平生成词嵌入向量，并依据图像块原来所在位置分配位置嵌入向量（pos)，再为其添加一组随机向量用于分

25、类（CLS），将所有的词嵌入向量和位置嵌入向量沿着特征方向拼接，得到N+1个大小为T的向量，T=CP2。接下来，因Transformer的多头注意力机制包含多个并行自注意力机制，输入大小为（B，N+1，D）的张量，作为计算自注意力机制所需的Q，K和V所对应的值，这里的B为批次维度，N+1为特征数量，D为特征维度，自注意力机制输出为SA，则此过程可表示为公式（9）：SA=Softmax()()QWQi()KWKiTdi VWVi（9）其中，WQi，WKi，和WVi，分别为Q、K和V对应的权重矩阵；di为特征维度系数。将经过多头注意力机制后的输出和输入求和，即进行残差连接，并对输出结果进行归一化处

26、理，表达式分别为公式（10）公式（12）：=1C P PC,P,Px（10）2=1C P PC,P,P(x-)2（11）y=x-2+（12）其中，C为图像通道数；P为图像的高和宽；x和y分别为输入和输出张量；为输入所有图块张量均值；2为方差；是为分母不为0而添加的一个很小的浮点数常量。本文中所使用的为RGB图片，图片大小为（3，224，224）；生成的图块大小为3232，即P=32；因此每张图片共生成49个图块；经过线性变换后生成的序列长度为32323=3072，最后经线性映射得到当前图片128维特征向量。2.5交叉注意力机制由于图像信息和文本语义之间存在差异性，为了解决图文匹配的问题，交叉注

27、意力机制 27 被提出。该机制源于语义分割中任务，主要计算图文特征之间的相关性，可体现一种模态信息对另一种模态信息的影响力，本文在图文特征融合过程中引入交叉注意力机制。在分类操作前，需要将公式（8）获取的文本特征向量Dm与公式（12）得到的图像特征向量y在交叉注意力机制作用下进行特征融合，其融合过程如图6所示。图6交叉注意力作用过程在分别获取文本语义特征与图像特征后，由于文本与图像内容存在一定的差异性，因此为了进一步获取图像内容对文本内容的信息补充以及修正文本内容对图像内容的语义描述，采用交叉注意力机制，分PatchEmbeddingPositionEmbeddingReshapeNormLi

28、nearNormNormMLPReshapeMulti-HeadAttentionTransformer Encoder（N）Feature VectorWkp图像特征向量文本特征向量线性层线性层VtKtQpSoftMax线性层正则化文本特征向量图像特征向量线性层线性层VpKpQtSoftMax线性层正则化向量拼接融合特征向量残差残差WvtWktWQpTtWQtWvpTpTtTpCAtAtCApApTtTpT742023年第3期别计算两模态特征间的相关性，合理分配各模态特征权重；同时还运用残差机制确保主体信息的权重分配，最后通过向量拼接生成复合特征向量并作为输入送入后续分类器。如图6所示，左右

29、2个部分显示的分别是图像信息对文本信息的关联和文本信息对图像信息的关联，其计算过程类似，本文以左侧为例阐述，首先按照公式（13）公式（15）计算得到Qp、Kt、Vt的值：Qp=TpWQP（13）Kt=TtWKt（14）Vt=TtWVt（15）然后根据公式（16）计算得到 Qp和 Kt之间的 Attention值At，由公式（17）得到交叉注意力CAt；At=softmax()QpKTtdi（16）CAt=AtVt（17）再通过线性层变换和正则层以及残差计算，如公式（18）所示，得到左侧文本图像特征向量Tt。同理，由公式（19）可得右侧图像文本特征向量Tp；最后，如公式（20）所示将两者拼接成为

30、分类所需的复合特征向量T，并将其作为输入向量送入后续的多粒度级联深林分类器完成分类操作。Tt=CAt+LNFNN()CAt（18）Tp=CAp+LNFNN()CAp（19）T=Tt+Tp（20）公式（13）公式（20）中，下标p表示图像，t表示文本，W表示权重，A表示注意力机制，CA表示交叉注意力机制，T表示张量。2.6多粒度级联森林分类器本文选用多粒度级联森林模型作为最终的分类器模型对公式（20）获取的复合特征向量 T完成分类，而非全连接神经网络模型，主要是出于以下几个方面的考虑：首先，在特征融合时，使用交叉注意力机制分配特征权重，若使用全连接网络，则可能影响已有权重分配，降低前导工作价值；

31、其次，全连接网络会引入海量参数，增大训练时间和硬件需求；最后，在 Zhou等26的方法与本文方法对比实验中已明确说明该模型在分类精度上优于全连接网络模型。多粒度级联森林（Multi-Grained Cascade Forest）26的原理是通过随机森林之间的级联结构学习来实现对决策树集成后的集成，是一种深度树集成的方法。多粒度级联森林模型包含2种类型的随机森林：完全随机树森林和随机森林。多粒度扫描过程使用的扫描粒度分别为 1，2，4，16，其它参数设置如表1所示。表1模型多粒度扫描参数参数名shape_1Xwindowstriden_mgsRFtree取值2561，2，4，161500参数说明

32、样本特征维度扫描粒度维度扫描步长随机森林数量本文模型在分类时使用交叉熵损失函数（Cross-Entropy Loss），如公式（21）：Loss=-i=0C-1yilog()pi=-log()pc（21）其中，p=p0，pC-1 是概率分布，每个元素pi表示当前样本属于第i类的概率；y=y0，yC-1 为样本独热编码，若样本属于第i类时，yi=1，否则yi=0，c为标签。同时，模型使用 Adam优化器进行优化，它使用损失值对梯度进行更新，利用损失函数得到的损失值对各层权重进行微调，以降低当前输入的损失值。模型优化器的超参数设置如表2所示。表2Adam优化器参数参数名12取值0.0010.90.

33、99910-8参数说明学习率一阶矩估计指数衰减率二阶矩估计指数衰减率防止分母为03实验与分析本文实验所用服务器配置：1）编程环境：Anaconda3 64位，Python 3.8；2）运行环境：64位Windows10操作系统，CPU为E5-2660v4，Intel（R)Xeon（R)，主频为 2.4 GHz，内存为64 GB；GPU为Tesla V100 64 GB。3.1数据采集本文所用语料是由网络爬虫软件获取的某跨境电商平台报关货物数据，其货物描述短文本具有词语间相关性弱、语法结构松散、词序随机性强等特点，如某货物描述文本“新款女式大衣纯棉韩版印花长款修身”，该文本中的上下文

34、语义信息、词语位置信息及词语依赖关系较弱，仅通过这些特征无法准确表征该类型文本，而统计词频信息的加入则可更好地弥补此缺陷，更加准确地获取文本特征。数据集包含货物描述文本及图像，经数据筛选，用于实验数据详情如表3所示，部分文本数据展示如图7所示。表3数据集爬取量33620标注量22000类目105训练集17600测试集4400图7部分货物文本数据展示商品描述世界仙仙春夏网纱百褶裙半裙半身裙苹果耳朵正品通用入耳式手机线控耳塞独家手工定制蝶蝴飞舞白色绸缎面结婚拍照礼物高跟婚鞋高跟鞋辉盛舵机 KT板固定翼遥控飞机航模车模小象 v领 T恤夏装

35、新款宽松显瘦镂空短袖衣服心机上衣民国粉彩瓷陈立山东美术出版社天使夏装新款圆领长袖波浪针织宽松连衣裙包邮粘尘垫地垫无尘室脚踏垫防静电胶垫洁净除尘垫日本宠物毛绒玩具奶瓶系列玩具泰迪贵宾八哥荷叶边系带捆绑踢背连体泳衣游泳衣日本香堂大观线香熏香玄奥余味正品骑士马靴西部牛仔靴复古尖头中筒靴大码真皮刺绣男靴表妹男女运动沙滩鞋赤足软鞋溯溪防滑游泳鞋浮潜潜水鞋游泳鞋儿童电动软弹枪弹夹适用系列弹夹电动软弹枪黎明隔爆型防爆灯防潮防爆灯罩仓库厂房验收灯具

36、特价博可笔记本音响台式电脑迷你小音箱手机便携低音炮影响多功能汽车婴儿推车挂包随身包置物袋收纳袋妈咪包科技电子产品创意小玩意生日礼物男生朋友实用新奇宿舍神器简约服装店展示架落地式服装架女装店货架挂架挂架衣服展示架时间轴杂志相册制作宝宝儿童照片书定制相片影集毕业纪念册标签半身裙耳机高跟鞋车模T恤粉彩瓷连衣裙除尘垫发声玩具游泳衣熏香中筒靴潜水鞋软弹枪防爆灯低音炮收纳袋电子产品展示架相册李晓峰，等：基于增强语义模型的货品名分类算法75计算机与现代化2023年第3期3.2实验对比方法简介分别对分类器和图像特征提取

37、模型进行对比实验。分类器有支持向量机、随机森林、Softmax、XGBoost及多粒度级联森林。图像特征的提取使用经典卷积神经网络AlexNet、VGG19、GoogLeNet 以及 ResNet，再分别与BERT模型提取的语义特征、TF-IDF模型提取的词频特征融合，生成复合特征，最终通过分类器模型完成分类任务。其中AlexNet是最早用于手写字体识别的图像特征提取模型；VGG19则是在 ImageNet图像千分类项目中表现突出的 CNN 模型；而 GoogLeNet 主要利用Inception模块，通过不同卷积核在不同维度提取图像特征；ResNet使用主要特

38、征的残差连接的模式来保证主导特征在网络中的有效传递与表征。3.3实验结果本文用来评价实验结果的标准包含 3 个指标：Precision、Recall和F1_score。Precision=TPTP+FP（22）Recall=TPTP+FN（23）F1_score=2 Precision RecallPrecision+Recall（24）其中，TP 为 True Positive；FP 为 False Positive；FN 为False Negative。表4所示为分类器对比实验结果；表5为使用相同分类器的复合模型的对比实验结果；图8为模型训练中损失函数下降曲线。表4分类器对比实验单位:%名

39、称BTV-SVMBTV-SoftmaxBTV-RForestBTV-XGBoostBTV-gcForestPrecision76.0182.1387.4689.3992.11Recall74.8880.0885.3785.6390.49F1_score75.4481.0986.4087.4791.29表5复合模型对比实验单位:%名称BTAlexNet-gcForestBTGoogLeNet-gcForestBTVGG19-gcForestBTResNet-gcForestBTViT-gcForestPrecision79.9683.2480.4688.0792.27Recall77.4581.

40、4778.0186.3990.69F1_score78.1882.3579.2287.2291.47图8损失函数下降曲线图9模型消融实验模型分类前的向量由各部分特征融合而成，为分析融合后的特征中各部分是否发挥作用以及作用程度。本文对所提出的模型进行消融实验，消融实验的结果如图9所示。为测试本模型泛化能力，选取公开数据集 MIMN 中多模态子集 Multi_ZOL 作为测试对象，该数据集共包含5288条多模态数据，原本用于情感标注，即 1，10 整数情感打分。此数据集中每个多模态评论包含1个文本内容、1个图像集以及6个特征，每条评论都有从1到10的整数情感分数。在本文实验中情感分数被视为商品标签

41、（原为情感标签），即将 1，10 情感打分问题转化为货物文本十分类问题，结果如表6所示。表6模型泛化性对比实验单位:%模型MIMN（SOTA)BTV-gcForestAccuracy61.5956.72F1_score60.5155.363.4实验结果对比分析1）数据与算法匹配度分析。由表4可以看出使用相同特征作为输入，RForest模型、BTV-XGBoost模型和BTV-gcForest模型的分类效果较好，表明以“树”为基本单元的森林结构模型更适合处理本问题数据的特征；而gcForest模型表现最佳，表明多粒度扫描机制和级联森林结构在处理本问题的作用优于单一RForest模型和基于BTV-

42、Boosting算法BTV-XGBoost模型。2）模型分类阈值分析。图10ROC曲线对比123456789 10 11 12 13 14 15 16 17 18 19 20epochtrainval_loss6.506.005.505.004.504.003.503.002.502.001.501.000.500.00Cross_Entropy Loss1020 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180BT+gcForest0.950.900.850.800.750.700.650.600.550.50Precision

43、EpochV+gcForestB+gcForestBV+gcForestBTV+gcForest00.10.20.30.40.50.60.70.80.91FPR10.90.80.70.60.50.40.30.20.10BTViT-gcForest（area=0.93）BTResNet-gcForest（area=0.88）BTGOogLeNet-gcForest（area=0.87）BTVGG19-gcForest（area=0.82）BTAlexNet-gcForest（area=0.81）标准线TPR762023年第3期通过图 10 中各模型 ROC 曲线可看出，本文BTViT-gcFor

44、est 曲线最接近左上角点的横坐标为0.2，所以可得该模型最佳分类阈值为0.2，也就是说在此阈值下模型精确度和召回率是最高的；其余模型的阈值也在 0.2，0.3。由公式（22）可得数据集中正负样本的比例约为1：4，同时本文模型AUC面积最大，为0.93，表明本文模型在所有对比模型中性能最好。3）多模态特征对比分析。如图9所示的消融实验结果可得：词频特征的加入对提升特征表达的准确度作用显著；同时也说明融合多模态的特征表达效果优于单一模态特征表达。从表5结果可得，使用相同分类器，ViT模型对图像特征的提取效果略优于ResNet模型，这与图片特点相关，报关货物图片分辨率高，除货物本身外很少有背景。而

45、ResNet模型则善于捕获诸如线条、纹理等细节信息；ViT 模型则更擅长于获取图片全局信息28，然而对于本文图片来说，全局轮廓信息的作用大于细节信息，因此ViT模型的效果表现更好。4）模型收敛性与实效性分析。从图11中的Loss曲线可得，模型收敛最快的为BTALexNet 模型，图中可见仅需 10次迭代即可收敛并趋于稳定，但其损失误差值较高，表明此模型拟合能力不足；BTGoogLeNet模型的收敛速度次之，但也面临损失误差偏大的问题；尽管BTViT模型的收敛速度与其它3个模型相比差别不大，但其最终误差损失最小，表明本模型具有较好的拟合能力。图11各模型损失函数曲线通过表7所展示的各模型训练时间

46、对比情况得出，BTViT模型所需训练时间仅次于BTResNet，这首先与模型复杂度、参数数量以及预训练效果有关，同时也与图片质量及大小密切相关。表7模型训练时间对比情况模型BTAlexNet-gcForestBTGoogLeNet-gcForestBTVGG19-gcForestBTResNet-gcForestBTViT-gcForest10%样本训练时间/s183.26386.91309.57434.88411.545）模型泛化能力分析。经泛化性实验由表 6 可得，尽管公开数据集Multi_ZOL中的数据分布、各模态内容一致性等方面均与本文数据集有较大差异，但本文模型在该数据集上的表现精度

47、为56.72%，已经接近该数据集上SOTA模型精度61.59%，表明本模型已具备一定泛化能力。4结束语随着中国国力的不断提升，我国进出口贸易也必将迎来新的发展空间。本文初衷在于发现商品报关业务流程中的瓶颈问题并加以优化，其核心思想是研究人工智能算法分类报关货物品名，提升报关过程中的申报精度、提高效率、大幅度节约成本。为此针对数据特征，本文创新性的提出了BTV-gcForest语义增强模型，在提取文本语义信息的基础上增强融合了文本词频信息和货物的图像信息，通过交叉注意力机制来进行权重计算和分配，复合特征向量的使用为提升后续分类器的分类准确度效果显著。实验结果表明本算法是有效的、可靠的，有着显著的

48、应用前景，可为货物品名智能分类提供较好的技术支持。未来的工作将主要围绕具有此类特征短文本的语义抽取与特征表示展开。该类型的短文本与其它文本的区别在于其词语之间的连贯性差、相关性弱、词序随机性强、词语间的依赖性和修饰关系不显著等。目前多数语言模型依赖上下文获取语义相关性，对此类文本的表征准确度欠佳，而采用不同粒度、不同长度子窗口的嵌入模式可以更好地表示此类文本的局部特征。因此在后续的工作中，将主要考虑如何采用多粒度、多维窗口的局部嵌入算法来优化文本特征表达，提升下游分类任务特征向量质量。参考文献：1 曲道静，高天，李京.进出口商品归类差错原因分析及对策 J.上海海关学院学报，2013，34（3)

49、：92-96.2 王昊，邓三鸿，朱立平，等.大数据环境下政务数据的情报价值及其利用研究以海关报关商品归类风险规避为例 J.科技情报研究，2020，2（4)：74-89.3 胥丽娜.海关商品归类错误的风险及其防范 J.对外经贸实务，2015（11)：70-73.4 MA J，LI X F，LI C，et al.Machine learning based cross-border E-commerce commodity customs product name recognition algorithmC/Pacific Rim International Conference on Arti

50、ficial Intelligence.2019：247-256.5 李晓峰，马静，李驰，等.基于XGBoost模型的电商商品品名识别算法研究 J.数据分析与知识发现，2019，3（7)：34-41.6 贺波，马静，李驰.基于融合特征的商品文本分类方法研究 J.情报理论与实践，2020，43（11)：162-168.7 PETERS M，NEUMANN M，IYYER M，et al.Deep contextualized word representationsC/Proceedings of the2018 Conference of the North American Chapter

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于增强语义模型货品分类算法李晓峰

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。