基于增强语义模型的货品名分类算法_李晓峰.pdf
《基于增强语义模型的货品名分类算法_李晓峰.pdf》由会员分享,可在线阅读,更多相关《基于增强语义模型的货品名分类算法_李晓峰.pdf(8页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期文章编号:1006-2475(2023)03-0071-08收稿日期:2021-12-31;修回日期:2022-06-07基金项目:国家自然科学基金面上项目(72174086)作者简介:李晓峰(1979),男,河北衡水人,博士生,研究方向:自然语言处理,数据挖掘,E-mail:;通信作者:马静(1966),女,重庆人,教授,博士生导师,博士,研究方向:数据挖掘,自然语言处理,复杂网络,E-mail:;周琰(2000),男,江苏南京人,研究方向:大数据管理与应用。0引言报关是跨境贸易过程中不可或缺的核心环节,尤
2、其对于大批量多品种货物申报,需要花费更多的人力和时间。海关申报至关重要的流程为准确填写货物名称(货物归类),不同货物品名对应着不同海关编码,也对应着不同的海关税率。货物归类不仅是开展海关征税、监管、统计、缉私等各项业务的基础,同时也与海关执法权威性、公正性及国家安全息息相关1。目前,我国海关对进出口货物的申报工作主要是以人工申报方式为主,在货物品名填报时,依据客户报送的货物信息,凭借报关员经验来进行判断填写2,例如某批次货品描述文本为“新鲜 优质 冷冻大西洋鲑鱼 冰鲜 高蛋白 美国原产 批发”,报关员根据货品描述文本,依据经验判断货品名称为“大西洋鲑鱼”,并以此名称填写报关单,图1为该货品对应
3、的海关报关单实例。然而,现阶段此类工作中会出现货物归类错误的情况,导致一定程度上延缓了货物的通关时间,制约了海关的通关效率,大幅度地增加了报关成本,这对我国的进出口业务将会造成极大的影响3。现阶段的人工申报方式存在许多不足,例如严重依赖先验经验、准确率不稳定、效率低下、成本较高等,而进出口贸易单量巨大,使得以上不足更为突出。为解决人工报关模式存在的问题,本文提出一种基于增强语义及多模态特征的货品名分类算法。基于增强语义模型的货品名分类算法李晓峰1,马静1,周琰2(1.南京航空航天大学经济与管理学院,江苏 南京 211106;2.合肥工业大学管理学院,安徽 合肥 230009)摘要:海关申报(报
4、关)是指进出口货物所有人向海关办理进出境手续的过程。报关过程主要包括:填写报关单、单据检验、货物查验等流程。本文主要针对报关单中的货物品名依赖人工填写,存在申报成本高、效率低下、准确率不稳定等有待优化的问题,提出以报关货物描述短文本为基础,分别使用TF-IDF模型和BERT模型提取词频特征与语义特征,根据语料特点创新性地用词频特征增强语义特征;用ViT模型提取货物图像特征并与文本特征在交叉注意力机制作用下融合,再由多粒度级联森林分类器实现货物名称分类,达到精准获取货物品名的目的。实验结果显示:货物品名分类准确率为0.92,召回率为0.90,F1-score为0.91,表明了本文所提算法在解决报
5、关货物品名分类问题上具有合理性与优越性,有助于解决现有问题。关键词:货物描述;货物名;货物名分类;增强语义中图分类号:TP391.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.03.013Classification Algorithm for Goods Names Based on Enhanced Semantic ModelLI Xiao-feng1,MA Jing1,ZHOU Yan2(1.College of Economics and Management,Nanjing University of Aeronautics and Astro
6、nautics,Nanjing 211106,China;2.School of Management,Hefei University of Technology,Hefei 230009,China)Abstract:Customs declaration is the process of the owner of the import and export goods to the customs.The process of customsdeclaration mainly includes:filling customs declaration,document inspecti
7、on,cargo inspection,and others.This paper primarily focuses on the name of goods in the customs declaration depends on manual filling and the problems of high declaration cost,low efficiency,unstable accuracy,and other to be optimized,proposes to take the short texts of goods description at customs
8、declaration as corpus,and extractes the word-frequency features and semantic features using the TF-IDF and the BERT models.According to the characteristics of the corpus,this paper innovatively enhances semantic features with word-frequency features.Secondly,the ViT model extractes image features an
9、d fuses them with text features under the cross-attention mechanism.Finally,the multi-grain cascade forest classifier realizes the classification of goods names and achieves the purpose of accurately obtaining goods names.The experimental results show that the precision is 0.92,the recall is 0.90,an
10、d the F1-score is 0.91,whichfully demonstrates the rationality and superiority of the algorithm in solving this problem and helps solve the existing problems.Key words:goods description;goods name;goods name classification;enhanced semantic计算机与现代化2023年第3期本文发现货物描述文本是获取货物品名的主要信息来源,而货物描述文本属于短文本类型,与长文本相
11、比所包含的词汇量较少,同时此类文本具有诸如词语间关联性较弱、语法结构松散、词序随机性较强等特点,即此类短文本中所蕴含的上下文语义特征较弱,词语的位置信息作用有限。为了能更好地从该类型短文本中准确分类货物品名,提出利用词频特征增强文本语义特征,融合货物图像特征并运用注意力机制分配特征权重,通过级联森林分类器完成货物品名分类的模型设计思路。本文主要工作如下:1)针对语料特点,创新性地提出了使用词频特征增强语义特征的语义增强方法。2)将语义信息、词频信息及图像信息相互融合实现多模态语义增强,提升分类精度。3)使用交叉注意力机制实现语义特征与图像特征的合理融合。4)多粒度扫描与级联森林的配合替代传统分
12、类器,取得对复合特征向量较好的分类效果。运用本文模型算法优化货物报关流程可极大地提升报关效率、确保报关信息准确度、降低报关成本,促进传统报关模式向信息化、智能化模式的全面转型,因此相关研究有着非常重要的现实意义。1相关工作货物品名分类问题可以抽象为短文本分类问题,其本质是将不同的货物描述文本准确分类到不同类别(货物名)。依据与本研究内容的相关性,本文将所涉及的文本分类算法分为机器学习和深度学习、预训练及其改进模型2类。1.1机器学习和深度学习分类算法如何运用机器学习算法研究本问题,Ma等4和李晓峰等5分别结合改进的SVM模型与XGBoost模型实现货物品名精准分类;而贺波等6将Attentio
13、n机制运用到特征向量的表示中,调整词语权重,再结合LSTM模型显著提高了货物品名分类精度。这些算法取得较好效果,但其仅运用了Word2Vec等静态词向量模型表示特征,缺失了对上下文语义的理解与表示,无法解决一词多义问题。1.2基于预训练模型的分类算法随着深度学习算法的发展,陆续出现了基于预训练机制大规模语言模型,如ELMO7、GPT8、BERT9等,这些模型在预训练和注意力机制的双重作用下可以更好地捕获词语所蕴含的上下文语义,实现动态词嵌入、解决一词多义等问题,在下游的短文本分类任务中,利用ELMO模型可实现对录音文本的分类10,运用GPT模型对邮件评论短文本进行分类也取得了很好的效果11;而
14、使用BERT模型对短文本进行句子层面的特征向量表示,配合softmax模型分类亦可显著提升分类的精度12。当然,预训练模型也存在参数众多、收敛缓慢、对硬件要求高等问题,于是轻量化 BERT 改进模型ALBERT13、MobileBERT14被提出,通过知识蒸馏机制15、任务无关机制16等措施提升了 BERT 模型部署运用的灵活性。同时,BERT模型也是许多混合模型主要组成部分17-20,对混合模型的性能提升发挥着显著的作用。于是,利用BERT预训练模型在获取上下文语义的同时实现词向量的动态表示则成为本文模型构建的主要思路。据已有研究可知,同时使用与文本内容相对应的图像特征可以有效地提升文本分类
15、精度21-22,此研究基础也为本文模型使用多模态特征提供了借鉴与参考。2本文模型2.1算法设计流程首先是数据筛选、清洗、标注、分词等数据预处理;其次,分别使用BERT模型和TF-IDF模型23提取语料不同类型的特征。其中BERT主要提取语义特征;TF-IDF提取词频统计特征;接着,拼接语义词向量和词频向量,使用词频特征增强文本语义特征;然后,使用ViT模型24提取货物图片特征,生成128维特征向量;接下来,根据谢豪等25图文特征融合研究成果,将短文本语义增强后的特征向量与图像特征向量计算交叉注意力,并进行特征融合。最后,复合特征向量经多粒度级联森林26分类器,完成货物品名分类任务。图2所示为基
16、于复合语义增强模型的报关货物品名分类算法流程图。2.2TF-IDF模型提取词频特征TF-IDF 模型23是一种用于数据挖掘的算法模型。其中TF是词频,IDF是逆词频。通常使用该模型来度量语料集中某个字或者某个词语对于包含这个字或者这个词语的文本的重要程度。本算法运用该模型来提取短文本词频特征。TF-IDF数值的计算图1海关报关单实例中华人民共和国海关进口货物报关单预录入编号:海关编号:进口口岸(C)经营单位食品公司442391(E)收货单位442391许可证号批准文号(M)合同协议号WT 2003/20集装箱号(Q)标记唛码及备注TRLU3837719/20/2800项号 商品编码 商品名称、
17、规格型号数量及单位(R)原产国(地区)(S)单价 总价 币制(T)征免0103032210大西洋蛙鱼5025一般征税0203034400冷冻金枪鱼5028.05一般征税税费征收情况录入员录入单位报关局单位地址路号邮编电话填制日期(G)起运国(地区)美国(J)成交方式3(N)件数500(A)备案号兹声明以上申报无讹并承担法律责任(P)随附单据A:3506002003382运输方式(F)贸易方式一般贸易(K)运费502/500/3(H)装货港纽约(O)包装种类1(D)运输工具名称MIN HP/208WO征免性质(L)保费2进口日期毛重(公斤)用途海关审单批注放行日期(签章)审单审价征税统计(I)境
18、内目的地44239(B)申报日期2003.09.28提运单号征税比例杂费净重(公斤)722023年第3期如公式(1):w()tj,di=tf()ti,dj idf()ti,dj=tf()ti,dj lg()Nnj+0.01(1)其中,w()tj,di为特征词权重;tf()tj,di为特征词词频;idf()tj,di为特征词在文档di中的逆词频;N为语料集中文档总数;nj为语料集中出现特征词的文档数。如图 3 所示,计算货物描述文本中词语的 TF-IDF 值,对语料集中的任意短文本可以表示为Di=wt1,wt2,wtn,其中Di为第i个文本,wtn为该文本中第 n个词语 TF-IDF 值,生成各
19、文本所对应的 TF-IDF序列。2.3BERT模型提取语义特征BERT模型9中含有双向Transformer编码层,能较好地捕捉文本中上下文语义特征,本文算法用BERT模型提取文本初始语义特征。图4为短文本字粒度输入BERT模型,BERT模型将为其嵌入 3 个部分内容,分别是字向量 (TokenEmbedding)、文本向量 (Segment Embedding)和位置向量(Position Embedding),经训练输出语义特征向量dm,可表示为公式(2),因为是单文本encoder任务,所以无需SEP。其中组成字wij嵌入的字向量、文本向量和位置向量的维度均为768。Multi-Head
20、AttentionForestForestForestForestForestForestForestForestAVGsoftmaxForestForestAVG牛肉台灯T恤眼镜手机手机第N层完全随机森林随机森林第1层BERTTF-IDF数据采集数据筛选用户字典分词系统去停用词语料聚类数据预处理 文本文本特征工程词频特征语义频特征语义向量词频向量T恤短袖新款圆领纯棉女装货物图片图像特征提取模型图像特征向量交叉注意力权重矩阵全连接层增强语义复合特征向量多粒度级联森林分类器图块扁平化线性映射Norm0*1 2 3 4 5 6 7 8 9NormMLPTransfortnerEncoderLxw1
21、w2w3wiw3n图4BERT模型文本语义提取流程新款T恤白男纯棉:TokenEmbeddingsBERTE0E1E2E3E4E5E6E7E8EPEPEPEPEPEPEPEPEPECLSE新E款ETE恤E白E男E纯E棉+计算句向量Dm=1nWini=1768维句向量CLS:SegmentEmbeddings:PositionEmbeddingsInputCE新E款ETE恤E白E男E纯E棉Class Label李晓峰,等:基于增强语义模型的货品名分类算法图2货物品名分类算法设计流程图3文本词频特征计算流程73计算机与现代化2023年第3期dm=wij(+)(2)在模型的训练过程中,多头注意力层将
22、发挥重要作用,合理分配权重;多头自注意力层中的注意力机制计算可表示为公式(3)的形式:attention_output=Attention(Q,K,V)(3)Multi-Head Attention 是通过 h个不同的线性变换对Q、K、V进行投影,最后把不同Attention值拼接,如公式(4)和公式(5):Multi-Head(Q,K,V)=concat(head1,headh)Wo(4)headi=Attention()QWQi,KWKi,VWVi(5)其中,Wo为head1,head2,headh权重分配矩阵,WQ、Wk、WV分别是Q、K、V权重矩阵。其中的Self-Attention部
23、分则是令Q、K、V相同即可。此外,在计算Attention的时候采用了scaled dot-product算法,将结果进行缩放,如公式(6):Attention(Q,K,V)=softmax()QKTdkV(6)其中,dk为 Q 向量和 K 向量的维度。再由第 11 层Transformer编码层获取词向量表示,并通过公式(7)计算当前文本句向量Dm:Dm=1ni=1nWi(7)其中,n是词语个数,Wi是词向量。将计算所得768维的句向量Dm与词频特征向量Di进行拼接,再经全连接层后降维至128维,获得复合语义向量Dm,拼接如公式(8):Dm=DmDi(8)2.4ViT模型提取图像特征ViT(
24、Vision Transformer)24模型的核心思想是将一张图片划成固定大小的图块(patches),经线性变换得到各图块嵌入(Patch Embedding)表示,包括图块嵌入与位置嵌入(Position Embedding)这2种嵌入机制。模型嵌入过程如图5所示。图5ViT模型图像嵌入过程本文使用该模型提取货物图像特征。首先将图像(C,H,W)分割为N个大小为(C,P,P)的不重叠图像块。这里 C 为图像通道数,H 和 W 为图像的高和宽,表示为N=HW/P2。然后,将划分后的图像块折叠拉平生成词嵌入向量,并依据图像块原来所在位置分配位置嵌入向量(pos),再为其添加一组随机向量用于分
25、类(CLS),将所有的词嵌入向量和位置嵌入向量沿着特征方向拼接,得到N+1个大小为T的向量,T=CP2。接下来,因Transformer的多头注意力机制包含多个并行自注意力机制,输入大小为(B,N+1,D)的张量,作为计算自注意力机制所需的Q,K和V所对应的值,这里的B为批次维度,N+1为特征数量,D为特征维度,自注意力机制输出为SA,则此过程可表示为公式(9):SA=Softmax()()QWQi()KWKiTdi VWVi(9)其中,WQi,WKi,和WVi,分别为Q、K和V对应的权重矩阵;di为特征维度系数。将经过多头注意力机制后的输出和输入求和,即进行残差连接,并对输出结果进行归一化处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 增强 语义 模型 货品 分类 算法 李晓峰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。