基于TextCNN的邮政快递业申诉文本事件分类.pdf
《基于TextCNN的邮政快递业申诉文本事件分类.pdf》由会员分享,可在线阅读,更多相关《基于TextCNN的邮政快递业申诉文本事件分类.pdf(5页珍藏版)》请在咨信网上搜索。
1、计算机时代 2023年 第12期0 引言邮政快递业与我们的日常生活密切相关,但一部分快递企业在追求利益的同时,难免忽略了一些客户体验,缺件丢件、包裹损坏、时效延长等问题也经常被提及,客户对快递服务的不满成为制约快递业发展的一大原因。邮政快递业的申诉渠道每月都会收到大量针对各类邮政快递事件的申诉信息。这些申诉信息以工单的形式进行采集,其中,申诉事件描述字段是本文将要处理和分类的对象,该字段包含申诉当事人描述的事发地点、发生日期以及对事件经过的详细描述等重要信息。但是在实际采集过程中,存在数据量大、描述信息缺失、格式和内容不统一等问题,导致目前人工进行申诉关键信息提取与分类汇总效率低下,误报或漏报
2、情况时有发生,且为邮政业安全中心对快递业的监管和决策带来诸多不变。为了解决这些问题,本文采用文本特征提取与深度学习模型对上述从平台导出的大量快递业申诉工单中的事件描述文本进行快速准确的自动分类,明确每个申诉事件的原因。文本分类是自然语言处理中的一个重要分支,二十世纪九十年代,机器学习的方法逐渐成熟,例如决策树1,朴素贝叶斯2,支持向量机3等,这些方法在DOI:10.16644/33-1094/tp.2023.12.026基于TextCNN的邮政快递业申诉文本事件分类*宁艺博,陈景霞,张鹏伟,王梅嘉(陕西科技大学,陕西 西安710021)摘要:为解决邮政安全监管部门在对大量申诉事件原因进行分类汇
3、总时耗时耗力、效率低下等问题,提出应用Word2vec和TextCNN模型,实现对大量快递申诉文本事件进行申诉原因自动分类。首先对自采集的申诉文本做预处理,申诉原因分为延误、投递、丢失短少、损毁、其他共五种类型,再使用Word2vec进行词向量的转换,构建TextCNN模型,对其进行训练得到申诉文本的分类模型。在真实数据上的实验结果表明,该方法能够对申诉文本进行有效分类,准确率达到94.05%,召回率93.03%,F1值0.9325。关键词:快递业申诉事件;文本分类;Word2vec;TextCNN中图分类号:TP391.1文献标识码:A文章编号:1006-8228(2023)12-120-0
4、5TextCNN based appeal text event classification for postal express delivery industryNing Yibo,Chen Jingxia,Zhang Pengwei,Wang Meijia(Shaanxi University of Science and Technology,Xian,Shaanxi 710021,China)Abstract:To solve the problems of time-consuming,labor-intensive,and inefficient classification
5、and summary of the causes of alarge number of appeal incidents by postal security regulatory authorities,a Word2vec and TextCNN combined method is proposedto achieve automatic classification of appeal reasons for a large number of express delivery industry appeal texts.Firstly,the self-collected app
6、eal text is preprocessed and divided into five types:delay,delivery,loss or shortage,damage,and others.Then,Word2vec is used to convert the text into word vectors,and TextCNN model is constructed and trained to obtain a classificationmodel for the appeal text.The experimental results on real data sh
7、ow that this method can effectively classify appeal texts,withan accuracy of 94.05%,a recall rate of 93.03%,and an F1 value of 0.9325.Key words:appeal events in the express delivery industry;text classification;Word2vec;TextCNN收稿日期:2023-08-23*基金项目:国家自然科学基金(61806118);陕西科技大学科研启动基金项目(2020BJ-30);陕西省教育厅科
8、学研究计划项目(22JK0303)作者简介:宁艺博(1998-),女,陕西延安人,研究生,主要研究方向:深度学习、自然语言处理。通讯作者:陈景霞(1979-),女,陕西西安人,博士,教授,主要研究方向:数据挖掘、深度学习、多模态情感计算等。120Computer Era No.12 2023一定程度上实现了文本的自动分类,也在各个领域得到了广泛的应用。但传统机器学习方法在构建分类器之前需要进行复杂的人工特征抽取,而深度学习算法解决了这一问题。因此,目前深度学习的方法饱受研究者们的关注4。GolVe和Word2vec等5词向量模型的提出,为深度学习算法在文本分类领域的推广应用奠定了基础。Miko
9、lov等人6提出的Word2vec方法能够将单词表示为空间词向量,进而输入到模型中去进行下游任务,之后又建立了基于RNN的语言模型,在文本分类任务中取得了好的效果。Kim等人使用卷积神经网络进行了文本分类7,提出了TextCNN模型,经过在七个公开的文本分类和情感分析数据集上的实验,TextCNN模型相比其他算法取得了更高的准确率,研究结果证明了单词向量的无监督预训练是NLP深度学习的重要组成部分,浅层的神经网络也能够在文本分类任务上进行准确分类。Liu P等人8重点研究了RNN模型对高并发情况的处理能力,使用多任务学习框架来跨多个相关任务进行联合学习,并简化了特征工程环节的工作。Joulin
10、 A等提出了一种准确率较高,而且模型的训练速度超快的 FastText 分类模型9,大大节约了训练成本。Rie Johnson等提出一种用于文本分类的低复杂度单词级深度卷积神经网络10即DPCNN模型,可以有效地表示文本中的长距离关联,在情绪分类和主题分类的六个基准数据集上,模型的表现优于之前的最佳模型。本文使用TextRNN等深度学习模型进行对比实验,实验结果表明,相比于人工分类和其他对比方法,本文所采用的方法分类性能更优,为解决邮政部门海量申诉信息的自动分类汇总和评判决策提供了一种有效途径,具有重要的理论意义和应用价值。1 研究方法本文在收集到申诉事件文本数据后,首先进行数据的预处理11,
11、再对文本数据进行向量化处理,最后输入到构建的深度学习模型中进行深度特征提取与分类。具体步骤如下:通过邮政安全中心12345申诉平台,收集到快递业相关申诉事件的描述文本。对收集到的文本数据进行预处理,包括去除停用词,中文分词等,接着使用Word2vec模型对文本数据向量化处理,作为embedding层。利用TextCNN模型对embedding词向量,使用大小分别为2*2,3*3,4*4的三种尺寸的卷积核,经过卷积层和池化层对向量做进一步的文本特征提取。将提取到的文本特征输入softmax层做具体的事件分类。本文的研究路线如图1所示。图1研究路线图1.1 数据集的制作本文的数据来自12345申诉
12、平台推送的真实申诉数据。由于收到的快递业申诉事件的文本中,包含许多无意义的标点符号,停用词等,因此在进行实验之前,需要对收集到的文本数据进行清洗等预处理,之后再进行标注,具体步骤如下:去除停用词快递业申诉文本中包括许多与分类任务无关的词,去停用词可以有效提高句子理解和文本处理的效率和准确性。本文基于百度停用词表对照,对文本数据中的停用词做了删除处理。中文分词在本文所需要处理的快递业申述事件文本中,有许多快递行业的专有名词,比如“菜鸟驿站”,“转运中心”,“派送站点”等,因此在数据预处理阶段,对文本进行分词显得尤为重要。分词是指将申诉文本进行划分,得到一个最基本的特征单元,比如一个字或是一个词语
13、。目前的中文分词方法主要有三种12,分别121计算机时代 2023年 第12期为基于字符串匹配的分词方法,基于统计的分词方法以及基于理解的分词方法。本文采用jieba分词工具对快递业申诉文本进行分词处理,在通用词库的基础上导入快递业相关的部分名词,将快递业申诉事件文本关键词进行优化分词,并与申诉事件文本候选关键词进行比照,再进行权重排序,最终作为特征关键词输入模型。人工标注类别将申诉事件文本进行人工类别标注,按照事件的申诉原因,分别标记为延误、投递、丢失短少、损毁、其他共五类,并按照该顺序标记为0-4的标签。为了保持各类别文本数据数量基本平衡,本文共抽取了10535条文本数据进行实验。每条申诉
14、事件文本的长度不超过200字,并且在实验过程中以8:1:1的比例随机抽取文本数据分别作为训练集、验证集和测试集。用“XX”屏蔽掉了申诉人的个人信息和具体快递网点的信息,去除停用词并进行中文分词后的部分数据展示如表1所示。表1部分实验数据文本数据购买的快递自4月3日已发货物流显示4月10日已到达 XX但至今一直未收到市民收货地为XX多次联系客服至今未果快递收货地为 XX但快递配送员在未经许可的情况下将快递送至 XX驿站而且不联系告知快递已送达群众对此不认可市民反映从XX发往XX的快递至今未送达快递显示 2022年 1月 22日到达 XX中转站 1 月24日快递员打了电话快递员表示快递疑似丢失至今
15、未找到市民 1 月 15 日通过 XX 县的 XX 快递发了 15箱苹果收货地为XX收到货后发现其中5箱损坏1月19日联系快递公司反映一直无人处理市民反映1月20日在XX区XX路XX快递代办点寄两条烟被告知两条烟邮费30元市民咨询 XX快递总公司告知按照称重计费即可市民认为此处乱收费类别设置延误(0)投递(1)丢失短少(2)损毁(3)其他(4)1.2 文本向量化本文所处理快递业申诉文本数据是不可计算的非结构化的数据,因此在进行分类之前需要将文本数据转化为计算机可以识别的、可计算的向量。词嵌入模型是目前实现词语到其特征向量映射的一种最有效的方法13。基于Word2vec模型来获取词向量特征,通过
16、词向量的表示,向量之间的空间距离就可以体现出词与词之间的相似度。Word2vec 提供了两种训练模型,即CBOW(Continuous Bag-of Words)连续词袋模型和Skip-gram连续跳字模型14。CBOW模型是根据一个词的前后词去预测中间词的概率。对于一个词wt,该模型分别利用它左边及右边的k个词,来预测它对于词典中属于某个词的概率P,进行预测的目标函数L可表示为:L=t=1Tp(wt-k,.,wt-1,.,wt+k)其中,T表示词典中的词汇数,CBOW 模型训练就是求L目标函数的最大值。Skip-gram模型与CBOW模型则恰恰相反,它是利用中间词去预测前后词的概率,对于一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 TextCNN 邮政 快递 申诉 文本 事件 分类
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。