基于深度学习的工单智能检测探讨.pdf
《基于深度学习的工单智能检测探讨.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的工单智能检测探讨.pdf(5页珍藏版)》请在咨信网上搜索。
1、:/.【收稿日期】【作者简介】康珺()女高级工程师主要从事无线网络规划与分析工作:张勇()男高级工程师主要从事移动通信无线网络规划与优化工作及研究:米凯()男高级工程师主要从事移动通信无线优化及网优支撑平台开发等工 作:技术交流基于深度学习的工单智能检测探讨康 珺 张 勇 米 凯 李秀山 秦良斌中国移动通信集团内蒙古有限公司 内蒙古 呼和浩特【摘要】随着通信业不断发展网络规模逐渐增加网络集中优化派单已成为网络维护的常态随之而来的工单审核日益繁重 以运营商网络优化集中化系统中派发工单为例开展工单质量检查通过训练无线分词、增加无线专有名词、采用 模式识别新增词的方式形成无线专业语料库并根据此库进行
2、原因分析、处理过程描述两个字段的分词在判断过程中除检测关键词外引入 算法增加相近语义检测增大判断的准确性 经验证该方法准确率较好能有效提升工作效率具有较高推广性【关键词】工单检测 深度学习 词向量【中图分类号】【文献标识码】【文章编号】():/()引言近年来随着通信行业的发展行业内部竞争的加剧通信运营商提高精细管理水平降低运维成本、提升运作效率的要求越来越高 同时 网络的逐步入网技术交流 :/.网络规模逐年扩大日均派发的工单量也翻倍上升仅依赖人工抽查工单质量不仅效率偏低也存在工单质检错检、漏检情况的发生很难及时发现派单过程中出现的问题 网络优化部门只能抽取部分工单进行质量检查 从检查的情况来看
3、合格率较高网络优化部门对回复工单的检查规则相对较少同时质检人员在判断工单中的信息是否符合逻辑时在庞大的数据中单单靠观察或者心算难免会出现误差导致误判或者漏检情况发生从工单质检的现状可以看出目前人工工单质检已经满足不了行业对庞大工单数据的检测 因此提高改进技术以满足对信息处理日益增长的要求本文提供一种基于深度学习的集中优化工单质检方法在大规模复杂网络运维中通过自动化系统代替原人工工单质检提高了质检效率降低了漏检率和错检率 并且利用深度学习方法及 算法实现词向量和语义相似度对比算法从而更好的判断工单是否合格运营商的无线网络优化工作已经实现全省集中优化无线问题从发现到提出解决方案到方案实施再到效果评
4、估均实现了全线上、全集中并建成了一套完整的线上派单、回单、质检的流程 线上派发的集中优化工单包括工单类别、原因分类、原因分析、处理过程描述几项重要的回复项并通过抽查方式对其中回复工单进行质量检查 理论基础 分词算法根据现有已训练好的前缀词典实现高效的词图扫描生成句子中汉字所有可能成词情况并构成有向无环图()的特点是任意一条边有方向且不存在环路它是一个有向图具有拓扑顺序顶点的序列使得每条边在序列中都是由前到后定向的 有向无环图如图 所示图 有向无环图生成句子中汉字所有可能成词情况构成的有向无环图 根据生成的前缀字典来构造一个一个句子的 是以:的字典结构存储其中 是词在句子中的位置存放的是在句子中
5、以 开始且词句子:在前缀词典中的以 开始 结尾的词末位置 的列表即 存放的是句子中以位置 开始的、可能的、词语的结束位置这样通过查字典得到词 开始位置 结束位置列表例如:句子“抗日战争”生成:这种简单的 表示 位置开始 在 位置都是词 就是说 即“抗”“抗日”“抗日战争”这 个词在内置字典中是词如果将本专业的专业名词增加至内置字典中那么会避免一些专有名词被拆分的情况 如“开鲁玉龙公馆东南 ”是一个小区名称即专有名词 如果不增加至网络优化集中系统智能工单字典中则会被拆分为开鲁/玉龙/公馆/东南/这 个细分词这对后需语义识别带来很大的干扰采用了动态规划查找最大概率路径 找出基于词频的最大切分组合
6、基于 利用动态规划查找最大概率路径的基本思路就是对句子从右往左反向计算最大概率依次类推 最后得到最大概率路径 得到最大概率的切分组合 对于未登记的词采用了基于汉字成词能力的 模型使用 算法 在实际应用中主要用来解决概率评估、解码和学习等问题 即词向量就是一个词用一个向量来表示 年 提出 工具主要包含跳字模型()和连续词袋模型()个模型 词向量可以较好地表达不同词之间的相似和类比关系是一个 工具它可以将所有的词向量化这样词与词之间就可以定量的去度量它们之间的关系挖掘词之间的联系词向量的基本思想是通过大量语料库训练将某种语言中的每个词语映射成一个固定长度的向量通常该词向量的长度远小于该语言词典的大
7、小通常在几十到几百维 所有这些向量构成了词向量空间而每一个向量就可以视为该空间中的一个点在这个空间上引入距离的度量就可以根据词向量的距离来判断对应词语之间在句法、语义上的相似性 是归属深度学习范畴的一种自然语言学习算法 该算法能够在较短的时间内从大规模语料库中学习到高质量的词向量 通过这种方法得年 月 总第 期:/.到每个词的低纬度向量表达从而可以方便的计算词与词之间的语义相似度 它包含跳字模型()和 连 续 词 袋 模 型()种训练模型 跳字模型和连续词袋模型均包含输入层、投影层和输出层 其中 模型通过上下文来预测当前词 跳字模型则通过当前词来预测其上下文 本文使用的是 模型通过上下文词向量
8、预测当前词语义相似度可以通过余弦相似度计算 如 ()()()()其中 和 分别表示属性集合中属性值的向量和待分类工单中提取字段的向量 和 是两个 维的向量 和 分别表示 和 第 维的权值 求出来的余弦值越接近 就表明夹角越接近 度也就是两个向量越相似夹角等于 即两个向量相等 语义相似度还可以通过欧式距离来计算 如 ()()()()其中 和 分别表示属性集合中属性值的向量和待分类工单中提取字段的向量 和 是两个 维的向量和 分别表示 和 第 维的权值 表示第 维的方差 距离越大相似度越小距离越小相似度越大根据欧氏距离、余弦相似度各自的计算方式和衡量特征分别适用于不同的数据分析模型欧氏距离能够体现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 智能 检测 探讨
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。