基于知识图谱WordNet...在YOLO9000中的应用_褚云飞.pdf
《基于知识图谱WordNet...在YOLO9000中的应用_褚云飞.pdf》由会员分享,可在线阅读,更多相关《基于知识图谱WordNet...在YOLO9000中的应用_褚云飞.pdf(5页珍藏版)》请在咨信网上搜索。
1、本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.4,February2023基于知识图谱WordNet实现多数据集合并及其在YOLO9000中的应用褚云飞1,陈业红1*,吴朝军2*(1.齐鲁工业大学 轻工学部 新媒体技术系,山东 济南 250353;2.齐鲁工业
2、大学 轻工学部 生物基材料与绿色造纸国家重点实验室,山东 济南 250353)摘要:超大规模训练数据及数据标注的高额代价是基于深度学习的目标检测算法面临的挑战之一,随着可检测目标类别数目的增加,情况变得尤其严重。YOLO9000提出一种目标检测和图像分类联合训练的方法,对COCO检测数据集和ImageNet分类数据集合并使用,提供了充足的训练数据,检测对象类别达到9000种。文章探讨YOLO9000中采用的数据集合并方法,即利用知识图谱WordNet信息,在两个不同类别的大型数据集上实现无冲突的图像标注策略。此方法以WordNet 为语义检索,构建 WordTree 数据结构,辅以在层级间进行
3、局域概率计算的多域 Softmax 函数设计,使得YOLO9000可以检测没有任何标记的检测数据的对象类别,大大提高了目标检测系统的检测数量,同时依然保持良好的实时性。本文论述的方法对于不同来源的数据集实施合并具有重要的指导意义。关键词:WordNet;WordTree;深度学习;目标检测;YOLO9000;Softmax中图分类号:TP183文献标识码:A文章编号:1009-3044(2023)04-0010-04开放科学(资源服务)标识码(OSID):1 概述在如今的生活中,人脸识别、自动驾驶、车辆检测、行人检测等视觉技术早已得到了普遍应用,为人们众多工作生活带来了便利。这些检测识别技术背
4、后依靠的是目标检测算法的产生和发展。社会生活要求目标检测系统足够快速、足够准确、有足够的能力检测更多对象。从传统到深度学习,目标检测算法不断地更新换代,不断改进先前的不足并提出更加强大和富有创意的方法。2014年,Ross Girshick极具创造性地提出Region-CNN算法,目标检测的实现从此拥有了卷积神经网络(CNN)的支持,继之以Fast R-CNN、Faster R-CNN,目标检测算法在深度学习的强大动力下不断改进1-2。由于R-CNN的网络是two-stage双阶段结构,也就是将候选区域的检测和分类识别分成两个阶段执行,它的系列算法检测精确度高,但缺点是检测速度慢,无法满足实时
5、性。2016年,Joseph Redmon提出YOLO算法,将候选区域检测和分类识别合为一个,成为Onestage单阶段结构的开山之作,大大提高了目标检测的速度。然而YOLO也有不足之处,与Fast R-CNN等基于Region proposal的方法相比,YOLO存在更大的定位误差和更低的召回率3。为了解决这些问题,一年后,Joseph Redmon 与导师 Ali Farhadi 对 YOLOv1 进行改进,发表了论文 YOLO9000:Better,Faster,Stronger,也就是YOLOv2,提高了YOLO的召回率,并对目标 精 确 定 位 改 进,同 时 保 持 了 分 类 准
6、 确 性。YOLO9000使用了World Tree整合COCO和ImageNet数据集,并在其上进行联合训练,能够检测9000多个目标类别,这是联合检测数据集和分类数据集实施共同训练突破数据集瓶颈的重要一步4。因此,笔者认为World Tree的构建,在整合数据以识别更多对象的工作中起到了关键作用。众所周知,深度学习的主要局限来自它对训练数据的规模和质量的极高要求,而基于WordTree的数据集合并策略无疑是解决此类问题的一般性方法,所以明晰YOLO中构建WordTree的基本原理和实现方法就具有非常重要的意义。2 相关工作2.1 知识图谱工具:WordNet内在的意义类似于一个最常见的依靠
7、语言学整合而成的英语词典,但更加具体的描述在于它还是一种知识谱图应用实例,即这本词典中的所有单词根据它们彼此间的意义联系组成了一个庞大的网络,所以我们常常将WordNet称作“单词的网络”。WordNet不仅提供了每个概念的含义,而且给出了单词的近义词或反义词,同时阐释出一义多词、一词多义、类别归属等收稿日期:2022-09-20基金项目:山东省制浆造纸科学与技术教育部重点实验室主任基金项目(ZR202001);2022年国家级大学生创新训练项目作者简介:褚云飞(2000),女,山东潍坊人,在读本科生,主要研究方向为新媒体技术;陈业红(1969),女,河北保定人,讲师,博士,主要研究方向为人工
8、智能与计算机视觉;吴朝军(1969),男,河南新乡人,教授,博士,主要研究方向为轻工科学与人工智能。10DOI:10.14004/ki.ckt.2023.0216人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)问题,使用WordNet的基本功能可以参见文献5。作为知识图谱的应用工具,在数据标注上有重要语义作用6。图1是WordNet的一个应用网页,在检索栏中输入一个预检索的单词,选择检索的选项(同义、反义,关联等),可以输出相对应的所有单词义集以及例句。图1WordNe
9、t网站实例2.2 大型视觉数据库2.2.1 ImageNetImageNet是根据WordNet中的语义关系构建的图像数据集,其不仅数据量大而且带有数据标签。ImageNet数据集拥有1500万左右张图片,涉及2.2万类视觉对象。其中有超过103万张图像。ImageNet中虽然图片量大,但是全部经过了人工挑选、整理和标记,带有边框批注,是庞大的基于图像分类的数据集,类似于一个图像引擎7。ImageNet依据WordNet具有层次结构的英语词典设计标注名字空间,因而可以描述基于已有知识的不同概念间的语义关系6。2.2.2 VOCVOC数据集是著名的基于视觉目标检测任务的大型数据集,为目标检测模型
10、监督学习训练提供的标注数据,共涉及20个类别8。2.2.3 COCOCommon Objects in Context数据集可以用来完成图像物体检测、语义分割和字幕生成,主要对目标之间的上下文关系和目标的2维精确定位问题提供数据支持,是最重要的物体检测数据集之一9。MicrosoftCOCO是一个大型的数据集,包含有150万个对象实例,80个object类别,91个Stuff类别,超过33万张图片,其中20万张带有标注,分为训练、验证和测试三种数据集。2.3 Softmax()多分类输出层使用跨越所有可能类别的Softmax层来输出最终的目标类别的概率分布,是构造多分类器常使用的方法。Soft
11、max()函数输出的是每个分类的概率值,而不是输出一个整数的类别编码。通过Softmax()函数可以将多分类的输出值转换为范围在0,1,和为1的概率分布,将多分类的结果以概率形式展示出来。使用Softmax()要求同组输入Softmax层运算的元素应该是互斥的,结果输出为每个元素的条件概率。在机器学习尤其是深度学习中,Softmax()函数在多分类的场景中使用广泛10。公式(1)中,Softmax(zi)表示输出分类类别为i的概率,其中n为类别总数。Softmax(zi)=ezij=1nezj(1)图2Softmax层作为多值概率输出计算图示其中,输入的分类特征变量 z1,z2,z3经 Sof
12、tmax()映射为01之间的实数y1,y2,y3,y4并且能保证其归一化和为1。3 为什么要构建Word Tree图像分类任务一般只要求确定图像包含哪一种类别的目标,而目标检测不仅要确定图像类别,还需要确定目标的位置和大小,由此可见,检测数据集同时包含了分类信息和定位信息。用于检测任务的数据集标注工作代价更大,所以带标注的检测数据集的体量比起面向分类任务的数据集要小很多11-12。YOLO9000若想要检测更多的对象,但缺少对象检测训练的样本,于是联合ImageNet大量的分类样本和COCO的对象检测数据集一起训练,用仅带有分类标注的数据集来扩展可检测类别的数量,实现对更多种类的图像目标进行定
13、位和分类。YOLO9000同样使用跨所有可能类别的Softmax()输出层映射目标类别的概率分布,这也是多分类常常使用的方法。最直接的方法可以把 ImageNet 中的9000种类别的数据合并到COCO数据集中,并将Softmax()分类层改成9000维。然而,通过Softmax函数预测各个类别的概率分布的前提条件是:待检测的类别之间应该是互斥的,即不同输出类别对应的实例集合之间的交集应该是空。然而,ImageNet的对象类别与COCO的对象类别存在大量重叠,并不满足类别互斥的要求。COCO是检测数据集,一般只标注了常见目标而图像分类数据集ImageNet具有更广泛的标签范围。比如COCO数据
14、集中有“猫”这个类别,ImageNet中同样有此类别,并且又细分多个不同品种的猫,显然猫与不同品种的猫是包含关系,并不相互独立,所以无法用单个Softmax来做对象分类。YOLO9000作者选择将ImageNet和COCO数据集结合起来共同训练。如何整合数据,需要解决哪些问题以及如何解决这些问题是成功的关键。首先,针对具体实施中遇到的COCO和ImageNet数据集中类别不完全互斥的问题,作者提出了将两个数据集按照一定的框架整合到一起,形成一个具有多层分类结构的11本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第4期(20
15、23年2月)第19卷第4期(2023年2月)方法,即层级分类(Hierarchical classification)的方法4。两个数据集中类别依据的从属关系框架来自 WordNet这个表示单词内部关系的知识图谱工具。最后,解决完所有问题,YOLO9000 的作者根据设想建立出一种树型结构WordTree,提供能解决标签互斥的多标签标注机制。比如 COCO 对象类别有“狗”,而 ImageNet 细分成100多个品种的狗,狗与100多个狗的品种是包含关系,而不是互斥关系。一个“Norfolk terrier”标签同时也是“dog”,就可以采用“dog”和“Norfolk terrier”两个标
16、签来标注。YOLO9000没有直接使用WordNet对图像分类而是重新建立树的结构,原因在于WordNet是一个有向图结构,一种对象可以同时从属于多种属 性,比 如:dog 既 是 一 种 canine(犬),也是一种 domestic animal(家畜),它们都是WordNet中的同义词。语言的复杂性限制了数据集训练的可行性,YOLO9000并不使用完整的图结构,而是要通过ImageNet构建分层树来简化问题,使对象间的从属关系直接简洁,方便对象分类。4 如何构建WorldTree构建好的WordTree有9418个节点(对象类型),包括ImageNet 的Top 9000个对象,COCO
17、对象,以及ImageNet对象检测挑战数据集中的对象,以及为了添加这些对象,从WordNet路径中提取出的中间对象。结合COCO和ImageNet建立的WordTree如图3所示。World Tree以physical object为根节点,各名词依据相互间的关系构建树枝、树叶,节点间的连接,表达对象概念之间蕴含的上下位关系。构建World Tree的步骤是:1)建立WordTree根节点(Physical object);2)首先检查 ImagenNet和COCO中的所有欲加入的对象Oi;3)然后在WordNet中找Oi到对应的节点Ni;4)如果该节点 Ni 到 WordTree 根节点 R
18、(Physicalobject)的路径只有一条,就将该路径以及路径上的所有节点添加到WrodTree,转6(大部分对象都只有一条路径);5)否则,反复检查路径不唯一的对象所有的想要添加到已有的WordTree的路径长度,从中选择一条尽可能短的路径添加到已有WordTree中,转6;6)如果所有节点已加入,结束,否则转2。如图4所示,金毛狗的路径可以是金毛属于狗,狗属于动物,动物属于根节点object;也可以是金毛属于宠物,宠物又同时属于狗和豢养动物,豢养动物和狗都属于动物,最后找到根节点 object。找到金毛在WordNet中的三条路径,发现后述两条路径都有四条边,而第一条所述路径有三条边,
19、为最短路径,于是舍弃其他路径,将最短路径加入到已有WordTree中。依此方法,YOLO2 根据 WordNet,将 ImageNet 和COCO中的名词对象一起构建了一个WordTree,并且Wordtree中每个对象只有唯一路径连接到根目录。以Physical object为根节点,各名词依据相互间的关系构建树枝、树叶,节点间的连接,表达了对象概念之间蕴含的上位/下位关系。至此,虽然整个WordTree中的对象之间不是互斥的关系,但对于单个节点,属于它的所有子节点之间是互斥关系,这样就可以针对从属于同一层级对象的子节点使用Softmax操作来预测该层级下所有平行类别之间的概率分布。这样使用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 图谱 WordNet YOLO9000 中的 应用 褚云飞
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。