图书馆在架图书书脊与标签实例分割方法研究.pdf
《图书馆在架图书书脊与标签实例分割方法研究.pdf》由会员分享,可在线阅读,更多相关《图书馆在架图书书脊与标签实例分割方法研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、新 疆 农 业 大 学 学 报 2 0 2 3,4 6(2):1 3 91 4 5 J o u r n a l o f X i n j i a n g A g r i c u l t u r a l U n i v e r s i t yD O I:1 0.2 0 0 8 8/j.c n k i.j x a u.2 0 2 3.0 2.0 0 8图书馆在架图书书脊与标签实例分割方法研究尤永鹏1,董 峦1,尹书林1,李佳航1,艾里亚尔阿不都克里木2(1.新疆农业大学 计算机与信息工程学院,乌鲁木齐 8 3 0 0 5 2;2.新疆农业大学 图书馆,乌鲁木齐 8 3 0 0 5 2)摘 要:准确获
2、取图书信息是智能化管理图书的关键,为实现在架图书书脊和书脊底部标签的精确分割,本研究在S p a r s e I n s t基础上提出增强编码器实例分割模型E E-S p a r s e I n s t。该模型使用特征选择对齐模块将特征图对齐并融合,以减少边界信息损失,使用边界解析模块增强相邻书脊边缘处的语义表示,提高掩码的分割质量。建立在架图书图像数据集,数据集包含2 2 5 3张图像和标注信息。结果表明,E E-S p a r s e I n s t平均精确率达到8 0.8 1%,相较于C e n t e r M a s k、S O L O v 2、P o l a r M a s k和S
3、p a r s e I n s t 4种 主流 锚 框自 由式 实例 分 割方 法 分 别 提 高 了7.5 7%、2 0.0 7%、1 0.5 0%、0.7 4%。关键词:实例分割;图书分割;特征对齐;边界增强中图分类号:T P 3 9 1.4 1 文献标识码:A R e s e a r c h o n I n s t a n c e S e g m e n t a t i o n M e t h o d b e t w e e n S p i n e a n d L a b e l o f L i b r a r y B o o k s o n S h e l fYOU Y o n g-p
4、 e n g1,D ON G L u a n1,Y I N S h u-l i n1,L I J i a-h a n g1,A i l i y a e r A b u d u k e l i m u2(1.C o l l e g e o f C o m p u t e r a n d I n f o r m a t i o n E n g i n e e r i n g,X i n j i a n g A g r i c u l t u r a l U n i v e r s i t y,U r u m q i 8 3 0 0 5 2,C h i n a;2.L i b r a r y o f
5、 X i n j i a n g A g r i c u l t u r a l U n i v e r s i t y,U r u m q i 8 3 0 0 5 2,C h i n a)A b s t r a c t:O b t a i n i n g t h e i n f o r m a t i o n o f b o o k s a c c u r a t e l y i s t h e k e y o f i n t e l l i g e n t m a n a g e m e n t o f b o o k s,s o i n o r d e r t o a c h i e v
6、 e t h e a c c u r a t e d i v i s i o n o f t h e s p i n e a n d t h e b o t t o m o f t h e s p i n e l a b e l o f t h e s h e l f b o o k,t h i s p a p e r p r o p o s e d t h e E n h a n c e d E n c o d e r i n s t a n c e s e g m e n t a t i o n m o d e l E E-S p a r s e I n s t b a s e d o n
7、 S p a r s e I n s t.T h e f e a t u r e s e l e c t i o n a l i g n m e n t m o d u l e w a s u s e d t o a l i g n a n d f u s e f e a t u r e m a p s t o r e d u c e b o u n d a r y i n f o r-m a t i o n l o s s a n d t h e b o u n d a r y r e s o l u t i o n m o d u l e w a s a p p l i e d t o e
8、 n h a n c e t h e s e m a n t i c r e p r e s e n t a t i o n a t t h e a d j a c e n t s p i n e e d g e s,t h u s i m p r o v i n g t h e s e g m e n t a t i o n q u a l i t y o f t h e m a s k.I n a d d i t i o n,a n o n-s h e l f b o o k i m a g e d a t a s e t w a s c o n s t r u c t e d,w h i
9、 c h c o n t a i n e d 2 2 5 5 i m a g e s a n d a n n o t a t i o n i n f o r m a t i o n.T h e e x p e r i m e n-t a l r e s u l t s s h o w e d t h a t t h e a v e r a g e p r e c i s i o n o f E E-S p a r s e I n s t r e a c h e d 8 0.8 1%,w h i c h i m p r o v e d 7.5 7,2 0.0 7,1 0.5 0,a n d 0.
10、7 4 p e r c e n t a g e p o i n t s c o m p a r e d w i t h t h e f o u r m a i n s t r e a m a n c h o r f r a m e f r e e-f o r m i n-s t a n c e s e g m e n t a t i o n m e t h o d s:C e n t e r M a s k,S O L O v 2,P o l a r M a s k,a n d S p a r s e I n s t,r e s p e c t i v e l y.K e y w o r d
11、s:i n s t a n c e s e g m e n t a t i o n;b o o k s e g m e n t a t i o n;f e a t u r e a l i g n m e n t;b o u n d a r y e n h a n c e m e n t 随着图书馆藏书数量和学生阅览人数的增加,书籍的管理变得更加困难。只有书脊部分可以被观察到,书脊上的标签是鉴别每本图书身份的依据;相同书籍的不同副本经常摆放在一起,纹理和颜色相似;不同图书薄厚高低不同、倾斜角度不一、密集排列。基于图像处理的图书自动定位方法已经成为研究热点1。近年来由于深度学习的兴起,计算机视觉获
12、得了跨越式发展。实例分割作为计算机视觉中的基本任务之一,可以更准确地检测出图像中的物体,主要分为两阶段法和单阶段法2。两阶段法首收稿日期:2 0 2 3-0 2-2 2通讯作者:董 峦,E-m a i l:d l x j a u.e d u.c n新 疆 农 业 大 学 学 报2 0 2 3年 先对图像进行候选区的筛选,然后对候选区域进行分割3。单阶段法同时执行检测和分割任务。目前,主流的单阶段法又分为基于锚框和锚框自由两类4。基于锚框的方法,需要预先根据数据集定义锚框大小,这在调参过程中消耗时间,而且针对不同的任务需要,模型的迁移能力也受到影响5。锚框自由的方法实现简单,且具有较强的泛化性。
13、C e n-t e r M a s k6在F C O S7的基础上,提出了空间注意力引导掩码分支(S AG-M a s k),在每个检测框上预测一个掩码。S O L O v 28提出动态分割实例掩码的思路,将对象掩码生成解耦为掩码核预测和掩码特征学习,分别负责生成卷积核和要卷积的特征图,然后对掩码特征用生成的掩码核进行卷积操作,得到实例掩码。P o l a r M a s k9将实例分割问题建模为在极坐标下通过实例中心分类和稠密距离回归来预测实例的轮廓,为实例分割提供了新的建模方式和研究思路。S p a r s e I n s t1 0生成一个稀疏的实例激活图集合,通过实例激活图探索了一种新颖
14、的对象表示方法,以突出每个前景对象的信息区域。然后根据突出显示的区域聚合特征,得到实例级特征,用于识别和分割。S OT R1 1在不使用目标检测器的情况下,动态预测每个实例的分割掩码,是一种新的基于C NN1 2和t r a n s f o r m e r1 3的 直 接 实 例 分 割 方 法。虽然上述锚框自由的方法具有执行简单、易于实现且运行速度快的特点,但这些方法存在尺度不对齐、区域不对齐和任务不对齐1 4,尤其对于图书这种排列密集、相邻书脊宽度差异大、纹理差异小的特殊数据集,更容易造成分割精度低、掩码质量差的问题。针对上述问题,提出一种锚框自由的高效分割图书书脊与标签的方法,即增强编码
15、器实例分割算法(E E-S p a r s e I n s t)。使 用 特 征 选 择 对 齐 模 块(F S AM),将自顶向下和自底向上融合时的特征图进行对齐,减少书脊边缘信息的丢失;使用边界解析模块(B DM),对融合后的特征图,增强密集图书边界处的语义信息表示,提高掩码的分割质量。同时构建在架图书书脊与标签数据集,并与主流锚框自由 式 方 法C e n t e r M a s k、S O L O v 2、P o l a r M a s k和S p a r s e I n s t进行对比,以验证E E-S p a r s e I n s t能否提高图书书脊与标签的分割精度和掩码的分割质
16、量。1 材料与方法1.1 数据集使用自建私有数据集进行训练与测试,数据集中图像拍摄于新疆农业大学图书馆在架图书,使用两部手机从书架正前方和上下左右与书架夹角为2 0 以内的方向拍摄,原始图像4 9 1张,格式为J P G,像素 在1 2 7 91 7 0 6到3 4 5 64 6 0 8之 间,使 用l a b e l m e标注工具对书脊和标签手工标注,图像标注信息在数据集中分别用b o o k 和t a g 指代。此外,为了增加样本的数量,使用数据增强方法扩充之后共计2 2 5 3张,其中竖直摆放、宽高不同且有俯拍角度和倾斜摆放的书脊分别为7 0 0、6 9 6和8 5 7张,随机划分训练
17、集1 8 9 5张、验证集2 6 0张、测试集9 8张。使用的数据增强方法是随机变换图像亮度、对比度以及给图像增加噪声。图1为3种形式下的在架图书图像。?图1 在架图书图像F i g.1 I m a g e s o f b o o k s o n t h e s h e l f1.2 方 法1.2.1 图书分割算法结构在S p a r s e I n s t1 0算 法 的 基 础 上,提 出 了E E-S p a r s e I n s t图书书脊与标签实例分割算法,由一个实例上下文 增强编码 器和一个 基 于 实 例 激 活图1 0的解码器组成(图2)。实例上下文增强编码器附着在R e s
18、 N e t1 5主干网络后,主要改进有特征选择对齐模块和边界解析模块,目的是融合多尺度特征以便加强上下文信息,实现精确的图书分割。在架图书图像首先经过R e s N e t1 5主干网络提041 第2期尤永鹏,等:图书馆在架图书书脊与标签实例分割方法研究取多尺度特征,该特征利用改进的编码器进行融合,使上下文信息得到加强,其中金字塔池化(P PM)1 6的作用是通过最大池化来扩大书脊与标签的感受野,保持速度的同时提升小目标分割的精度;特征选择对齐模块(F S AM)利用图像插值(上采样)把输入特征图放大到合适尺寸使其与目标特征图对齐,减少边缘特征损失;在融合3个尺度的特征图后,使用边界解析模块
19、(B DM)加强边界语义信息的表示1 7。经过增强编码器融合的单尺度特征图输入到基于实例激活图(I AM)的解码器中,生成实例激活图和掩码特征图,用于生成分割结果。为了区分图2中不同位置的特征选择对齐模块,将卷积层之前的特征选择对齐模块称为F S AM1,将卷积层之后的特征选择对齐模块称为F S AM2。ResNet?图2 E E-S p a r s e I n s t算法流程图F i g.2 E E-S p a r s e I n s t f l o w c h a r t1.2.2 特征选择对齐模块编码器对多尺度特征进行融合,加强不同特征图的信息交互,增强上下文信息的表示能力。在多尺度特征
20、融合时,采用自上而下和自下而上两种路径1 8。自下而上是将低分辨率特征图和使用图像插值后的高分辨率特征图进行融合,自上而下是将高分辨率特征图和使用图像抽取(下采样)后的低分辨率特征图进行求和1 9。为了保留当前特征图的特征,在多尺度特征融合时,将当前特征图的特征也进行融合。在架图书紧挨着排列,书籍多个通常都摆放在一起,存在密集、粘连问题,在特征融合阶段,使用图像插值和图像抽取之后的特征图如果没有对齐就与当前特征图相加,会损失边界信息,对图书书脊的分割造成一定干扰,如相邻的图书分割结果粘连或边界处产生放大的现象。在特征融合前,将图像插值后的特征图与目标特征图使用特征选择对齐模块(F S AM)对
21、齐之后再相加,减少边界信息的损失,提高图书书脊边界的分割效果。F S AM由特征对齐(F AM)2 0和特征选择(F S M)2 0协同实现特征对齐,本研究使用两种形式的F S AM,第一种形式2 0对应F S AM1用来将高分辨率特征图和低分辨率特征图融合对齐,第二种形式见图3,对应F S AM2,与第一种形式2 0不同,首先将高、低两种分辨率的特征图对齐,然后将中、低两种分辨率的特征图对齐,最后将高分辨率的特征图和上述融合后的特征图拼接得到融合特征图。使用F S AM之后,减少了书脊边界的信息损失,分割的精度和掩码质量也得到了提升。1.2.3 边界解析模块使用边界解析模块(B DM)进一步
22、加强特征图的边界语义信息表示1 7,使模型在训练时更关注相邻图书书脊边界处的上下文信息。F S AM和B DM相比,前者将图像插值后的特征图与目标特征图对齐,减少边界信息的损失,后者关注相邻书脊边界处的上下文信息,减少分割时的粘连现象。B DM1 7由两部分组成。在第一部分,原始特征图经最大池化和平均池化后,利用卷积层调整通道数,经S i g m o i d激活函数处理后与原始特征图逐元素相乘。在第二部分,将阈值过滤产生的结果与第一部分的结果进行拼接,然后经过S i g m o i d激活函数处理后与原始特征图逐元素相乘。接着,将第一部分和第二部分的结果再次拼接,并与原始特征图进行残差连接,从
23、而得到增强边界语义信息后的特征图。使用B DM之后,模型更加关注相邻书脊边141新 疆 农 业 大 学 学 报2 0 2 3年 界处的语义信息表示,可以增强边缘处的分割效果。?图3 特征选择对齐模块流程图F i g.3 F e a t u r e s e l e c t i o n a l i g n m e n t m o d u l e f l o w c h a r t1.3 评价指标使用平均精确率(A P)评估模型,该指标衡量模型在不同I o U(预测掩码与真实掩码的交并比)阈值下的检测性能2 1。分别计算b o o k 和t a g 两个类别的平均精确率(A Pc l a s s),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图书馆 图书 书脊 标签 实例 分割 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。