基于AI制图的数据集制作方法及可行性论证.pdf
《基于AI制图的数据集制作方法及可行性论证.pdf》由会员分享,可在线阅读,更多相关《基于AI制图的数据集制作方法及可行性论证.pdf(6页珍藏版)》请在咨信网上搜索。
1、C o m m u n i c a t i o n&I n f o r m a t i o n T e c h n o l o g y N o.4.2 0 2 3通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)基于A I 制图的数据集制作方法及可行性论证朱莉,汉易鑫,袁利强,王猛东北林业大学机电工程学院,哈尔滨,1 5 0 0 4 0摘 要:为了解决传统数据集采集困难、部分数据对环境要求高等问题,提出一种基于A I 制图的图像数据集扩展方法并通过实验证明其可行性。验证实验以改进后的残差网络(r e s i d u a l n e t w o r k,R e s N e t)为基础
2、,采用等间距学习率调整法实现模型优化,同时使用原数据集进行对照实验。实验结果表明:利用A I 生成图像作为数据集的方法是具备可行性的,该方法准确率相较于样本较少的数据集提高了9.3 与作为对照的原数据集训练的模型相比提高了7.8?关键词:A I 制图;残差网络;卷积神经网络;数据增广中图分类号:T P 3 9 1.4文献标识码:A文章编号:1 6 7 2-0 1 6 4(2 0 2 3)0 4-0 0 8 7-0 61 引言人们在现在的生产生活中时常会用到机器学习方法来解决遇到的问题,人工智能(A r t i f i c i a l I n t e l l i g e n c e,A I)逐步
3、成为近几年来人们乐此不疲的话题。深度学习作为机器学习学科中的一个重要分支,其通过运用具有复杂结构的多层神经网络对现有数据集的特征进行非线性变换来实现对特定问题的建模。随着计算机算力的提高,近年来深度学习在各方面被广泛应用,诸如图像识别、目标检测等任务方面更是有了长足的发展凹,但是其对数据集的严格要求仍然极大地束缚与限制着深度学习的应用与发展。在实际应用中,若使深度学习网络得到更好的效果,需要在训练模型时尽可能使用更多、更精确的数据进行训练,但在采集相应数据集时常会受到环境等因素的制约,具体因素如下:一方面很多数据集采集成本高,耗时长,受到时间与环境限制过大,且对某些特定现场要求比较严格;另一方
4、面部分数据集涉及隐私及版权,在使用方面会有限制。根据以上背景,提出一种数据集拓展的方法用来更好更精确地建立模型并将其应用在实际生产任务中是十分有必要且迫切的。传统方法是使用图像增广对图像数据集进行拓展。图像增广能够通过对图像的拉伸、变形、反转、改变色调等手段,对训练图像进行一系列变化后生成细节不同的图像,对原图像数据集进行进一步扩充,在改变样本的同时减少模型对某些属性的依赖,以此提高模型的泛化能力2 1。王奕鹏3 等人使用数据增广与迁移学习实现了海参养殖水质氨氮软测量,杨炳新4 等人在抑郁症识别方面通过数据增广与模型集成策略取得了很大进展,陈悦5 等人将数据增广运用到C N N 网络用于地震数
5、据重建。图像增广作为拓展数据集的传统手段具有适用范围广、应用场合较多的优势,但是其局限性也很明显,该方法生成的图片一般相似度较高且在部分使用场合具有限制,例如在对颜色要求较高的场合无法使用数据增广对图片的亮度、对比度、饱和度与色调进行调整。目前已有研究人员着手寻找更精巧的数据集拓展方法。M a r y a mR a h n e m o o n f a r 与C l a y S h e p p a r d 等人在使用深度学习模型计算小番茄数量时通过手绘像素色块作为图像数据集,该方法适用于颜色差别较为明显的场景;吴昊等人在进行棋盘角点检测与图像超分辨两种图像处理任务时提出通过计算机合理生成合成训练
6、集完全取代实际数据集的方式来训练网络,目前该方法仍存在不确定性,需要更进一步的研究;薛振峰图尝试使用合成数据集对岩渣分析使其接近现实数据;尼日利亚数据科学公司研究人员也曾通过人工智能算法尝试生成非洲流行服饰作为数据集。针对如何拓展数据集,提出一种基于A I 制图的建立数据集的思路方法建立赛博数据集(C y b e r D a t a s e t),将赛博数据集定义推广至更深的层面,并通过实验对该方法进行可行性验证。建立赛博数据集不完全使用实际数据集,其部分数据为基于计算机程序根据要求生成相应图片,通过A I 制图所生成的图片扩大数据集规模,以此来避免复杂环境下数据集不易采集的问题,并通过高分辨
7、率的A I 图片进一步提高模型的精确度。收稿日期:2 0 2 3 年4 月6 日;修回日期:2 0 2 3 年6 月1 3 日8 7通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)2 赛博数据集2.1 背景与原理A I 制图是一种计算机生成绘画的方式,其原理是通过人工智能算法来创作绘画。虽然其概念早在几年前便被提及,但是其真正得到大规模应用始于2 0 2 2 年,之后随着模型的不断更新其绘制效果也在持续提升。A I 制图本质是通过大量图片数据使用智能算法按照使用者要求按照标签(t a g)进行重组变换,组成新的图片。A I 中大部分模型使用文本生成图片一般都是基于O p e n
8、A I 提出的C L I P,该方法大多基于d i f f u s i o n m o d e l 模型来尝试对图像进行生成与修改润色。其中,C L I P 是学习任意给定的图像和标题(c a p t i o n)之间的相关程度,其原理是计算图像和标题各自e m b e d d i n g 之后的高维数学向量的余弦相似度(c o s i n e s i m i l a r i t y)1 0。目前A I 绘画制图多用于人像、动漫图像绘制。随着模型不断更迭,该方法对于物品绘制的精确度也在不断提升,且目前可以使用图片生成图片等方式形成类似数据,不同于以往文字生成图片,该方法可以更准确地得到用户想要
9、的图片数据。2.2 定义、优势及限制赛博(C y b e r),原意为舵手,在现代词义中代表电脑仿生、人工智能。文中所提出的建立数据集的方式需要借助人工智能思想,故使用赛博一词为该方法命名,其具体定义如下。赛博数据集是不完全使用实际数据集,而是基于计算机程序根据生产生活需求生成相应图片所制成的数据集。除图像数据集外,赛博数据集定义也可以引申至其他类型的数据集,即所有非实物的通过人工制作或程序生成的数据集均可归为赛博数据集。赛博数据集最大的优势是可以通过A I 制图生成图片扩大已有的数据集规模,以此来避免复杂环境下数据集不易采集的问题。相较于实际拍摄而言,A I 制图具有更加便捷,生成速度更快,
10、且不需要到现场便可得到相似现实样本的优势,更有甚者其可以对现实中不存在的事物进行绘制。与图像增广相比,赛博数据集不只对原图本身进行变形与调色,而是通过标签生成全新的形态结构不同的图像,能够有效地增加数据集内部图像的区分度,提高所训练模型的泛化能力。同时赛博数据集可以根据用户的设置自由选择生成图像的分辨率,通过高分辨率的A I 图片进一步提高模型的精确度。其简洁易上手的操作也使其具备推广的条件,用户只需通过个人电脑便可以得到自己所需求的图片用来制作数据集。不置可否,虽然赛博数据集有着传统的图像增广所没有的优势,但是在使用场景方面仍然存在限制与局限性。例如,在使用图生图方式对已有图像数据集进行拓展
11、时,由于其生成图像中物品的形态特征与原物品相似,需要对图像进行多次迭代与使用更细致的标签对其进行改善;对于没有原图像集的文字生成图片方式,需要对所生成的图片进行细致描述才能够生成符合要求的图像,同时也需要对模型进行更加精准的训练,2.3 采集方法与过程在程序界面,通过S t a b l e D i f f u s i o n 选择已经训练好的模型进行图像生成。程序提供多种图片生成方式,包括通过文本生成图片、通过已有图片生成类似图片等等。如果用户有指定需求或者想对图片内容、分辨率、色调等进行自主修改,可以通过在提示词一栏自行输入相应标签,以此来进行画面控制。图1 分别是最常见的文生图与图生图示例
12、。文本生成图片的方式需使用不同标签对所需图像进行精确描述,适用于对于样本变化较大的场景;图片生成图片中所得的图像中物体总体框架类似原图,若想增大与原图差异,可以通过不断更迭继续使用图生图的方式,使模型的泛化能力得到进一步的提高。将生成的图像混入原数据集或单独将虚拟图像制作为一个数据集即可得到所需求的赛博数据集。o n t图1 制图示例,分别通过文生图与图生图生成猫图片下面是对赛博数据集的可行性实验验证。实验采用改进的R e s N e t 1 8 卷积神经网络对C I F A R-1 0 的d e m o 数据集进行图像识别分类,并通过生成赛博数据集对实验结果进行处理,观察是否能够对实验结果进
13、行进一步优化。若赛博数据集对实验结果有提升则可以证明赛博数据集可以作为真实数据集的拓展在实际应用中使用。3 实验数据与处理3.1 实验数据采用数据集为C I F A R-1 0 的d e m o。C I F A R-1 0 在深度学习领域与计算机视觉领域中具有重要地位,是物体识别与深度学习的经典数据集,内含1 0 种物品图像。在实验中随机选取其中1 0 0 0 张图像,每类物品图像数量在8 0 1 2 0 张不等。图2所示为部分图片。图2 C I F A R-1 0 数据集部分图片展示,从左至右依次为t r u e k、s h i p、a u t o m o b i l e、a i r p l
14、 a n e 类别8 8人工智能基于A l 制图的数据集制作方法及可行性论证使用网站N o v e l A I 进行A I 制图。实验采用S t a b l eD i f f u s i o n 中已经经过训练的大小为7 g 的l a t e s t 模型,采用文生图方式进行图像生成。下面图3 是部分A I 制图图片示例。生成图片默认分辨率为5 1 2*5 1 2 像素。R e L u批量规范化层3 3 卷积层R e L U批量规范化层3 3 卷积层1 1 卷积层图3 A I 制图数据集部分图片展示,从左至右依次为t r u c k、s h i p、a u t o m o b i l e、a
15、i r p l a n e 类别3.2 数据处理采用数据集所生成图片尺寸与原尺寸不同,为便于卷积神经网络对图片及逆行学习,特采用数据增广处理,将所有图片尺寸调整为4 0*4 0 像素。A I 制图方面选取采样迭代步数为2 0,使用E u l e r a 采样方式进行处理,提示词相关性为7,无额外参数。3.3 实验环境实验环境为W i n d o w 1 1 操作系统,显存大小为1 6 G,G P U为N V I D A G e F o r c e R T X 3 0 7 0,处理器为A M D R y z e n 75 8 0 0 H w i t h R a d e o n G r a p h
16、 i c s。采用j u p y t e r n o t e b o o k 进行训练学习,编程语言为p y t h o n 3.8。4 实验方法4.1 经典R e s N e t 1 8 基本网络图4 为经典R e s N e t 1 8 网络结构。R e s N e t 1 8 网络同其他残差网络一样,尽可能地将原始函数作为每一附加层的元素之一进行考虑,在进行深度学习时让原始函数占据更大的比重。R e s N e t 1 8 分为卷积层、降采样层、池化层与全连接层四大结构,排列整齐且结构尽可能在完整的同时保持简化。实验使用4 个由残差块(r e s i d u a l b l o c k)
17、组成的模块,每个模块均使用输入输出通道数相同的残差块,且均在第一个模块的基础上将上一模块通道数翻倍,高宽减半。使用此法构成的R e s N e t 1 8 结构简单,训练方便,且对有效信息提取的能力很强。图4 R e s N e t 1 8 结构图5 包含1 1 卷积层的残差块图5 是包含1 1 卷积层的R e s N e t 1 8 残差块的基本结构图。残差块的输入分为两部分,一部分通过单独一个跨层数据通路直接输入到下面的激活函数前,若想改变直接输入的通道数,则需在跨层数据通路中加入额外1 1 卷积层实现形状变换;另一部分则经过卷积层处理并向下输出。实验中的R e s N e t 1 8 模
18、型沿用了V G G 网络中完整的3 3 卷积层设计,将两个输出相同的3 3 卷积层作为一个残差块,并在每个卷积层后里连接一个批量规范层与R e L U 激活函数。最后将通过卷积层处理过的数据与第一部分通过跨层数据通路跳过卷积处理的数据合并,直接将输出加载至最后的激活函数之前。从图5 可以看出R e s N e t 1 8 网络基本结构,以下是其数学表达方式。对残差基本网络进行如下定义:y t=h(x j)+F(x,w?)(1)x i+1 =f(y i)(2)其中x?是第1 个残差单元的输入,w?=W x|1 k K 是第1 个残差单元的系列权重,F 表示残差单元的计算过程,取h(x i)=x?
19、代表1 1 卷积层通路,f 表示R e L U 激活函数,在此对于激活函数不进行过多考虑以简化问题。现令x i+1=f(y i)=y,对任意L 有:X+1=x?+F(x j,w)x=x+m a m)=o+F)()(3)由此可知,在反向传播时,有:L-1d ed a x.a ea=1+;F(x j,w:)(5)a x0 x z d xa x za x.由式(5)可以看出残差网络的优势所在。浅层信息在残差网络前向传播中被直接传递加载,同时在反向传播时也因此不会轻易出现梯度消失,这一点有效地保证了残差网络对信息的提取能力与所提取信息的有效性。4.2 改进模型设计(1)迁移学习实验使用1 0 0 0
20、张图片作为数据集,该类小样本数据集在训练中有时会出现数据内容丰富度不足、泛化能力有待改进、模型训练不完善等问题,为尽可能减少小样本数据集所带来的影响,需要使用迁移学习来对模型进行优化。在卷积神经网络中,迁移学习可以将其他网络在数据丰8 9通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)富、时间成本高等情况下学习到的数据迁移应用到其他数据集上。使用加载的预训练模型为I m a g e N e t 数据集上学习到的数据权重,该数据集数据十分丰富,且充分考虑了不同物体间的特征。训练模型时使用迁移学习也能够有效减少训练时间。在一般训练模型时常常会对初始参数随机化,利用随机梯度下降法(s
21、t o c h a s t i c g r a d i e n t d e s c e n t,S G D)优化算法对参数不断更新迭代进行优化来达到最好的提取特征效果,也能够迁移学习后直接引用预训练模型上学习到的参数权重,大大节约了时间成本与训练成本。(2)等间隔学习率调整如图6 所示,在训练网络的过程中会用到学习率(l e a r n i n g r a t e,I r),在传统训练网络过程中常常将学习率设置为固定参数,虽然固定参数的学习率在前期能够有效且更快速地优化网络模型,节约优化时间,但是在训练后期中过大的学习率也会导致权重更新动作过大,使得模型损失率上升,跳动过大、不够准确以至于容易
22、错过最佳优化点。理想情况下实验一般在前期使用大学习率,在后期使用小学习率进行训练。为了避免这种情况出现,在训练过程中可以对学习率进行调整,目前最常见的有三种学习率调整策略,分别是有序调整、自适应调整与自定义调整。实验中拟采用有序调整学习率策略中的等间隔调整(S t e p L R),即在固定的间隔数将学习率调整为I r g a m m a。实验中采用等间隔学习率调整,在保证能够尽快优化模型的同时减少损失值,让算法能够更快地进行收敛。学弹-I rS t e p L R训练次数图6 不同学习率变化4.3 实验设计使用C I F A R-1 0 数据集里面中的1 0 0 0 张图片,另取5 张作为测
23、试集,1 0 0 0 张作为总训练集,训练网络使用改进后的R e s N e t 1 8 网络模型。如图7 所示,实验分为三组,第一组使用总训练集中8 0 0张图片作为训练集进行训练,第二组使用8 0 0 张图片与A I 所生成的2 0 0 张图片作为训练集进行训练,第三组使用总训练集1 0 0 0 张图片进行训练作为与第二组成果的对比。其中每一组训练集中将随机选择1 0?图片作为验证集(验证训练效果的图片),剩余部分作为训练集(真正用来训练模型的图片)。实验中验证集准确率将作为评判实验结果的一个重要依据。训练集C I F A R-1 08 0 0A l2 0 0C I F A R-1 08
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 AI 制图 数据 制作方法 可行性 论证
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。