大数据背景下生成对抗网络文本图像技术的研究.pdf

上传人：自信****多点

文档编号：615889

上传时间：2024-01-16

格式：PDF

页数：3

大小：1.72MB

《大数据背景下生成对抗网络文本图像技术的研究.pdf》由会员分享，可在线阅读，更多相关《大数据背景下生成对抗网络文本图像技术的研究.pdf（3页珍藏版）》请在咨信网上搜索。

1、信息记录材料 2023 年 7 月第 24 卷第 7 期大数据背景下生成对抗网络文本图像技术的研究肖泽青1,2,吕子清1,2,文芳1,2,欧阳倩兮1,2(1 长沙师范学院数学科学学院湖南长沙 410100)(2 长沙师范学院大数据科学与智慧教育校企合作创新创业教育基地湖南长沙 410100)【摘摘要要】在大数据背景下,用户获取图像信息主要依赖于网络搜索引擎,但可能会涉及大量的图像,给图像信息的检索带来了很大的困难。随着人工智能技术的不断突破与革新,文字自动生成图像已经具备了一定的可能性。文本到图像的自动转换是一项多通道的研究,它不仅要保证图像的真实感,而且要保证图像的语义一致性。为

2、此,拟在现有研究基础上,针对传统全局判别器无法对图像局部细节进行判断的缺点,提出了一种基于编解码结构判别器的生成对抗网络(SF-GAN-V2),以进一步提高其性能。实验结果表明,所提出的方法具有更高的分辨率,且更加清晰。【关关键键词词】大大数数据据;生生成成对对抗抗网网络络;文文本本生生成成图图像像【中中图图分分类类号号】TP39 【文文献献标标识识码码】A 【文文章章编编号号】1009-5624(2023)07-0115-030 引言在大数据背景下,图像、视频、文字、声音是四大主要信息传播媒体。从传播效果来看,视频和音频所传递的信息在短时间内难以分解,但文字和图像却能在短时间内把信息传达得清

3、晰易懂,因此更受大众欢迎。就表达的内涵而言,文字与图像相比,图像的内涵更丰富,常常是一图胜过千言1。莫凌波等2通过使用预训练的字符集卷积递归神经网络(Char-CNN-RNN)获得了文本描述的编码,并将其加入图像生成任务中,最终取得了良好的效果。潘继财等3指出在 ELMo 中,预训练好的模型不再只是表示词与向量对应关系,而是会根据上下文的变化,对于同一个词产生不同的词向量。这种处理方式带来的好处是对于那些多义词,模型可以结合前后语境将多义词编码为不同的向量。为此,本文在此基础上,希望能够通过针对传统全局判别器无法对图像局部细节进行判断的缺点,提出了一种基于编解码结构判别器的生成对抗网络,以进一

4、步提高其性能。1 SF-GAN 的网络框架与以往采用多对“生成器鉴别器”产生高品质影像的方式相比,SF-GAN 只需一对“生成器鉴别器”就能产生高品质影像。在这一节中,本文拟在 SF-GAN 的网络结构基础上,针对传统全局判别器无法对图像局部细节进行判断的缺点,提出了一种基于编解码结构判别器的生成对抗网络(SF-GAN-V2)该网络结构由一个预先训练好的文字编码器,一个生成器和一个鉴别器组成4.SF-GAN 生成器是由字符编码器编码和高斯分布产生随机噪声向量,以及两个输入组成。高斯的随机噪声向量的作用是保证生成的图像的多样性,即让生成的图像尽可能地多样化,如图像中的鸟的姿态,图像中的环境等等,

5、并保证生成的图像与给定的文字相一致5。SF-GAN 的生成程序核心部分由 6 个上采样层、6 个融合模块(fusionmodule,FM)、1 个卷积层组成,其中,每个 FM 都是由一个 SATM 和一个 SJAM 组成的残差结构。该公式如式(1)所示:h0=F0(z)(1)其中式(1)中 z 代表的是一个全连接层,h0代表的是全连接层的输出。h1=F1FM(U1(h0),s)(2)hi=FiFM(Ui(hi-1),s)i=2,3,6(3)o=Gc(h6)(4)式(2)式(4)中,S 代表的是全局语句向量,FiFM代表的是本章所提出的 FM,h1-h6代表的是 6 个 FM 输出的特性图,U1

6、-U6代表的是 6 个规模系数为 2 的上样本层,Gc 代表的是生成器最后一个卷积层,o 代表的是产生的图像。生成器将 100 维度的噪声矢量 z 经由全连线(fullconnection layer)F0转变为 8192 维度的矢量,然后将所得矢量转变为 51244 维度的本征图,并经由六个升取样层 Ui与六个由 SATM 与 SJAM 组成的融合模块 FiFM,得出 32256256 维度的本征图 h6,并经由 33 维度的卷积Gc 得出最终的影像 o。2 基于编解码结构判别器的生成对抗网络2.1 SF-GAN-V2的网络框架在经典的文字图片转换模式中,利用一个基于编码的鉴别器将整个图片向

7、下取样,然后判定图片的真实性和文字的一致性。而在 SF-GAN-V2中,利用编码和译码构造的鉴别器能对整个画面和画面中的部分进行鉴别6。在本节提出的 SF-GAN-V2 的网络架构示意图 1 中可以看到,整个网络的主要部分由一个预先训练的文本编码器、一个生成器和一个辨别器组成。本文的工作重点在于对 SF-GAN-V2中文字编码和图像产生模块的区别做了一些改善,因此 SF-GAN-V2中文字编码和图像产生模块的构造与 SF-GAN-V2基本一致。在此基础上,提出了一种基于 SATM 和 SJAM 的高精度视频合成方法。本节中所提出的区分程序主要包括两个部分:Ddec 和 Ddec。Ddec 的编

8、码构造包括了卷积和池化两个部分,Ddec 利用一组下取样本来获取图的整体内容,并基于文字的内容来判定整个图的真实性和已知文字的一511信息记录材料 2023 年 7 月第 24 卷第 7 期图 1 SF-GAN-V2的网络架构示意图致性7。解码器组态 Ddec 主要包括卷积和上取样两个层面,Ddec 进行渐进的上取样,使解码后的图像逐步还原至原来的空间,进而达到准确的像素真实性判断。2.2 基于编解码结构的判别器根据给出的编码译码架构,编码器 Ddec 是以卷积层和基础组件 BlockA 为主,译码器 Ddec 是以卷积层和基础组件 BlockB 为主,该图所标记的尺寸是各组件的输出特性尺寸

9、,“”代表沿信道轴线的拼合。对于所有的甄别装置,其输入是具有 325256256 分辨率的 RGB 图像和语句矢量。(1)将分辨率为 3256256 的图像中的 1 张 33 的图像通过 33 进行卷积,得到一个大小为 32256256 的特征图。(2)将第一步得到的特征图输入到 Block A 中,并进行采样,得到维度 4128128 的特征图,随后依次输入五个 BlockA,得到维度 128646464,256323、25121616 及 1288,51244 的特征图。(3)由于用于识别的一维向量值为 256 维,因此本文将以 44 的分辨率将该向量值的空间复制为 25644 维的一个特

10、征值,该特征值上各特征值的 25611 维即为初始的向量值,再将该复制后的特征值与 Ddec 中最后Block A 的输出组合,得到一个具有文字意义及图像特征的 76844 维度特征值。(4)利用 33 的卷积层第一个步骤获得的特征图进行特征抽取,获得 6444 的特征图,然后利用 ReLU 激活功能将其激活,最终再次利用 44 的卷积获得 111 的特征图,这时所得的数值就是整个影像的真实性和与文字相符合与否的概率。2.3 CutMix 数据增强针对该问题,本项目拟利用 CutMix 的信息强化技术,对已有的信息融合算法进行改进,使其在编码上得到更好的学习效果。在 CutMix 算法中,将原

11、图和原图中的某些区域进行裁剪,再进行拼接,从而获得新的复合图。在此鉴别装置的 Ddec 部,该复合影像的标记是虚假的,在鉴别装置的 Ddec 部,复合影像中与实际影像区相关联的标记是正确的,而与之产生影像区相关联的标记是虚假的。此设计可以将编码之间的区别进行最大限度地利用,从而让判别器更加注重于真实与虚假的信息之间的语义和结构上的差异,同时也可以提升译码器 Ddec 的位置能力。在此基础上,对识别算法进行了优化,得到的结果既能保证整体的逼真,又能保证部分的逼真,从而得到更好的结果8。3 实验分析3.1 实验环境本次实验所使用的实验平台环境配置如表 1 所示。表 1 实验平台环境配置表名称版本信

12、息操作系统Ubuntu 18.04CPU 型号Intel Core i7-7820X 3.6 GHzGPU 型号NVIDIA GeForce GTX 1080Ti内存容量32 GB深度学习框架PyTorch3.2 数据集及评估指标为检验 SF-GAN-V2的效果,在第 3 节中,除试验中所采用的 CUB-200-201 数据组。此外,在本节中还在具有更大的数据范围和更为复杂的 MS COCO 数据组(Microsoft common objects in context)上进行了比较试验。MS COCO 数据库是一套被微软公司研发和管理的图片数据库,这个数据库包括了

13、1 212 287 幅图片,图片包括 91个类别,250 万个标记,328 000 幅图片,每个图片都有5 个文字说明。MS COCO 图像是以图像为研究对象,以图像内容为基础,利用图像信息进行目标检测、分类和实例分割等。3.3 定量分析为进一步检验 SF-GAN-V2算法的正确性,将使用CUB 及 COCO 两种不同的算法进行实证研究,并利用定量及定性两种方法进行对比。在定量方面,采用初始评分和 FID 评价指标对产生的影像的清晰度、多样性和与现实影像的接近程度进行了评价。但是在 Pan Jicai 研究中却认为 Inception Score 不能对 COCO 数据集上生成的影像品质进行评

14、价,由于 Inception Score 在评价 COCO 数据集上生成的影像品质时,容易出现饱和,乃至过拟合9。所以,在此节中并没有将 Inception Score 作为 COCO 数据集的评价准则。在定性方面,将每个模式所产生的影像进行比较,并将其与所产生影像的地方进行比较,以此来评611信息记录材料 2023 年 7 月第 24 卷第 7 期价模式的效能。表 2、表 3 显示了每个模式对 CUB 和COCO 资料组进行的数量和质量评价的成果。从表 2 中的结果可以看出,在 CUB 数据集中,本文所提出的 SF-GAN-V2的 Inception Score 都要比其他的模式要高,In

15、ception Score 越高,表明该模式产生的影像越清楚、越丰富。SF-GAN-V2 的初始分数比 SF-GAN-V2 的初始分数增加了 0.03,效果并不明显,但是证明了基于 SF-GAN-V2 的编译码和 CutMix 的数据增益是有效的。表 2 模型在 CUB 数据集上的 Inception Score模型Inception Score(得分)AttnGAN 模型4.360.03MirrorGAN 模型4.560.05ControlGAN 模型4.580.09SD-GAN 模型4.670.09SF-GAN 模型4.760.07SF-GAN-V2 模型4.790.06表 3 显示了每个

16、模式在 CUB 及 COCO 资料集合上的FID 值。结果表明:由 SF-GAN-V2 得到的 FIDs 值是最小的,由 SF-GAN-V2 得到的 FIDs 值更符合实际情况。在CUB 上,SF-GAN-V2算法与 SF-GAN-V2 算法相比,其误差值分别为 0.91 和 5.42。与 AttnGAN 相比,SF-GAN-V2的FID 值下降了 7.65。在对 FID 进行了量化对比之后,由此看出,SF-GAN-V2 所产生的分布更符合实际情况,提出了一种具有编译码结构的判别器和所引进的 CutMix 数据增强策略,编译码判别器可以对一幅照片和照片中的各个部分进行判断,另外 CutMix

17、数据增强策略还可以使判别器的鉴别能力得到进一步的提升,进而使生成器的性能得到提升。表 3 模型在 CUB 和 COCO 数据集上的 FID模型FIDCUBCOCOStackGAN+26.0751.62AttnGAN23.9835.49SF-GAN19.47SF-GAN-V218.5627.843.4 定性分析将 DA-GAN 与 StackGAN+、SD-GAN 利用堆叠结构取得最好效果的文本生成图像模型进行比较。SF-GAN-V2 相比于多阶段堆叠式生成模型取得了最高的 IS 值。相比于 AttnGAN 只在每个生成阶段的最后隐状态进行空间注意力的融合,SF-GAN-V2 将 IS 值从 4

18、.36 提升到了4.87,提升了 11.7%:相比于 SD-GAN 使用李生网络来确保文本-图像语义一致性的方法,SF-GAN-V2 将 IS 值从4.67 提升至 4.87,提升了 4.3%。同时,相比于 DM-GAN采用动态记忆网络对初始阶段生成图像进行精调的方式,SF-GAN-V2 不需通过额外网络也能将 IS 值从 4.75 提升至 4.87。通过 IS 值的定性分析表明,SF-GAN-V2 能够合成更加真实且文本-图像语义一致的图像。4 结论综上所述:本文提出的基于编解码结构判别器的生成对抗网络(SF-GAN-V2),由一个预先训练好的文字编码器、一个生成器和一个鉴别器组成,通过使用

19、文本编码和高斯随机噪声向量,以及两个输入,让生成的图像尽可能多样化,并保证生成的图像与给定的文字相一致。同时,该网络还使用了 SATM 和 SJAM 来进行视频合成,并提出了一种基于 SATM 和 SJAM 的高精度视频合成方法。实验结果表明,本文所提出的方法具有更高的分辨率,且更加清晰。【参考文献】1 杨胜兰.基于生成对抗网络的水流图像生成及流速估测方法研究 D.杭州:浙江工业大学,2019.2 莫凌波.基于图像的文本自动生成关键技术研究 D.北京:北京邮电大学,2019.3 潘继财.大数据样本与半监督环境下基于生成对抗网络的故障诊断 J.机械与电子,2021,39(5):20-25.4 张

20、贵英,温川雪,张俊飞.基于生成对抗网络的视网膜图像样本增大模型设计J.中文科技期刊数据库(引文版)医药卫生,2022(2):6.5 邢玉凤.大数据时代背景下网络安全技术研究 J.科学家,2016,4(5):182-183.6 赵晓丽.面向图像分割的智能算法研究 D.上海:上海大学,2018.7 刘志.基于生成对抗网络的医学影像超分辨率重建方法研究 D.太原:中北大学,2019.8 林君萍.基于深度卷积生成对抗网络的不平衡大数据监测与诊断 J.重庆科技学院学报(自然科学版),2022,24(1):99-103.9 李开放,惠冠程,王汝涵,等.基于生成对抗网络与自校准卷积的行人重识别 J.激光与光电子学进展,2022,59(10):303-313.基金项目:湖南省教育厅科学研究重点项目“生成对抗网络优化技术及其在能源互联网中的应用研究”(20A037);长沙师范学院校级培育项目“大数据背景下基于生成对抗网络的图像增强研究”(XJPY202117)。作者简介:肖泽青(1983),男,湖南长沙,博士后,副教授,研究方向:大数据、人工智能(生成对抗网络)。711

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据背景下生对抗网络文本图像技术研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。