2023生成式AI图像模型年报.pdf
《2023生成式AI图像模型年报.pdf》由会员分享,可在线阅读,更多相关《2023生成式AI图像模型年报.pdf(9页珍藏版)》请在咨信网上搜索。
1、1452023生成式AI图像模型年报罗霄 实验编程工作室自第一幅AI画作在2018年末公开拍卖以来,生成式AI技术通过在设计、艺术领域的广泛应用,逐步进入了人们的视野。2023年是生成式AI井喷式爆发的一年,其中尤以AI绘画为甚。在二维图像生成和后期处理方面,基本实现“一键滤镜”,在平面设计、游戏美术等商业项目的制作场景中AI绘画已是标配。动态影像方面,AI生成视频也已经初步应用在广告短片等商业项目上,在2024年或可期待生成式AI技术正式进入电影工业生产流程。三维方面,通过AI生成三维模型的技术,原型算法经过2023年一整年发展后,在2024年有望如2023年的AI绘画一样逐步进入落地阶段。
2、现如今,AI图像生成模型得到了GPT等多模态模型的加持与助推,AI视觉艺术创作已经进入“根据自然语言描述创建图像艺术”的时期,更加接近人本身的创作状态。本文将对2023全年生成式AI图像模型的发展过程做整理和回顾。图1 Midjourney V4生成效果。图2 DALLE2生成效果。1月2023年伊始,如果在AI绘画生态圈中按照模型规模和质量来评比,可以说依然保持着于2022年下半年形成的三足鼎立局面,即以Midjourney、DALLE、Stable Diffusion为AI绘画的三大主力。Midjourney由Midjourney同名实验室出品,本月的版本仍是2022年11月发布的V4。M
3、idjourneyV4比以往版本增加了关于生物、地点和物体方面的知识。OpenAI公司的DALLE2于2022年9月正式向公众开放。值得注意的是,DALLE2的官方介绍其“是一个146艺术学研究 2024年第1期人工智能系统,可以根据自然语言的描述创建逼真的图像和艺术”,里面专门提到“根据自然语言描述”,虽然DALLE2生成图像时仍然需要一定的提示词技巧,但这一点为一年后ChatGPT+DALLE3强强联手埋下了伏笔。与上述两个强大的AI绘画商业产品不同,Stable Diffusion是一套开源模型,主要由Runway、CompVis和Stability AI共同开发。在2023年1月时,S
4、table Diffusion已经发展到了第2.1版,但是在用户最关心的图像质量方面,新版相对于V1.5并没有大幅提升,因而目前用户量最多的仍是V1.5,以及后来出的Stable Diffusion XL。2022年最有名的Stable Diffusion的GUI实现(图形化创作界面),是 AUTOMATIC1111版的WebUI,也是使用最广泛的Stable Diffusion创作工具。而在本月,悄悄诞生了另一套节点式Stable Diffusion界面:ComfyUI。ComfyUI通过在节点之间“连连看”的方式,实现了Stable Diffusion图像生成的“工作流”(workflow
5、)。“工作流”是ComfyUI的精髓,它让用户在关注数据参数和生成图像结果的基础上,还去关注内部过程,引导用户下意识地去优化或改造“工作流”,带来更加多样的创造可能。图3 Runway Gen-1生成视频效果。ControlNet在本月横空出世,补上了AIGC工业化的最后一块拼图。ControlNet这种神经网络架构,可对Stable Diffusion等图像扩散模型添加除了提示词之外的“精确”控制,这将AI绘画的应用场景从创意发散直接拉向了设计落地。有了ControlNet的加持,Stable Diffusion从此在应用场景的多样性上一举超越Midjourney和DALLE。在游戏角色设定
6、、建筑效果图、电商模特定妆照等非常具体的场景得到广泛应用。AI绘画不再局限于2022年的概念艺术、插画等领域,开始成为各行各业中设计工作的利器。2月147艺术现场2023 生成式 AI 图像模型年报2月AI绘画界的另一件大事,是Runway发布了AI视频创作工具Gen-1(内测版)。虽然使用Stable Diffusion、Deforum、Control-Net、EbSynth等一众开源模型和免费工具,同样可以创作AI动态影像,甚至可能比同时期的Gen-1效果更丰富、可控性更灵活,但是Runway Gen-1的使用体验如同Midjourney一样,对用户来说更加简单、易上手,无疑为AI绘画的真
7、正破圈再添助力。图4 AdobeFirefly示意图。Midjourney在本月发布了V5版,更新后的AI绘画图像质量有所提升,特别在摄影风格的图像生成方面,质量大幅提升。设计软件巨头Adobe,也终于在本月推出了Firef ly,一款在线的生成式图像创作工具。虽然从图像质量上看,Firef ly此时还没有与Midjourney、Stable Diffsuion拉开差距,但它最大的亮点是“设计安全,可放心用于商业用途”,即Adobe在Adobe Stock图像、公开发布的许可内容以及版权已过期的公共域内容上训练商业Firef ly模型,从而降低了AI生成图像在商业应用中的版权风险。Runway
8、在本月继续发力AI视频生成。上个月开启内测的Gen-1于本月正式上线开放,并且还发布了Gen-2(内测版)。Gen-1是以VideotoVideo的方式生成视频,或者说是对源视频的风格化。Gen-2则是TexttoVideo方式,通过提示词来生成视频;也支持Image toVideo,通过一张图生成视频。这个功能一经发布,瞬间引爆了Midjourney作图、Runway Gen-2做视频的工作流。发布于2022年8月的百度文心一格,也在本月进行了官网改版升级。图5 Segment Anything图像分割效果。3月148艺术学研究 2024年第1期Stable Diffusion XL Bet
9、a版发布,相比Stable Diffusion 1.5版,XL具有更高水平的照片级写实能力、增强的图像合成与面部生成能力,以及更加丰富的视觉和美学效果,还支持使用更短的提示词来生成图像并实现更准确的文本意涵。此时的Stable Diffusion XL虽然还只是Beta版,但在图像质量上已经接近MidjourneyV5。Meta(Facebook)在本月发布了一套图像分割模型Segment Anything,虽然它的目标不是生成,而是对图像中的物体进行分割,但将它与Stable Diffusion、ControlNet结合起来,就是一套完美的图像生成工作流。图6 Midjourney V5.1
10、生成效果。Midjourney发布了V5.1,此次更新的默认效果与早期版本相比具有更强的美感,并且支持更加简单的提示词,更擅长准确理解自然语言提示,在图像生成中减少了不必要的伪影和边框,提高了图像清晰度,并支持使用“-tile”重复模式等高级功能。自3月份发布V5、本月发布V5.1后,Midjourney在三巨头争霸战中,已然在生成图像的质量和效果方面领先半个身位。DALLE2仍是2022年刚发布时的水准,Stable Diffusion XL还在Beta测试中。本月还杀出了一匹黑马DragGAN。自2021年末Disco Diffusion开始,到2022年Midjourney、Stable
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 生成 AI 图像 模型 年报
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。