AIGC行业报告:AI生成内容深度产业报告.pdf
《AIGC行业报告:AI生成内容深度产业报告.pdf》由会员分享,可在线阅读,更多相关《AIGC行业报告:AI生成内容深度产业报告.pdf(34页珍藏版)》请在咨信网上搜索。
1、AIGC/AI生成内容AIGC,AI-Generated Content产业展望报告Industry insight report在技术上,AIGC已经可以完成哪些创作?在价值上,AIGC除了直接生成艺术作品还能做什么?在未来,AIGC将如何改变内容及相关产业?.量子位硬科技深度产业报告 AI生成内容 AIGC目录 技术及场景篇01 技术定义02 技术及落地场景介绍 基于模态 02 文本生成 05 音频及文字音频生成 06 图像生成 09 视频生成 11 图像、视频、文本间跨模态生成 15 策略生成 15 技术及落地场景介绍综合赛道 15 Game AI 17 虚拟人生成 19 相关预测 产业
2、篇20 价值分析21 细分赛道分析 21 内容领域 24 延展领域 26 行业发展阶段分析 29 产业链分析 29 玩家分析 量子位硬科技深度产业报告 AI生成内容 AIGC关键结论1.区别于Generative AI和Synthetic media,AIGC中的跨模态生成和策略/线索生成应当得到重视,这两者也是AIGC长期的重要价值增长点。2.按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨模态生成需要重点关注。Game AI和虚拟人生成是目前变现较为明确的两大综合赛道,预计对原行业产生整体性影响。3.以下技术要素值得关注:
3、长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注:闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。5.除降本增效、提供参考外,AIGC的以下两点价值更值得关注:对不同模态元素进行二次拆解组合,改变内容生产逻辑及形式;和其他AI系统或数据库进行联动,有实现高度个性化/高频优化。6.我国AIGC行业仍处于刚刚起步阶段,距离大规模验证和体系化发展仍有距离,“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。AIGC相关技术场景及成熟度分类我国AIG
4、C行业阶段划分AIGC相关业务场景分析我国AIGC产业链划分感谢以下机构及个人参加深度访谈:倒映有声、Deepmusic、高林教授、黄民烈教授、rct AI、腾讯AI Lab、小冰公司量子位硬科技深度产业报告 AI生成内容 AIGC技术及场景篇1.1 技术定义 AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic media,合成式媒体,主要指基于AI生成的文字、图像、音频等。Gartner也提出了相似概念Generative AI,
5、也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC,这一概念的范围较狭窄。一方面,这一概念忽略了跨模态生成(如基于文本生成图像或基于文本生成视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生成”和“内容”都应该采取更为广泛的概念。例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面,不仅包括常见的图像、文本、音频等外显性内容,同样也包括策略、剧情、训练数据等内在逻辑内容。从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新
6、的角色,从“观察、预测”拓展到“直接生成、决策”。从商业模式来看,我们认为,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGCUGC之后的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。Gartner2021年预测:人工智能对人类和社会的影响给出积极预测:至2023年将有20%的内容被生成式AI所创建至2025年,Gartner预计生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1%根据Gartner披露的“人工智能技术成熟度曲线”,生成
7、式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用1.2 技术及落地场景介绍基于模态我们认为,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。技术视角下,我们认为以下场景将成为未来发展的重点:文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。商业视角下我们认为,未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。在这一部分,我
8、们会基于不同的模态介绍对应的技术和商业场景,并给出各场景下的代表机构及发展现状。下图中的绿色部分,是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。1量子位硬科技深度产业报告 AI生成内容 AIGC文本生成以结构性新闻撰写、内容续写、诗词创作等细分功能为代表,基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。量子位智库在此看好个性化文本生成以及实时文字生成交互。细分技术介绍大型预训练模型成为当下主流做法与关键技术节点。一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写
9、等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用于Writesonic、Conversion.ai、Snazzy AI、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于AI dungeon等文本具有重要意义的延展应用领域。2底层技术原理基本明确,预计1-2年内将规模
10、化应用较为广泛地实际应用、技术细节仍待进一步提升底层技术原理仍待完善,增长可期量子位硬科技深度产业报告 AI生成内容 AIGC另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式,增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。细分场景技术原理内容续写如完形填空和文章续写通过随机Mask(即遮挡)数据库文本中的词语或语段,让神经网络自主学习复原被遮挡部分,从而拥有“猜测”缺失内容的
11、能力,产出预训练模型。再通过大规模预训练模型理解上文或给定条件,从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程。摘要/标题生成以TLDR为重要代表首先通过词嵌入(Word Embedding)将字、词、句进行区分,然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重;其次选择相应的文本单元子集组成摘要候选集,完成内容选择;最后是针对字数要求等限定条件,对候选集的内容进行整理形成最终摘要,完成内容组织。其细分路径又包含生成式文本摘要(AATS),即形成抽象认知并创造新词灵活概括,和抽取式文本摘要(EATS),即直接抽取原始素材并拼接成简单概要
12、。文本风格迁移实现情绪、时态、性别、政治倾向等的分离及迁移主流思路是分离文本属性及文本内容。隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离,常见的有生成对抗方式,即通过GAN实现目标属性和文本属性完全由不同的编码控制的状态。显式方法首先寻找并删除代表文风的短语,其次检索与目标文风最匹配的相似短语,最后生成目标语句并保证语句通顺、原意不变。要实现多种风格的转化,典型方法有在通用语料库上预训练基于Transformer的语言模型来初始化编码器-解码器,然后以多种风格语言模型作为鉴别器来增强其对多个目标风格维度的转换能力。整段文本生成对话式&结构性文本生成对话式文本生成适用于
13、智能客服等任务型和闲聊型机器人等非任务型人机交互场景,可分类为管道模式及端对端模式。管道模式即将对话拆分成四个主要模块(自然语言理解、历史状态追踪、对话策略选择、自然语言生成)并分别进行模型训练。端对端模式将对话过程转化为历史对话信息到系统回复的映射问题,利用一个Seq2Seq框架构建整个对话系统,并利用强化学习摆脱大量标注数据的限制,通过离散隐向量学习句子之间的依赖关系。结构性的文本生成,首先通过注意力机制、多层感知器等系统进行语句内容预选,对数值、时间等类型数据进行推理,增强数据间的结构信息;其次通过Transformer等模式结合上下文进行推导,控制句法及文本连贯性,将语义与句法统一分析
14、,最后采用Seq2Seq等模式,以BiLSTM为基础构建文本生成器,生成最终文本。目前而言,文本生成普遍具有上下文间逻辑问题、关键信息位置混淆、内容无中生有等问题从现有的落地场景来看,我们将其划分为应用型文本和创作型文本生成,前者的进展明显优于后者。此外,从应用推广的角度来说,辅助文本创作是目前落地最为广泛的场景。应用型文本生成应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、以下为各技术场景下对应的基本原理。3量子位硬科技深度产业报告 AI生成
15、内容 AIGC公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。创作型文本生成创作型文本主要适用于剧情续
16、写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求,长文本写作对于议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表
17、达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy AI、Rasa.io、LongShot.AI、彩云小梦等。文本辅助生成除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提
18、升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。重点关注场景长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AI dungeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小
19、冰岛,集中在精神心理领域的聆心智能、开发了AI dungeon的Latitude.io等。代表公司:聆心智能由国内NLP、对话系统领域专家黄民烈教授创办,专注于针对精神心理的AI驱动的高质量数字疗法。在技术上,聆心智能让AI围绕认知、情绪和行为三个维度对进行评估和干预。以多模态对话系统为核心交互框架,通过丰富的策略设计,让AI和用户产生足够的情感链接,生成用户个人模型及千人千面的治疗方案,解决用户的情绪困扰,完成心理治疗。目前,聆心智能已与北医六院、湘雅二院、中日友好医院、清华大学玉泉医院等达成合作。4量子位硬科技深度产业报告 AI生成内容 AIGC音频及文字音频生成整体而言,此类技术可应用于
20、流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。TTS(Text-to-speech)场景TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的毛氏三兄弟和历史类作品。这种场景为文字内容的有声化提供了规模化能力。目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了
21、解等)更好的表现其中的抑扬顿挫,以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习)。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep Voice及Tacotron等。目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUI)、Readspeaker、DeepZen和Sonantic。随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。在TTS领域,语音克隆值得特别关注。语音克隆是本质
22、上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod、Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceID、Descript。乐曲/歌曲生成AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型
23、、情绪类型等生成特定乐曲。其中,AI作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAI Jukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括MelodyRNN、Music Transformer。据Deepmusic介绍,为提升整体效率,在这一过程中,由于相关数据巨大,往往需要对段落、调性等高维度的乐理知识进行专业提取,而节奏、音高、音长等低维度乐理信息由AI自动完成提取。此外,量子位智库重点推荐AI写作在个性化内容营销中的应用场景。该场景的应用与经济价值目前已经在国外Oneword等
24、公司中得到明确验证,而国内目前尚未出现相关布局。有关这一场景,我们将在产业篇的延展细分赛道进行详细展开。5量子位硬科技深度产业报告 AI生成内容 AIGC通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作第十交响曲,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。AI编曲则指对AI基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配。在这部分中,各乐器模型将通过无监督模型,在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。对于人工
25、而言,要达到乐曲编配的职业标准,需要7-10年的学习实践。人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆),通过端到端的声学模型和神经声码器完成,可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合,最终得到完整乐曲。该环节涉及的AI生成能力较少。该场景下的代表企业包括Deepmusic、网易-有灵智能创作平台、Amper Music、AIVA、Landr、IBM Watson Music、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中,自动编曲功能已在国内主流音乐平台上线,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 行业 报告 AI 生成 内容 深度 产业
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。