从视频模型到应用场景:AIGC如何影响视听行业.pdf
《从视频模型到应用场景:AIGC如何影响视听行业.pdf》由会员分享,可在线阅读,更多相关《从视频模型到应用场景:AIGC如何影响视听行业.pdf(9页珍藏版)》请在咨信网上搜索。
1、15影视制作观潮FocusAIGC如何影响视听行业从视频模型到应用场景:AIGC如何影响视听行业文/杨玉洁 樊刚3 月 6 日,一年一度的奥斯卡电影奖颁奖前夜,世界首部由 AI 生成的 90 分钟电影长片我们的终结者 2重制版(Our T2 Remake)在美国洛杉矶 Landmark Nuart Theater 剧院上映。据悉,该部电影由 50 位 AI 领域艺术家组成创作团队,并宣称是“完全由 AI 制作的开创性长篇电影”。该片“使用 AI 探讨 AI”,呈现了一场人类对抗 ChatGPT 统治的世界,以此探讨 AI 发展对人类世界的影响。与此同时,中国的 AIGC 也处在爆发的前夜。2
2、月 26 日,中央广播电视总台制作的中国首部文生视频 AI 系列200 集动画片千秋诗颂开播,首部 AI 全流程微短剧中国神话、首部 AI 译制英文版系列微纪录片来龙去脉也随后发布。这是中国的央媒在抢占未来产业竞争高点赋能文化产业,迎接全球传媒业全方位变革的生动见证。自 2023 年生成式人工智能技术突飞猛进,中国人工智能大模型也迎来了应用大发展。2024 年,中国的视听行业也即将成为 AI 应用的桥头堡。本期观潮,我们将系统回顾生成式 AI 特别是视频生成 AI 的原理和技术发展,结合国内外代表性 AI 视频案例,探讨其对未来视听产业的影响。16影视制作观潮Focus1.AI视频的GPT 3
3、时刻到来!Sora与视频生成模型先进的 AI 模型,可以生成更高质量的视频和图像。这些模型可以更好地理解用户的需求,提供更精确的生成结果。(2)更快的性能:Runway Gen-2 优化了性能,使得用户能够更快地生成和处理视频和图像。这意味着用户可以更高效地完成项目。(3)更简单的工作流程:Runway Gen-2 进一步简化了工作流程,让用户可以更容易地使用 AI 模型。通过直观的界面和拖放操作,用户可以快速地将 AI 技术融入创作过程。(4)集成市场:Runway Gen-2 引入了一个集成市场,用户可以在其中找到和购买新的 AI 模型。这使得用户能够轻松地扩展工具库,以满足不断变化的需求
4、。(5)更多的协作功能:Runway Gen-2 增加了更多的协作功能,让用户可以更容易地与团队成员一起工作。这包括共享项目、实时协作等功能。Runway 的相机运动、一笔刷万物和导演模式的功能应用及特点:(1)相机运动(Camera Movement):Runway提供了一种直观的方式来控制和调整生成视频的相机运动。用户可以通过简单的拖放操作来设置关键帧,从而实现平滑的相机平移、缩放和旋转。这种功能对于制作专业质量的视频至关重要,因为它可以让用户轻松地模拟复杂的摄影技巧,如跟踪拍摄、景深变化等。通过2 月 16 日凌晨,文生视频模型 Sora 面世,这是Open AI 发布的可以直接输出包括
5、高度精细的场景、复杂的多角度镜头以及富有情感的多个角色,长达 60 秒的视频生成模型。Sora 的面世被称为 AI 生成式视频的 GPT 3 时刻,预示着 AI 视频应用的爆发。该部分梳理了 AI 生成视频的主流模型,并就其技术路线进行 解析。1.1 文生视频的主流模型AI 文生视频是 AI 模型继文生文、文生图片、文生语音之后的重要方向,目前国内外市场上主要有 5 个 模型:(1)Runway 的 Gen-2 模型(2)Pika Labs 的 Pika 模型(3)Stablility AI 的 StableVideo Difusion 模型(4)OpenAI 的 Sora 模型(5)书生筑梦
6、视频大模型1.1.1 RunwayGen-2模型Runway 是一个综合应用,不仅可以生成视频,还可以进行视频抠像、删背景、运动追踪等操作。在最近的更新中,Runway 推出了 Runway Gen-2,这是一个重要的版本升级。Runway Gen-2 的一些主要特点 如下:(1)更强大的 AI 模型:Runway Gen-2 引入了更表1 文生视频主要模型特点一览表模型公司发布时间是否开源技术特点GEN-2Runway2023.6部分免费影视级构图运镜,画面清晰度精美度最强,最新版本可生成4K画质视频PIKAPika Labs2023.11否语言理解能力强,画面一致性较佳,在画质和稳定性方面
7、还有待提高STABLEVIDEO DIFFUSIONStablility AI2023.11是第一个基于图像模型 Slable Diffusion的生成式视频基础模型SORAOpenAI2024.2否Transformer+diffusion,突破性的语义理解能力、复杂场景变化模拟能力、一致性书生筑梦上海人工智能实验室2024.2否是上海人工智能实验室“书生”基础大模型之一,与Stablility.ai的文生视频框架AnimateDiff以及可控图像生成、图像驱动等技术结合17影视制作观潮FocusAIGC如何影响视听行业相机运动功能,用户可以为视频添加更多视觉深度和动态效果。(2)一笔刷万物
8、(Paint with Light):这是 Runway中一个非常有趣且实用的功能,它允许用户通过在视频帧上绘制光线来增强或修改场景中的照明效果。用户可以选择不同的光源类型、颜色和强度,然后在画面上自由绘制。这个功能对于修复光线不足或过度曝光的视频片段非常有用,也可以帮助用户创造独特的视觉效果。该功能在 2024 年 1 月更新为多功能动态笔刷(Muti Motion Brush),允许视频创作者在他们人工智能生成视频的创作中添加多个方向和类型的 运动。(3)导演模式(Director Mode)等附加功能,允许用户在生成的视频中选择相机运动的方向和强度/速度,以及选择要制作的视频的风格:从
9、3D 卡通和渲染到电影到广告等。Runway为用户提供了更强大的视频编辑能力,使他们能够更轻松地制作出专业质量的视频作品。1.1.2 Pika模型Pika 是一家由两位华人女性 Demi Guo(CEO)和 Chenlin Meng(CTO)创立的 AI 公司,成立于2023 年 4 月。这两位创始人都是斯坦福大学的计算机科学博士生,具有丰富的研究背景。公司的创业初衷是开发易于使用的 AI 视频生成工具,以解决在制作电影过程中遇到的挑战。自创立以来,Pika 迅速吸引了500,000 用户,并每周产生数百万新视频。Pika 五大功能如下:(1)高质量文生视频:Pika 的文生视频在清晰度和连贯
10、性方面优于竞争对手,如 Runway。同时,Pika展示了优秀的语义理解能力,可以根据输入的文字生成不同内容和风格的 AI 视频。(2)图生视频:虽然没有详细介绍,但 Pika 的图生视频支持镜头控制,预计这一功能将在未来的更新中继续保留。(3)视频生视频:Pika 的视频生视频功能在质量上优于 Runway,操作更简单。例如,可以将原始黑白视频转换成各种风格的高质量视频动画。(4)局部修改视频内容:类似于图像领域的 inpain-ting 技术,Pika 可以让用户直接修改视频中的局部 内容。(5)修改视频尺寸:类似于图像领域的 outpainting技术,Pika 可以调整视频的尺寸。Pi
11、ka 的语义理解做得很好,可以根据用户的文字提示生成视频。然而,与 Runway Gen-2 相比,Pika在画质和稳定性方面还有待提高。1.1.3 Stable Video Diffusion模型Stable Video Diffusion 是由 Stability AI 开发的一款开源 AI 视频生成模型。通过潜在扩散模型实现从静态图像到动态视频的转换。该模型能够生成 14或 25 帧的高分辨率视频,支持多视角生成和帧插值等 功能。Stable Video Diffusion 的应用场景非常广泛,包括但不限于电影制作、游戏开发、教育训练、广告宣传等。通过该模型,创作者可以更加便捷地生成高质
12、量的视频内容,从而加速创意的实现和产品的上市时间。Stable Video Diffusion 的优点:(1)开源免费:与 Runway 和 PIKA 等商业平台相比,Stable Video Diffusion 是免费的,这使得更多的开发者和用户能够尝试和使用这个技术。(2)高性能:Stable Video Diffusion 在很多方面表现出强大的性能,可以生成高质量的视频。(3)多模态:作为 Stability AI 的一部分,Stable Video Diffusion 与其他开源模型(如 Stable Diffusion 和 Stable LM)相结合,形成了一个完整的多模态解决方案
13、。Stable Video Diffusion 的缺点:(1)高性能要求:Stable Video Diffusion 对硬件要求较高,需要 20G 显存起步的显卡,这使得许多普通用户难以接触和使用。(2)尺寸限制:目前,Stable Video Diffusion 支持的图片尺寸为 1024x576,这可能限制了一些应用 场景。(3)摄像机运动和可控性:Stable Video Diffusion 不支持摄像机运动,且可控性相对较差。(4)清晰度:与一些成熟的商业解决方案相比,Stable Video Diffusion 生成的视频清晰度有待提高。1.1.4 Sora模型Open AI 推出
14、的 Sora 模型能够通过输入文本/图片/视频智能生成最长时长为 60 秒、分辨率为 1080p的高品质风格化视频,在视频生成领域具有里程碑意18影视制作观潮Focus义,生成视频在对真实世界的认知和模拟方面取得了优异性能,Open AI 称其为“世界模拟器”。根据目前Open AI 发布的多段 Sora 智能生成的完整视频,可以明显看出 Sora 的技术优势所在:(1)Sora 生成的视频内容,符合现实世界的物理规律;(2)可生成最长 60 秒的视频,包含多个镜头,其中对象角色可保持图像透视关系一致,并能够有效处理视频中的长期依赖关系;(3)生成具有逻辑性的视频内容,保证事件和动作在时间上的
15、连贯性;(4)支持文字+图片或者文字+视频生成视频;(5)支持在原有视频基础上,向前和向后扩展视频。与先前的文本生成视频软件如 Runway、Pika 和Stable Video 等“前辈”相比,Sora 不仅在技术层面取得了突破性的进步,视频效果上更是实现了如代际碾压般的降维打击。首先,最直接差距的便是视频长度的提升。与此同时,在真正的视频拍摄中,多镜头场景的拍摄并不是件易事,不仅需要多个机位共同参与,还需要在后期进行复杂的剪辑,所以过去的 AI 视频大多是单镜头出现,但Sora 放出的文生视频很多出现了多角度的镜头切换,并可以在不停的切换之间实现拍摄对象的一致性,这都是其他 AI 视频软件
16、无法完成的。此外,Sora 创造出的场景和角色,已经达到了以假乱真的地步,从各种细节上来看,都好像是真实拍摄的一般,譬如生成人物的瞳孔、睫毛等细节处理,都看不出任何的 AI 味道。1.1.5 书生筑梦模型上海人工智能实验室研发的文生视频大模型“书生筑梦”,模型已经开源,授权用户单位免费商用。它的参数量超过 30 亿,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。“书生筑梦”是“书生”系列大模型之一,可赋能视频创作。它与文生视频框架 AnimateDiff 以及可控图像生成、图像驱动等技术结合,在动画片等视频领域有广阔的应用前景。其中,文生视频框架
17、 AnimateDiff无需额外的数据收集和定制化训练,就能一次性、快速地为大多数个性化文本转图像模型提供动画效果。2023 年 7 月,上海人工智能实验室与中央广播电视总台开始合作,双方联合发布“央视听媒体大模型”。这是国内首个专注于视听媒体内容生产的大模型,集聚了总台的海量视听数据和实验室的原创先进算法、大模型训练基础设施优势。利用“书生筑梦”等 AI 工具制作的系列动画片千秋诗颂已完成,已从 2023 年 2 月 26 日起在总台综合频道(CCTV-1)播出。这一国内首部 AIGC(人工智能生成内容)系列动画片共 26 集,每集约 7 分钟,其美术设计、动效生成和后期成片均由人工智能辅助
18、 制作。1.2 文生视频模型的技术路线文生视频(Text-to-Video)是基于文本通过生成式 AI 生成视频的模式。随着文生图技术的精进与成熟,对于文生视频技术发展的关注逐渐提升,文本生成视频模型的发展经历三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based 生成阶段、自回归和扩散模型阶段。2017 年谷歌提出的 Transformer 模型架构是现阶段人工智能模型的架构基础。Transformer 架构的表2 基础模型与应用场景 基础模型与应用场景年份技术特点深度变分自编码(VAE)2013年图像生成、语音合成生成对抗神经网络(GAN)2014年图像生成、语音合成扩散模型(D
19、IFFUSION MODEL)2015年图像生成TRANSFORMER2017年语言模型VISON TRANSFORMER(VIT)2020年视觉模型19影视制作观潮FocusAIGC如何影响视听行业 图3 ViT Transformer 图1 千秋诗颂 竖版海报 图2 “央视听媒体大模型”助力 千秋诗颂 全流程动画制作核心思想是利用海量数据进行学习,以便在特定的目标场景中实现泛化效果,即通过分析先前的内容来预测后续的内容。这种方法在文本生成领域中表现出色,因为文本数据的结构和标准相对一致。然而,对于视频数据,情况就大不相同了。视频数据包含了图像内容、时间、颜色等多种维度的信息,如何将这些不同
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视频 模型 应用 场景 AIGC 如何 影响 视听 行业
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。