分销赏收藏举报申诉 / 9

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 从视频模型到应用场景：AIGC如何影响视听行业.pdf

从视频模型到应用场景：AIGC如何影响视听行业.pdf

上传人：自信****多点

文档编号：3010154

上传时间：2024-06-13

格式：PDF

页数：9

大小：8.94MB

《从视频模型到应用场景：AIGC如何影响视听行业.pdf》由会员分享，可在线阅读，更多相关《从视频模型到应用场景：AIGC如何影响视听行业.pdf（9页珍藏版）》请在咨信网上搜索。

1、15影视制作观潮FocusAIGC如何影响视听行业从视频模型到应用场景：AIGC如何影响视听行业文/杨玉洁樊刚3 月 6 日，一年一度的奥斯卡电影奖颁奖前夜，世界首部由 AI 生成的 90 分钟电影长片我们的终结者 2重制版（Our T2 Remake）在美国洛杉矶 Landmark Nuart Theater 剧院上映。据悉，该部电影由 50 位 AI 领域艺术家组成创作团队，并宣称是“完全由 AI 制作的开创性长篇电影”。该片“使用 AI 探讨 AI”，呈现了一场人类对抗 ChatGPT 统治的世界，以此探讨 AI 发展对人类世界的影响。与此同时，中国的 AIGC 也处在爆发的前夜。2

2、月 26 日，中央广播电视总台制作的中国首部文生视频 AI 系列200 集动画片千秋诗颂开播，首部 AI 全流程微短剧中国神话、首部 AI 译制英文版系列微纪录片来龙去脉也随后发布。这是中国的央媒在抢占未来产业竞争高点赋能文化产业，迎接全球传媒业全方位变革的生动见证。自 2023 年生成式人工智能技术突飞猛进，中国人工智能大模型也迎来了应用大发展。2024 年，中国的视听行业也即将成为 AI 应用的桥头堡。本期观潮，我们将系统回顾生成式 AI 特别是视频生成 AI 的原理和技术发展，结合国内外代表性 AI 视频案例，探讨其对未来视听产业的影响。16影视制作观潮Focus1.AI视频的GPT 3

3、时刻到来！Sora与视频生成模型先进的 AI 模型，可以生成更高质量的视频和图像。这些模型可以更好地理解用户的需求，提供更精确的生成结果。（2）更快的性能：Runway Gen-2 优化了性能，使得用户能够更快地生成和处理视频和图像。这意味着用户可以更高效地完成项目。（3）更简单的工作流程：Runway Gen-2 进一步简化了工作流程，让用户可以更容易地使用 AI 模型。通过直观的界面和拖放操作，用户可以快速地将 AI 技术融入创作过程。（4）集成市场：Runway Gen-2 引入了一个集成市场，用户可以在其中找到和购买新的 AI 模型。这使得用户能够轻松地扩展工具库，以满足不断变化的需求

4、。（5）更多的协作功能：Runway Gen-2 增加了更多的协作功能，让用户可以更容易地与团队成员一起工作。这包括共享项目、实时协作等功能。Runway 的相机运动、一笔刷万物和导演模式的功能应用及特点：（1）相机运动（Camera Movement）：Runway提供了一种直观的方式来控制和调整生成视频的相机运动。用户可以通过简单的拖放操作来设置关键帧，从而实现平滑的相机平移、缩放和旋转。这种功能对于制作专业质量的视频至关重要，因为它可以让用户轻松地模拟复杂的摄影技巧，如跟踪拍摄、景深变化等。通过2 月 16 日凌晨，文生视频模型 Sora 面世，这是Open AI 发布的可以直接输出包括

5、高度精细的场景、复杂的多角度镜头以及富有情感的多个角色，长达 60 秒的视频生成模型。Sora 的面世被称为 AI 生成式视频的 GPT 3 时刻，预示着 AI 视频应用的爆发。该部分梳理了 AI 生成视频的主流模型，并就其技术路线进行解析。1.1 文生视频的主流模型AI 文生视频是 AI 模型继文生文、文生图片、文生语音之后的重要方向，目前国内外市场上主要有 5 个模型：（1）Runway 的 Gen-2 模型（2）Pika Labs 的 Pika 模型（3）Stablility AI 的 StableVideo Difusion 模型（4）OpenAI 的 Sora 模型（5）书生筑梦

6、视频大模型1.1.1 RunwayGen-2模型Runway 是一个综合应用，不仅可以生成视频，还可以进行视频抠像、删背景、运动追踪等操作。在最近的更新中，Runway 推出了 Runway Gen-2，这是一个重要的版本升级。Runway Gen-2 的一些主要特点如下：（1）更强大的 AI 模型：Runway Gen-2 引入了更表1 文生视频主要模型特点一览表模型公司发布时间是否开源技术特点GEN-2Runway2023.6部分免费影视级构图运镜，画面清晰度精美度最强，最新版本可生成4K画质视频PIKAPika Labs2023.11否语言理解能力强，画面一致性较佳，在画质和稳定性方面

7、还有待提高STABLEVIDEO DIFFUSIONStablility AI2023.11是第一个基于图像模型 Slable Diffusion的生成式视频基础模型SORAOpenAI2024.2否Transformer+diffusion，突破性的语义理解能力、复杂场景变化模拟能力、一致性书生筑梦上海人工智能实验室2024.2否是上海人工智能实验室“书生”基础大模型之一，与Stablility.ai的文生视频框架AnimateDiff以及可控图像生成、图像驱动等技术结合17影视制作观潮FocusAIGC如何影响视听行业相机运动功能，用户可以为视频添加更多视觉深度和动态效果。（2）一笔刷万物

8、（Paint with Light）：这是 Runway中一个非常有趣且实用的功能，它允许用户通过在视频帧上绘制光线来增强或修改场景中的照明效果。用户可以选择不同的光源类型、颜色和强度，然后在画面上自由绘制。这个功能对于修复光线不足或过度曝光的视频片段非常有用，也可以帮助用户创造独特的视觉效果。该功能在 2024 年 1 月更新为多功能动态笔刷（Muti Motion Brush），允许视频创作者在他们人工智能生成视频的创作中添加多个方向和类型的运动。（3）导演模式（Director Mode）等附加功能，允许用户在生成的视频中选择相机运动的方向和强度/速度，以及选择要制作的视频的风格：从

9、3D 卡通和渲染到电影到广告等。Runway为用户提供了更强大的视频编辑能力，使他们能够更轻松地制作出专业质量的视频作品。1.1.2 Pika模型Pika 是一家由两位华人女性 Demi Guo（CEO）和 Chenlin Meng（CTO）创立的 AI 公司，成立于2023 年 4 月。这两位创始人都是斯坦福大学的计算机科学博士生，具有丰富的研究背景。公司的创业初衷是开发易于使用的 AI 视频生成工具，以解决在制作电影过程中遇到的挑战。自创立以来，Pika 迅速吸引了500,000 用户，并每周产生数百万新视频。Pika 五大功能如下：（1）高质量文生视频：Pika 的文生视频在清晰度和连贯

10、性方面优于竞争对手，如 Runway。同时，Pika展示了优秀的语义理解能力，可以根据输入的文字生成不同内容和风格的 AI 视频。（2）图生视频：虽然没有详细介绍，但 Pika 的图生视频支持镜头控制，预计这一功能将在未来的更新中继续保留。（3）视频生视频：Pika 的视频生视频功能在质量上优于 Runway，操作更简单。例如，可以将原始黑白视频转换成各种风格的高质量视频动画。（4）局部修改视频内容：类似于图像领域的 inpain-ting 技术，Pika 可以让用户直接修改视频中的局部内容。（5）修改视频尺寸：类似于图像领域的 outpainting技术，Pika 可以调整视频的尺寸。Pi

11、ka 的语义理解做得很好，可以根据用户的文字提示生成视频。然而，与 Runway Gen-2 相比，Pika在画质和稳定性方面还有待提高。1.1.3 Stable Video Diffusion模型Stable Video Diffusion 是由 Stability AI 开发的一款开源 AI 视频生成模型。通过潜在扩散模型实现从静态图像到动态视频的转换。该模型能够生成 14或 25 帧的高分辨率视频，支持多视角生成和帧插值等功能。Stable Video Diffusion 的应用场景非常广泛，包括但不限于电影制作、游戏开发、教育训练、广告宣传等。通过该模型，创作者可以更加便捷地生成高质

12、量的视频内容，从而加速创意的实现和产品的上市时间。Stable Video Diffusion 的优点：（1）开源免费：与 Runway 和 PIKA 等商业平台相比，Stable Video Diffusion 是免费的，这使得更多的开发者和用户能够尝试和使用这个技术。（2）高性能：Stable Video Diffusion 在很多方面表现出强大的性能，可以生成高质量的视频。（3）多模态：作为 Stability AI 的一部分，Stable Video Diffusion 与其他开源模型（如 Stable Diffusion 和 Stable LM）相结合，形成了一个完整的多模态解决方案

13、。Stable Video Diffusion 的缺点：（1）高性能要求：Stable Video Diffusion 对硬件要求较高，需要 20G 显存起步的显卡，这使得许多普通用户难以接触和使用。（2）尺寸限制：目前，Stable Video Diffusion 支持的图片尺寸为 1024x576，这可能限制了一些应用场景。（3）摄像机运动和可控性：Stable Video Diffusion 不支持摄像机运动，且可控性相对较差。（4）清晰度：与一些成熟的商业解决方案相比，Stable Video Diffusion 生成的视频清晰度有待提高。1.1.4 Sora模型Open AI 推出

14、的 Sora 模型能够通过输入文本/图片/视频智能生成最长时长为 60 秒、分辨率为 1080p的高品质风格化视频，在视频生成领域具有里程碑意18影视制作观潮Focus义，生成视频在对真实世界的认知和模拟方面取得了优异性能，Open AI 称其为“世界模拟器”。根据目前Open AI 发布的多段 Sora 智能生成的完整视频，可以明显看出 Sora 的技术优势所在：（1）Sora 生成的视频内容，符合现实世界的物理规律；（2）可生成最长 60 秒的视频，包含多个镜头，其中对象角色可保持图像透视关系一致，并能够有效处理视频中的长期依赖关系；（3）生成具有逻辑性的视频内容，保证事件和动作在时间上的

15、连贯性；（4）支持文字+图片或者文字+视频生成视频；（5）支持在原有视频基础上，向前和向后扩展视频。与先前的文本生成视频软件如 Runway、Pika 和Stable Video 等“前辈”相比，Sora 不仅在技术层面取得了突破性的进步，视频效果上更是实现了如代际碾压般的降维打击。首先，最直接差距的便是视频长度的提升。与此同时，在真正的视频拍摄中，多镜头场景的拍摄并不是件易事，不仅需要多个机位共同参与，还需要在后期进行复杂的剪辑，所以过去的 AI 视频大多是单镜头出现，但Sora 放出的文生视频很多出现了多角度的镜头切换，并可以在不停的切换之间实现拍摄对象的一致性，这都是其他 AI 视频软件

16、无法完成的。此外，Sora 创造出的场景和角色，已经达到了以假乱真的地步，从各种细节上来看，都好像是真实拍摄的一般，譬如生成人物的瞳孔、睫毛等细节处理，都看不出任何的 AI 味道。1.1.5 书生筑梦模型上海人工智能实验室研发的文生视频大模型“书生筑梦”，模型已经开源，授权用户单位免费商用。它的参数量超过 30 亿，可根据输入的提示词生成有故事性、含多镜头的分钟级视频，具有转场流畅、故事连贯、画质高清等特点。“书生筑梦”是“书生”系列大模型之一，可赋能视频创作。它与文生视频框架 AnimateDiff 以及可控图像生成、图像驱动等技术结合，在动画片等视频领域有广阔的应用前景。其中，文生视频框架

17、 AnimateDiff无需额外的数据收集和定制化训练，就能一次性、快速地为大多数个性化文本转图像模型提供动画效果。2023 年 7 月，上海人工智能实验室与中央广播电视总台开始合作，双方联合发布“央视听媒体大模型”。这是国内首个专注于视听媒体内容生产的大模型，集聚了总台的海量视听数据和实验室的原创先进算法、大模型训练基础设施优势。利用“书生筑梦”等 AI 工具制作的系列动画片千秋诗颂已完成，已从 2023 年 2 月 26 日起在总台综合频道（CCTV-1）播出。这一国内首部 AIGC（人工智能生成内容）系列动画片共 26 集，每集约 7 分钟，其美术设计、动效生成和后期成片均由人工智能辅助

18、制作。1.2 文生视频模型的技术路线文生视频（Text-to-Video）是基于文本通过生成式 AI 生成视频的模式。随着文生图技术的精进与成熟，对于文生视频技术发展的关注逐渐提升，文本生成视频模型的发展经历三个阶段：图像拼接生成阶段、GAN/VAE/Flow-Based 生成阶段、自回归和扩散模型阶段。2017 年谷歌提出的 Transformer 模型架构是现阶段人工智能模型的架构基础。Transformer 架构的表2 基础模型与应用场景基础模型与应用场景年份技术特点深度变分自编码（VAE）2013年图像生成、语音合成生成对抗神经网络（GAN）2014年图像生成、语音合成扩散模型（D

19、IFFUSION MODEL）2015年图像生成TRANSFORMER2017年语言模型VISON TRANSFORMER（VIT）2020年视觉模型19影视制作观潮FocusAIGC如何影响视听行业图3 ViT Transformer 图1 千秋诗颂竖版海报图2 “央视听媒体大模型”助力千秋诗颂全流程动画制作核心思想是利用海量数据进行学习，以便在特定的目标场景中实现泛化效果，即通过分析先前的内容来预测后续的内容。这种方法在文本生成领域中表现出色，因为文本数据的结构和标准相对一致。然而，对于视频数据，情况就大不相同了。视频数据包含了图像内容、时间、颜色等多种维度的信息，如何将这些不同

20、维度的因素有效结合，成为构建 AI 视频模型的关键挑战。在 Sora 项目的推进过程中，OpenAI 深入思考并参考了大型语言模型的成功之道，即通过互联网上的超大规模数据训练，以获得通用的处理能力，从而成功将代码、数字和各种自然语言进行了有效的统一处理。互联网中的庞大数据，之所以能被 GPT 进行训练，是因为在训练前进行了“数据标记处理”，即将训练的文本内容转译为计算机能够理解的语言。Sora 沿用了GPT 标记训练数据集的思路，在训练之前先对视频内容进行标记。这一过程称作 visual patches视觉补丁。具体来看，Sora模型构建了Visual Encoder视频压缩网络，将视频转换

21、到低维空间 Latent Space，然后将 Latent Space 分解成 Patch 表示，将视频生成的任务转化成通过已知 Patch 预测接下来的 Patches的任务，然后通过 Decoder 将 Latent 还原成人类可理解的高像素视频并拼接起来，最终生成目标视频。也正是因为将视频转换成 Patch 表示，所以 Sora模型并不像传统的视觉模型那样，需要被高宽比、分辨率、时间等因素限制，让整个模型的泛化能力和通用性变得更强，还支持更多的 Prompt 类型，完成图生视频、视频扩展、多个视频之间连接等功能。本质上，Sora 和 Pika、Runway 采用了相似的底层模型，即 Di

22、ffusion 扩散模型。不同之处在于，Sora 把其中的实现逻辑进行了变化，将 U-Net 架构替换成了 Transformer 架构。不过尽管 Sora 在文本生成视频领域取得了显著的进展，但它仍然只是文生视频革命的初步尝试。Sora 现阶段的局限性也较为明显，在“文字图片”生成领域中的共性问题也延续到了 Sora 生成视频中，如人物手部处理困难、视频中标牌文字混乱等。此外，Sora 对物理世20影视制作观潮Focus 图4 北京广播电视台自主打造广播级真人数字人“时间小妮”界的模拟能力有限，仍会出现错误，不完全符合物理学规律，例如在包含多个实体的场景中，视频中的对象实体可能会突然自发出现

23、，物体间的相互作用或变形错误，如篮球入篮后穿过篮筐边缘的错误显示等。2.AIGC在视听行业的应用现状与未来展望全球首部完全由 AI 制作的电影我们的终结者 2重制版主要使用了多个 AI 生成内容（AIGC）工具进行制作。具体包括：OpenAI、ChatGPT 和 AGI 等人工智能底层工具，以及 Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe 等多个人工智能创作工具。这些工具在从剧本、角色设定、场景构建到镜头语言、剪辑和音效等各个方面发挥了关键作用。即便如此，该电影的质量仍然无法与成熟的电影相比。值得一提的是，这部电影的制作过程中

24、，每个片段由不同的艺术家重新构思，体现了 AI 在电影制作过程中的应用和价值。2.1 AIGC赋能文娱视听生态当前，AIGC 在视听行业的应用处在辅助内容生成的阶段，主要目的在于减少重复性的琐碎劳动，以提升工作效率。例如编辑环节，可以 AIGC 技术对视频画质进行修复与增强，自动匹配字幕，实现人物实时追踪与画面抖动修复等。AIGC 辅助创作应用在相对标准化的工作流程中，适合更快速高效生产的需求。也就是说，AIGC 本质上是一种 AI 赋能技术，能够通过其高质量、低门槛、高自由度的生成能力，广泛服务于各类场景及生产者，形成 AIGC+生态。自 ChatGPT 爆发以来，AI 大模型及工具在文娱领

25、域的应用正在逐渐增多，国内外各大公司和平台也应用大模型对产品进行了优化，形成一系列的应用。主要涉及内容创作、游戏设计、影视制作、音乐生成等方面。（1）内容创作辅助大模型可以辅助创作小说、诗歌、剧本等文学作品，例如，通过生成式文本模型，可以创作出全新的故事情节和角色对话。该领域除 ChatGPT 外，国内文心一言、通义千问等均可以进行虚构类文本的生成，辅助文学作品创作。Youtube 还在年度创作者大会上推出包括视频主题创意和大纲生成器在内的一系列由 AI 驱动的视频创作工具。DeepMind 推出的 Dramatron 是一个所谓的“联合写作”工具，你给它一句话（log line）描述中心戏剧

26、冲突，它就能自动写出标题、角色、场景描述和对话。（2）模型、角色和情节生成在游戏和影视预览的设计中，大模型可以用来生成角色、背景故事和动态情节，增强游戏、影视的互动性和多样性。如 OpenAI 专为生成 3D 数字资产的文字生成模型 ShapE，用户可以通过输入文本来创建逼真且多样化的 3D 模型，并在几秒内完成渲染。国内初创公司 ChatAvatar 产品可以通过文本输入生成影视级3D 超写实数字人。（3）影视后期制作大模型可以帮助影视创作的后期制作中，通过生成式视频模型，生成或编辑影视作品中的特定场景和特效。如 Adobe 在 Adobe Max 全球创意活动上展示了一系列新的生成式 AI

27、应用，覆盖图像编辑、视频制作、音频处理和 3D 设计领域。如首次融合了生成式AI 技术“Project Fast Fill”可以通过输入简单文本提示，快速添加、删除或者扩展视频内容。“Project Dub Dub Dub”能够自动化为视频配音。“Project Scene Change”可使视频编辑人员将不同相机角度拍摄的视频合成为具有同步摄像机运动的场景。（4）音乐创作和生成音乐生成模型可以根据用户输入的种子旋律或歌词，生成完整的音乐作品，包括旋律和声和节奏。如Youtube 推出的 AI 音乐工具 Dream Track，通过输21影视制作观潮FocusAIGC如何影响视听行业有对话功

28、能外，还可以化身不同虚拟角色，用符合角色人设的语气陪伴用户聊天，为用户带来全新的观影体验。2.2 AIGC赋能影视内容生产人工智能在影视文娱以及游戏等行业的应用主线在于内容生产力的释放和升级。尽管 Sora 尚未公开上市，但它的出现预示着 AI 技术在内容创作领域的一个新纪元。它能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这种能力不仅为内容创作者提供了前所未有的工具，使他们能够以更低的成本和更快的速度将创意变为现实，而且为观众带来了更丰富和多样化的视觉体验。以主流的二维和三维制作的动画电影为例，普遍花费 37 年时间制作，成本在 1000万-3000万元之间。这与

29、海外皮克斯等公司的制作投入相比仍属于“小巫见大巫”。相应地，AIGC 在图像及视频方面的实现与研究将加速动画电影的制作，促进其在动画电影领域的落地，包括 Sora 在内的视频 AI 工具也将在全流程领域加以应用，具体包括：（1）项目决策和前期准备阶段在概念创作阶段，艺术家可以使用 AI 视频工具根据剧本或故事板的描述快速生成视频片段，帮助投资方等客户更直观地理解场景和角色。预可视化上，利用 AI生成的视频来测试不同的视觉风格和艺术方向，以便在投入大量资源进行详细动画制作之前做出更明智的决策。（2）项目进行阶段场景和背景生成方面，AI 可以帮助艺术家快速探索不同的环境设置，创造丰富多样的视觉背

30、景。例如利用视频大模型生成复杂的场景和背景，减少手工绘制，节省时间和成本。入文本或者哼唱一段旋律来创作音乐，该工具是基于谷歌 DeepMind 的音乐生成模型 Lyria 开发的。（5）虚拟角色和虚拟现实大模型可以用来创建虚拟角色，使其在虚拟现实环境中具有更自然的语言和面部表情，提升用户体验。如从事合成数据技术的公司 Synthesis AI 设计了一种创新方法，利用基于扩散模型的生成式人工智能架构，构建了由性别、年龄、种族、发型和服装等关键参数控制的网格模型。用户输入所需数字人的文字描述，系统便会生成符合规格的数字人。通过更改文字描述或者使用滑块调整面部表情和光线等功能，对 3D 数字人进行

31、编辑。苹果 AI 技术 HUGS 使用神经渲染方法 3D Gaussian Splatting 和 SMPL 人体模型，能够在 30分钟内分析人物动态短视频，然后创建目标人物在新场景下的新动作，生成数字人分身。该技术比 NeuMan和 Vid2Avanta 等其他方法快近百倍。（6）互动式叙事和虚拟助手对视频平台来说，背靠着大量用户使用数据基础，如何在快速迭代用户体验的同时，抓住先发优势从众多平台中脱颖而出也是一个值得探索的方向。在互动式叙事游戏中，大模型可以作为虚拟助手的智能后台，根据玩家的选择和行为，动态生成故事内容。如YouTube 推出的 AI 聊天机器人通过大模型从平台和网络上获取信

32、息，满足平台用户观看视频时的问答互动服务。目前，爱奇艺开始在原有的修复、制作、第三方赋能上，补齐了平台用户服务中最重要的“使用技术加持”环节，推出 AI 搜索功能，对一揽子式的服务流程进行了“查漏补缺”，完成了爱奇艺向 AI 技术背景+在线视频服务平台的过渡。近日，优酷推出的“AI 搜片”则特别推出影片人物数字人担任影视助理，除了具图5 终结者2 重制版中，AI大模型既是工具，也是片中重要的背景22影视制作观潮Focus角色设计方面，虽然 AI 目前可能还无法完全替代专业的角色动画师，但 Sora 等 AI 视频工具可以帮助生成角色的初步动作和表情，作为动画师工作的起点。通过 AI 生成的

33、动作捕捉数据，可以快速创建角色的基本动作，然后由动画师进行细化和调整。特效和视觉特效方面，AI 可以协助艺术家实现更加逼真和震撼的视觉效果，提升动画电影的整体质量。可以使用 Sora 生成复杂的特效和视觉元素，如爆炸、火焰、水流等，这些在传统动画制作中可能需要大量的计算和渲染资源。（3）后期制作阶段在后期制作阶段，Sora 等 AI 视频工具可以帮助生成过渡效果、动态背景或其他视觉元素，为剪辑工作提供更多选择。AI 工具还可以用于生成临时音乐或声音效果，帮助在最终音频制作之前预览整体效果。智能剪辑工具可以快速生成粗剪，有助于剪辑师提高工作效率。（4）迭代和修改利用 Sora 快速响应修改请求，

34、如在剧本或设计发生变化时，快速生成新的视觉内容。AI的快速迭代能力可以让剪辑师在有限的时间内探索更多创意可能性。目前，生成式人工智能是爱奇艺等长视频平台进一步通往影视工业化发展的助推器，以跟进前沿技术，将其用于内容生产、用户体验的改善上。爱奇艺正在推动生成式AI 应用于内容创意开发、制作等全流程，目前在策划和开发阶段，生成式 AI 对小说和剧本进行人物及场景的拆解，帮助提高小说IP、剧本的评估效率和准确率，以挖掘更多有爆款潜力的优质项目。北京广播电视台制作中心在 AIGC 领域的探索包括文生图、文生视频、数字人视频及视频转绘等方面均有成片推出。3 月 16 日，北京广播电视台人工智能融媒创新实

35、验室揭牌，积极响应政府工作报告，开展“人工智能+”行动。实验室将基于北京广播电视台百万小时优质视音频媒体资产进行数据训练，依托智源研究院强大算力资源，共同研制通用型人工智能基础大模型，探索“科技+媒体”跨领域合作。应用场景方面，北京广播电视台也提出在精品节目创作、大型活动展示、融媒产品制作、创新营销手段、辅助办公等场景全面利用好 AI 及 AIGC 技术。需要注意的是，虽然 AI 视频工具如 Sora 提供了强大的辅助功能，但它们并不能完全取代人类创造力和艺图6 文生视频示例图7 北京广播电视台人工智能融媒创新实验室揭牌23影视制作观潮FocusAIGC如何影响视听行业图8 视频转绘示例

36、3.结语我们的终结者 2（Our T2 Remake）以幽默的方式重新演绎了詹姆斯卡梅隆的经典之作终结者 2：审判日，该片首映前后引起来自世界的广泛关注。尽管褒贬不一，这部借助 AI 工具创作的影片依然昭示了一个新时代的到来。不过开始使用技术的极客创作者们认为在可预见的时间里，包括 Sora 在内的所有生成式人工智能，都还停留在效率工具和辅助创意工具的阶段。正如北京邮电大学人机交互与认知工程实验室主任刘伟接受环球时报记者采访时表示，Sora 在短期内可能会对短视频制作、影视行业以及视觉交互界面应用产生较为显著的影响；从长期来看，这项技术会为自动驾驶、数字仿真、场景模拟等领域带来改变。他表示，

37、“我们不应神化 Sora 的作用，这项技术还很难取代传统的影视行业制作流程，人类用心拍出的影视作品，还很难仅用芯来完成。”然而，随着 AI 生成内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成了一个重要问题。包括 Sora 研发人员，并不想让 Sora 用于造谣，因而采取包括溯源分类器在内的技术措施确保 AI 视频的有效追溯。3 月 13 日，世界上第一部为人工智能的安全和以人为本的发展制定明确道路的法规人工智能法案通过表决。这也成为人工智能治理新的里程碑，由此引起的一系列就业、版权、隐私和数据安全等问题也需要得到妥善解决。【参考文献】1 王春水.人工智能技术的发展及其对影

38、视制作的影响J.影视制作,2023,29(10):13-21.2 甜橙AI商业.AI视频生成领域的革命:Runway、StableVideoDiffusion与Pika三大神器全面解析.EB/OLhttps:/ 文巧,郑雨航.或许,能打败OpenAI的只有OpenAI.N.每日经济新闻.2024-02-234 黑墨丁格.Sora报告技术详解.EB/OLhttps:/ 易观分析.中国文娱业人工智能行业应用发展图谱2023.M.2024-01术判断。以动画电影为例，其核心仍然是故事和角色，AI 只是帮助实现这些创意的工具之一。“真正有创造力的人会在有新工具的时候做出令人惊奇的事情，并且会创造出以前不可能的新事物。”Sora 技术团队在采访中表示。使用 AI 工具时，应该结合人类艺术家的经验和直觉，共同创造出既有技术含量又有艺术价值的作品。

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 视频模型应用场景 AIGC 如何影响视听行业

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。