AIGC发展研究资料2.0.pdf
《AIGC发展研究资料2.0.pdf》由会员分享,可在线阅读,更多相关《AIGC发展研究资料2.0.pdf(208页珍藏版)》请在咨信网上搜索。
1、2024年1月(Sora发布之前)AIGC发展研究资料(2.0版 修订号0.90)清华大学新闻与传播学院元宇宙文化实验室报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索,致力于向读者提供全面了解AIGC动态的指南,共同探寻人工智能和人类未来发展的和谐之道。AIGC系列研究资料聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对A
2、IGC领域的挑战提供了理论指导与实践建议。AIGC报告2.0AIGC报告1.0注:图 片 为 报 告 内 容 示 例技术与演进为什么是OpenAI率先突破2017年6月,谷歌大脑团队发表论文Attention is all you need,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。u 2018年6月,推出1.17亿参数的GPT-1模型u 2019年2月,推出15亿参数的GPT-2u 2020年5月,发布了1750亿参数的GPT-3u 2022年3月,InstructGPT发布,回答更加真实u 2022年11月,ChatGPT发布,并率先破圈u 201
3、8年10月,提出3亿参数的BERTu 2019年10月,提出110亿参数的新预训练模型-T5u 2021年1月,推出1.6万亿参数的Switch Transformeru 2021年5月,发布1370亿参数的LaMDAWHYOpenAI&ChatGPT前瞻性AI视野多样应用探索人性化AI愿景正确合作对象长期研究投入强大技术实力u 坚定的科技信仰:坚持不断改进GPTu 开放的合作伙伴:与微软达成合作u 较少的商业顾虑:声誉成本、利益冲突跨领域知识应用集成了广泛的领域知识,可以在多种主题上进行交流和生成信息。上下文感知对话管理能够在一定程度上理解和记忆对话历史,实现上下文顺畅的交流。自然语言处理(
4、NLP)的进步ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力,能够根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据(如文本、图像、声音)进行综合交互。已实现的创新ChatGPT 创新:持续迭代 迈向AGI 高级情感智能虽然具备基本的情感识别能力,但在理解和表达复杂情感方面仍有局限。深层次常识推理在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。无偏见输出由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见长期记忆
5、和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强)尚未实现的创新基本理解全部的问题含义上下文的逻辑关联能力回答问题的增量创新和组合创新能力AI幻觉&AI想象扩展了异感世界的构建能力多模态能力学科能力的全维、全知、全量GPT4:一骑绝尘 进化迅速 ChatGPT 4.0 相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。OpenAI宫斗:利益冲击 观念博弈OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。u OpenAI联合创始人、
6、前CEO山姆奥特曼(Sam Altman)u OpenAI联合创始人、前总裁格雷格布罗克曼(Greg Brockman)u OpenAI联合创始人、首席科学家伊尔亚苏茨克维(Ilya Sutskever)u OpenAI首席技术官米拉穆拉蒂(Mira Murati)u 微软公司首席执行官萨提亚纳德拉(Satya Nadella)u OpenAI临时首席执行官埃米特谢尔(Emmett Shear)事件核心人物观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“末日论派”
7、:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。11月16日:苏茨克维通知奥特曼开会。11月17日:奥特曼、布罗克曼和OpenAI高级研究员相继离职。11月18日:投资者愤怒并要求奥特曼回归,董事会初步同意。11月19日:奥特曼等加入微软,近750名OpenAI员工威胁集体辞职,要求奥特曼回归。11月20日:奥特曼、布罗克曼与OpenAI董事会谈判,微软对奥特曼的回归持开放态度。11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。2024焦点:改善体验
8、 多模突破五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。AIAI幻觉率提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。生成内容一致性保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC 领域的重要挑战。文本生成视频文生视频技术对场
9、景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。u 用户:我昨天晚上去了一个音乐会,主要是为了看我最喜欢的乐队,但是开场乐队也非常棒。u AI:听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌曲给你留下了深刻印象?u 用户:他们演奏了深夜,那是他们最新的单曲,非常激动人心。不过,我也很惊讶于开场乐队的表现。u AI:是啊,深夜是一首很有力量的歌曲。关于开场乐队,你最喜欢他们的哪个部分?自注意力机制帮助AI关注到用户最关心的问题。u 用户描述:“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边,背景是雪山。”该描述中有三个关键信
10、息:红色连衣裙的女人、蓝色的湖、雪山背景。自注意力:动态聚焦 平衡权重u AI注意到用户提到了关键信息点“最喜欢的乐队”,机器人据此询问了更多的细节。u AI注意到用户对“开场乐队”的正面评价,机器人随后询问了更多关于开场乐队的信息。绘 画人 机 交 互 自 注 意 力 机 制 体 现对话u 自注意力机制为每一个关键信息分配一个“注意力权重”。u 生成图像时,根据权重来确定每个部分的细节和重要性。u 例如,红色连衣裙的女人可能会被赋予较高的注意力权重,因此在图像中她的细节和颜色可能会被更加准确地渲染。u 同样,蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。世界模型:另一可能
11、 规划推理自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。“世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。【学习方法】:自监督学习,通过创建外部世界 的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构,学习表示的层次结构【应用领域】:图像分析和理解类任务Joint Embedding Predictive Architecture(JEPA)u 提
12、升自主学习能力:不再依赖于大量的手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。u 提升认知能力:随着机器对复杂环境和抽象概念理解的加深,世界模型可以推动AI在需要高级认知能力的领域的应用,如法律分析、财务规划等。u 提升决策和预测能力:世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。世界模型可能带来?图灵奖得主 Yann LeCun属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性单一模态的数据质量可能会影响
13、整体性能可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力 结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种
14、信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理单模多模:快速进步 模拟世界多模融合:高维互联 信息贯通 多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态
15、技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:夏日的海滩日落图海底世界静态转为动态地标识别足球解说文本生成图像文本生成视频图像生成视频图像理解视频理解多模关键:意图感知 自我演化u 意图感知的模态选择:搭载“意图解析引擎”,能从多模态数据中抽取和理解用户或系统深层次的意图,并据此进行选择。u 时间-空间-模态联合优化:开发全新的“多维度优化框架”,能够在多个维度上动态调整和优化资源,如减少时间延迟,选择最优数据来源地和最有用模态维度。
16、u 自我演化的交互模式:引入一种全新的“演化算法”,能够模拟人类学习和适应的过程,使HCI系统在识别用户行为模式的同时,还能发现隐藏的需求或习惯,并根据这些信息进行自我演化。关键技术难点u 自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。u 环境动态性:环境和任务需求经常变化,实时评估和选择最优模态是一个复杂的问题。u 高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)上进行优化,这增加了问题的复杂性。u 实时多模态处理与决策:强调如何在实时
17、或近实时环境中处理和分析多模态数据,并据此做出决策。u 实时性与准确性的权衡:在有限的时间内进行复杂的多模态数据分析是一个挑战。u 数据同步:在实时环境中,来自不同模态的数据需要准确地同步,以便进行有效的分析和决策。u 人机交互的多模态适应:在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。u 用户多样性:由于用户的需求和习惯都是独特的,实现个性化的多模态适应性是一个复杂的问题。u 实时反馈:获取并处理用户实时反馈以进行适应性调整也是一个技术挑战。可能的突破方向多模数据:关系对齐 数据映射u 不同模态间数据的
18、对齐和融合需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展,并实现更多实际应用的落地。u 多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。u 多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。u 多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。u“多模态安全网格”:将不同模态的数据加密分布在一个高维的“安全网格”中,当一个模态
19、受到攻击时,网格能够利用自我修复能力动态地调整其他模态的安全策略以减少风险。u“动态多模态数据映射”:利用VR、AR以及动态系统等技术,将数据可视化由静态的展示过程调整为动态的映射过程,实现系统能够根据用户的交互和反馈,实时地调整数据的可视化和解释性表示。可能的突破方向文本大模型语言处理与交流知识获取与传递音频大模型视频大模型图像大模型空间视频和空间计算大模型具身智能大模型模态进化:具身智能 实体连接视觉识别与解读视觉文化与表达动态环境适应时间维度的社会行为空间感知与交互空间社会学和群体行为多模态感知与反应社会行为、文化参与和伦理影响多模态:即多种异构模态数据协同推理。文本图像音频视频u 对话
20、式聊天机器人:ChatGPT、Bard、Newbing、文心一言、智谱、讯飞星火u 文生图:Midjourney、Stable Diffusion、文心一格、DALL-E 3、Firefly 2u 图像理解:GPT-4V、Geminiu 文生视频:Stable animation、Gen系列、Pika、Animatediff、runwayu 语音生成与交互:Stable Audio、通义听悟、Otter.ai、ChatGPT多模AIGC:异构数据 协同推理请为下面一句诗配一张图:“落霞与孤鹜齐飞,秋水共长天一色”u ChatGPT的接入让Prompt设计变得更加简单智能。文生图:对话交互 补充
21、提示视觉创作与语言智能的无缝对接提示词补充规律:u 精确与具体:尽可能准确地解释用户的提示语u 补充和解释:若提示语不够具体或含糊会自行补充细节u 风格和类型:根据指定的艺术风格或类型绘图u 准则和限制:避免生成侵权或不恰当内容u 创意和想象:尽力展现用户超现实的想象u 多样性和包容性:避免人物图像出现偏见和刻板印象文生图:逼真渲染 异感生成趋势一:生成无限逼近真实的图像,并可以优化效果。旨在生成更高质量的人物图像,改进文本对齐方式,并提供更好的风格支持。趋势二:扩展人类想象力,打造异感世界AI绘画正在引领一场视觉表现的革命,在用户的指引下延伸至抽象和想象的领域,创造出前所未有的异感世界。在细
22、节再现与艺术表达之间寻求平衡的同时,为人类带来全新的感官体验、情感共鸣和思想启发,为未来的视觉艺术带来无限可能。文生图:细节放大 功能扩增n 前所未有的真实感:图像具有高度真实感,接近真实。n 高分辨率:提供最高2048x2048像素的图像分辨。n 先进的自然语言处理:更好地理解会话语言,提高图像生成效率。n 迭代实验和创造性限制:鼓励用户微调提示,结合AI输出和手工编辑。n 新的放大选项:提供不同程度的细节增强,实现逼真的纹理效果。n 改进的文本和手部生成:在图像中更准确地生成文本和手部。左:Midjourney V6 右:Midjourney V5.2 三维模型 视频生成 摄影素材AI绘画
23、:无限想象 创新超越u 风格迁移与融合:以文艺复兴时期的绘画风格进行渲染u 历史和未来的可视化:古代城市、未来太空站的场景u 无限创意的设计:服装、建筑、交通工具等的设计方案u 想象具化:生成在现实生活中并不存在的外星生物图像AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品所想所绘:名人书房 时代印记 绘画变种:狮形各异 演化之美绘画变种:狮形各异 演化之美图像重绘:镜像世界 画布映射原始图片AI重新绘图AI重绘的特点u 艺术风格(如色彩运用、构图等)高度相似u 场景构建(如自然景观、抽象概念等)保持完整u 主题诠释(如内容、叙事等)力求一致u 细节(如质
24、感、光影效果、布局等)仍有显著差异重绘内在逻辑:图像输入 图像理解模型(如GPT-4V)生成描述词 描述词作为提示词输入文生图模型(如Dalle3)图像输出重绘差异内在原因图像理解局限:生成的提示词难以充分且准确描述图像的所有元素和细节,尤其是复杂图像模型生成逻辑:图像生成模型通常旨在创造新颖的图像,而非复制现有图像,更适合于创造性的图像生成AI绘画产品:各有千秋 拟真拟幻DALLE 3MidjourneyAdobe Firefly理解与文本交互在理解文本提示方面比前一版本有显著提升,能更好地与文本协作9没有明确说明其在文本理解方面的性能,但从不同的图像生成任务中可以看出,它能够理解复杂的提示
25、8没有明确的文本理解比较,但在某些场景下表现出较好的理解能力7图像质量和真实感有时图像质量可能显得更为卡通化或过度渲染,如在生成疲惫学生肖像时,眼袋过于明显,缺乏真实感7擅长超现实和抽象图像,对细节的处理较为出色,但在某些情况下可能显得较为柔和或类似绘画风格9在多个场景中展现出较高的真实感和效果,如在生成人像和室内设计图像时,照明和阴影处理得较好9图像生成特点在超现实和抽象概念的图像生成上表现出创意,如在生成牛仔布制作的房子中,展现了独特叙述能力8在超现实艺术方面表现出了较好的理解和创意,能够很好地结合现实世界图像和奇幻概念8在生成超现实图像时,输出倾向于借鉴儿童书的风格,但在某些情况下可能缺
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 发展 研究 资料 2.0
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。