分销赏收藏举报申诉 / 208

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > AIGC发展研究资料2.0.pdf

AIGC发展研究资料2.0.pdf

上传人：Stan****Shan

文档编号：1242942

上传时间：2024-04-19

格式：PDF

页数：208

大小：17.56MB

《AIGC发展研究资料2.0.pdf》由会员分享，可在线阅读，更多相关《AIGC发展研究资料2.0.pdf（208页珍藏版）》请在咨信网上搜索。

1、2024年1月（Sora发布之前）AIGC发展研究资料(2.0版修订号0.90)清华大学新闻与传播学院元宇宙文化实验室报告80%内容由AI自动生成，聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索，融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索，致力于向读者提供全面了解AIGC动态的指南，共同探寻人工智能和人类未来发展的和谐之道。AIGC系列研究资料聚焦AIGC产业发展现状及趋势，分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇，是产业发展的概观性报告，也初步回应了突出的风险隐忧，旨在洞察行业的基础上，对AIGC发展趋势进行科学预测与展望，为社会各界应对A

2、IGC领域的挑战提供了理论指导与实践建议。AIGC报告2.0AIGC报告1.0注：图片为报告内容示例技术与演进为什么是OpenAI率先突破2017年6月，谷歌大脑团队发表论文Attention is all you need，首次提出了基于自注意力机制的Transformer模型，并首次将其用于自然语言处理。u 2018年6月，推出1.17亿参数的GPT-1模型u 2019年2月，推出15亿参数的GPT-2u 2020年5月，发布了1750亿参数的GPT-3u 2022年3月，InstructGPT发布，回答更加真实u 2022年11月，ChatGPT发布，并率先破圈u 201

3、8年10月，提出3亿参数的BERTu 2019年10月，提出110亿参数的新预训练模型-T5u 2021年1月，推出1.6万亿参数的Switch Transformeru 2021年5月，发布1370亿参数的LaMDAWHYOpenAI&ChatGPT前瞻性AI视野多样应用探索人性化AI愿景正确合作对象长期研究投入强大技术实力u 坚定的科技信仰：坚持不断改进GPTu 开放的合作伙伴：与微软达成合作u 较少的商业顾虑：声誉成本、利益冲突跨领域知识应用集成了广泛的领域知识，可以在多种主题上进行交流和生成信息。上下文感知对话管理能够在一定程度上理解和记忆对话历史，实现上下文顺畅的交流。自然语言处理（

4、NLP）的进步ChatGPT在理解和生成自然语言方面表现出色，展示了先进的自然语言理解和生成能力。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力，能够根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据（如文本、图像、声音）进行综合交互。已实现的创新ChatGPT 创新：持续迭代迈向AGI 高级情感智能虽然具备基本的情感识别能力，但在理解和表达复杂情感方面仍有局限。深层次常识推理在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。无偏见输出由于训练数据的限制，模型输出可能受到数据、技术等偏见的影响。由于人类的偏见，故AI其实也无法实现完全的无偏见长期记忆

5、和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。（2024年2月GPT4.0已大幅度增强）尚未实现的创新基本理解全部的问题含义上下文的逻辑关联能力回答问题的增量创新和组合创新能力AI幻觉&AI想象扩展了异感世界的构建能力多模态能力学科能力的全维、全知、全量GPT4：一骑绝尘进化迅速 ChatGPT 4.0 相较于其他AI工具有若干显著的改进和创新点，使其成为一个更加强大、灵活和用户友好的工具，达到目前其余AI工具难以企及的效果。OpenAI宫斗：利益冲击观念博弈OpenAI的“宫斗”最终以奥特曼的回归落幕，纵观全局既是权利之争也是观念博弈。u OpenAI联合创始人、

6、前CEO山姆奥特曼（Sam Altman）u OpenAI联合创始人、前总裁格雷格布罗克曼(Greg Brockman)u OpenAI联合创始人、首席科学家伊尔亚苏茨克维（Ilya Sutskever）u OpenAI首席技术官米拉穆拉蒂(Mira Murati)u 微软公司首席执行官萨提亚纳德拉（Satya Nadella）u OpenAI临时首席执行官埃米特谢尔（Emmett Shear）事件核心人物观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”：希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程，并把风险视为变革的催化剂。“末日论派”

7、：更加审慎，认为一旦风险不可控，人工智能带来的巨大影响将毁灭人类社会。11月16日：苏茨克维通知奥特曼开会。11月17日：奥特曼、布罗克曼和OpenAI高级研究员相继离职。11月18日：投资者愤怒并要求奥特曼回归，董事会初步同意。11月19日：奥特曼等加入微软，近750名OpenAI员工威胁集体辞职，要求奥特曼回归。11月20日：奥特曼、布罗克曼与OpenAI董事会谈判，微软对奥特曼的回归持开放态度。11月21日：奥特曼与临时首席执行官进行谈判，公司希望在感恩节前解决领导层问题。内部冲突细节曝光。结局：奥特曼达成原则上协议，将重返OpenAI担任CEO，并组建新的董事会。2024焦点：改善体验

8、多模突破五大技术难题：高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本复杂模型的推理过程需要高性能计算资源，涉及昂贵的硬件和高能耗，限制了AI系统与用户的的快速交互。AIAI幻觉率提高模型的准确性和可靠性，减少幻觉现象是拓展其应用的基础，对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成目前仍难以实现在图像生成中准确绘制除英文以外的其他语言（如中文），文生图技术中的文本处理技术有待优化。生成内容一致性保持生成内容的整体风格、语境、样式等特征的一致性（如连环画的角色稳定），仍是AIGC 领域的重要挑战。文本生成视频文生视频技术对场

9、景、动作和情感等的深度理解和创造发展迅速，但仍难以生成完备(如任意时长)且可控(如任意动作)的视频，无法满足用户需求。u 用户:我昨天晚上去了一个音乐会，主要是为了看我最喜欢的乐队，但是开场乐队也非常棒。u AI:听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌曲给你留下了深刻印象？u 用户:他们演奏了深夜，那是他们最新的单曲，非常激动人心。不过，我也很惊讶于开场乐队的表现。u AI:是啊，深夜是一首很有力量的歌曲。关于开场乐队，你最喜欢他们的哪个部分？自注意力机制帮助AI关注到用户最关心的问题。u 用户描述：“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边，背景是雪山。”该描述中有三个关键信

10、息：红色连衣裙的女人、蓝色的湖、雪山背景。自注意力：动态聚焦平衡权重u AI注意到用户提到了关键信息点“最喜欢的乐队”，机器人据此询问了更多的细节。u AI注意到用户对“开场乐队”的正面评价，机器人随后询问了更多关于开场乐队的信息。绘画人机交互自注意力机制体现对话u 自注意力机制为每一个关键信息分配一个“注意力权重”。u 生成图像时，根据权重来确定每个部分的细节和重要性。u 例如，红色连衣裙的女人可能会被赋予较高的注意力权重，因此在图像中她的细节和颜色可能会被更加准确地渲染。u 同样，蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。世界模型：另一可能

11、规划推理自回归模型没有规划、推理的能力，单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。“世界模型”指的是一个能够模拟和理解其周围环境的计算模型，试图通过感知输入（如视觉图像、声音等）来构建对环境的内部表示，并在此基础上做出决策或预测。【学习方法】：自监督学习，通过创建外部世界的内部模型来学习【模型目标】：实现更高级的图像分析和理解，理解外部世界的内部模型【核心技术】：图像联合嵌入非生成式预测架构，学习表示的层次结构【应用领域】：图像分析和理解类任务Joint Embedding Predictive Architecture（JEPA）u 提

12、升自主学习能力：不再依赖于大量的手工标注数据，而是通过观察世界如何运作来自主学习，这会极大地提高机器学习系统的效率和适应性。u 提升认知能力：随着机器对复杂环境和抽象概念理解的加深，世界模型可以推动AI在需要高级认知能力的领域的应用，如法律分析、财务规划等。u 提升决策和预测能力：世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果，对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。世界模型可能带来？图灵奖得主 Yann LeCun属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性单一模态的数据质量可能会影响

13、整体性能可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种

14、信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理单模多模：快速进步模拟世界多模融合：高维互联信息贯通多模态融合是指将来自多个不同类型（例如文本、图像、声音等）的数据合并，利用跨模态

15、技术产生一个综合的数据表示或输出，代表一种全新、流畅和高效的人类交互体验，其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中，AI可以根据用户的需求，实现各个模态数据间的相互转换，例如：夏日的海滩日落图海底世界静态转为动态地标识别足球解说文本生成图像文本生成视频图像生成视频图像理解视频理解多模关键：意图感知自我演化u 意图感知的模态选择：搭载“意图解析引擎”，能从多模态数据中抽取和理解用户或系统深层次的意图，并据此进行选择。u 时间-空间-模态联合优化：开发全新的“多维度优化框架”，能够在多个维度上动态调整和优化资源，如减少时间延迟，选择最优数据来源地和最有用模态维度。

16、u 自我演化的交互模式：引入一种全新的“演化算法”，能够模拟人类学习和适应的过程，使HCI系统在识别用户行为模式的同时，还能发现隐藏的需求或习惯，并根据这些信息进行自我演化。关键技术难点u 自适应模态选择与优化：在多模态系统中，不同模态（如图像、文本、声音等）的重要性可能因应用场景而异。自适应模态选择与优化，关注如何动态地评估和选择最有用的模态，以提高系统的整体性能。u 环境动态性：环境和任务需求经常变化，实时评估和选择最优模态是一个复杂的问题。u 高维度和复杂性：模态选择必须在多个维度（如准确性、计算成本、响应时间等）上进行优化，这增加了问题的复杂性。u 实时多模态处理与决策：强调如何在实时

17、或近实时环境中处理和分析多模态数据，并据此做出决策。u 实时性与准确性的权衡：在有限的时间内进行复杂的多模态数据分析是一个挑战。u 数据同步：在实时环境中，来自不同模态的数据需要准确地同步，以便进行有效的分析和决策。u 人机交互的多模态适应：在人机交互（HCI）环境中，多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。u 用户多样性：由于用户的需求和习惯都是独特的，实现个性化的多模态适应性是一个复杂的问题。u 实时反馈：获取并处理用户实时反馈以进行适应性调整也是一个技术挑战。可能的突破方向多模数据：关系对齐数据映射u 不同模态间数据的

18、对齐和融合需解决数据在时间、空间和语义上的对应关系，以及权重分配和互补性问题，以进行有效表示。多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展，并实现更多实际应用的落地。u 多模态数据的时序处理难以捕捉不同模态数据之间的时序依赖性和动态变化。u 多模态数据的安全性与隐私保护多模态数据通常包含大量的敏感信息，如个人身份、地理位置等。u 多模态数据的可视化和解释性多模态数据通常是高维度和复杂结构的，其可视化和解释性需要大量的计算资源。u“多模态安全网格”：将不同模态的数据加密分布在一个高维的“安全网格”中，当一个模态

19、受到攻击时，网格能够利用自我修复能力动态地调整其他模态的安全策略以减少风险。u“动态多模态数据映射”：利用VR、AR以及动态系统等技术，将数据可视化由静态的展示过程调整为动态的映射过程，实现系统能够根据用户的交互和反馈，实时地调整数据的可视化和解释性表示。可能的突破方向文本大模型语言处理与交流知识获取与传递音频大模型视频大模型图像大模型空间视频和空间计算大模型具身智能大模型模态进化：具身智能实体连接视觉识别与解读视觉文化与表达动态环境适应时间维度的社会行为空间感知与交互空间社会学和群体行为多模态感知与反应社会行为、文化参与和伦理影响多模态：即多种异构模态数据协同推理。文本图像音频视频u 对话

20、式聊天机器人：ChatGPT、Bard、Newbing、文心一言、智谱、讯飞星火u 文生图：Midjourney、Stable Diffusion、文心一格、DALL-E 3、Firefly 2u 图像理解：GPT-4V、Geminiu 文生视频：Stable animation、Gen系列、Pika、Animatediff、runwayu 语音生成与交互：Stable Audio、通义听悟、Otter.ai、ChatGPT多模AIGC：异构数据协同推理请为下面一句诗配一张图：“落霞与孤鹜齐飞，秋水共长天一色”u ChatGPT的接入让Prompt设计变得更加简单智能。文生图：对话交互补充

21、提示视觉创作与语言智能的无缝对接提示词补充规律：u 精确与具体：尽可能准确地解释用户的提示语u 补充和解释：若提示语不够具体或含糊会自行补充细节u 风格和类型：根据指定的艺术风格或类型绘图u 准则和限制：避免生成侵权或不恰当内容u 创意和想象：尽力展现用户超现实的想象u 多样性和包容性：避免人物图像出现偏见和刻板印象文生图：逼真渲染异感生成趋势一：生成无限逼近真实的图像，并可以优化效果。旨在生成更高质量的人物图像，改进文本对齐方式，并提供更好的风格支持。趋势二：扩展人类想象力，打造异感世界AI绘画正在引领一场视觉表现的革命，在用户的指引下延伸至抽象和想象的领域，创造出前所未有的异感世界。在细

22、节再现与艺术表达之间寻求平衡的同时，为人类带来全新的感官体验、情感共鸣和思想启发，为未来的视觉艺术带来无限可能。文生图：细节放大功能扩增n 前所未有的真实感：图像具有高度真实感，接近真实。n 高分辨率：提供最高2048x2048像素的图像分辨。n 先进的自然语言处理：更好地理解会话语言，提高图像生成效率。n 迭代实验和创造性限制：鼓励用户微调提示，结合AI输出和手工编辑。n 新的放大选项：提供不同程度的细节增强，实现逼真的纹理效果。n 改进的文本和手部生成：在图像中更准确地生成文本和手部。左：Midjourney V6 右：Midjourney V5.2 三维模型视频生成摄影素材AI绘画

23、：无限想象创新超越u 风格迁移与融合：以文艺复兴时期的绘画风格进行渲染u 历史和未来的可视化：古代城市、未来太空站的场景u 无限创意的设计：服装、建筑、交通工具等的设计方案u 想象具化：生成在现实生活中并不存在的外星生物图像AI绘画具备前所未有的独特性，其创造力和个性化将为人类带来更多样化的创作体验和艺术作品所想所绘：名人书房时代印记绘画变种：狮形各异演化之美绘画变种：狮形各异演化之美图像重绘：镜像世界画布映射原始图片AI重新绘图AI重绘的特点u 艺术风格（如色彩运用、构图等）高度相似u 场景构建（如自然景观、抽象概念等）保持完整u 主题诠释（如内容、叙事等）力求一致u 细节（如质

24、感、光影效果、布局等）仍有显著差异重绘内在逻辑：图像输入图像理解模型（如GPT-4V）生成描述词描述词作为提示词输入文生图模型（如Dalle3）图像输出重绘差异内在原因图像理解局限：生成的提示词难以充分且准确描述图像的所有元素和细节，尤其是复杂图像模型生成逻辑：图像生成模型通常旨在创造新颖的图像，而非复制现有图像，更适合于创造性的图像生成AI绘画产品：各有千秋拟真拟幻DALLE 3MidjourneyAdobe Firefly理解与文本交互在理解文本提示方面比前一版本有显著提升，能更好地与文本协作9没有明确说明其在文本理解方面的性能，但从不同的图像生成任务中可以看出，它能够理解复杂的提示

25、8没有明确的文本理解比较，但在某些场景下表现出较好的理解能力7图像质量和真实感有时图像质量可能显得更为卡通化或过度渲染，如在生成疲惫学生肖像时，眼袋过于明显，缺乏真实感7擅长超现实和抽象图像，对细节的处理较为出色，但在某些情况下可能显得较为柔和或类似绘画风格9在多个场景中展现出较高的真实感和效果，如在生成人像和室内设计图像时，照明和阴影处理得较好9图像生成特点在超现实和抽象概念的图像生成上表现出创意，如在生成牛仔布制作的房子中，展现了独特叙述能力8在超现实艺术方面表现出了较好的理解和创意，能够很好地结合现实世界图像和奇幻概念8在生成超现实图像时，输出倾向于借鉴儿童书的风格，但在某些情况下可能缺

26、乏所需的创意或超现实感7使用和学习曲线学习曲线相对平缓，适合广泛的用户快速上手并探索多样的视觉创作。9学习曲线较陡峭，主要是在 Discord 上使用，可能会对某些用户造成限制7对于熟悉Adobe生态系统的用户，学习曲线较为平缓。但其他用户可能需要一些时间来熟悉工具的各种功能和界面布局。8AI绘画原则：基础框架创新偏离创新性偏离绘图错误举例如逻辑错误情感不协调物理尺度突变尊重版权和知识产权保护个人隐私和形象权避免敏感和不适当内容促进多元化和包容性不违反法律和道德准则避免误导和假信息AI绘画原则创新性偏离：u 创建图像描述时，为了展示技术的多样性和包容性，ChatGPT在描述中加入了不同种族和

27、文化的元素。u 此举旨在展示技术的创新性，但没有完全遵循历史事实，可能会导致历史不准确。u 该现象可称为“创新性偏离”，描述了在追求技术或艺术创新时，有时可能会偏离事实或现实的情况。u 所以AI绘图在某些特别的领域（如教育和学术）则需要找到创新和真实之间的平衡点。多模态内容转换与推理功能：从各种来源提取和分析信息，例如从照片中的文字、表格、图表或文档。示例：用户提供一个图表，模型可以解释“这个图表显示了过去五年的销售额增长。”跨语言多模态理解功能：不仅能处理多种类型的信息，还支持多种语言的处理。示例：用户提供一个法文的图像描述，模型可以翻译并描述图像内容。视觉信息编码能力功能：根据图像内容生成

28、代码或其他形式的输出。示例：用户提供一个网页设计的截图，模型可以为其生成HTML和CSS代码。多元场景图像描述功能：对各种领域的图像进行描述，无论是自然风景、都市景观还是特定的行业领域，模型都可以为之生成相关的描述。示例：用户提供一张自然风景的照片，模型可以描述出“这是一个湖边的景色，远处有群山，湖水平静如镜。”信息提取与结构化输出功能：定位图像中的特定物体，进行计数和为每个物体生成详细的描述。示例：用户提供一张公园照片，模型可能回答“照片中有一些鸭子在湖中游泳，还有两个小孩在草地上玩耍。”多模态知识与常识解读功能：具有跨多种信息类型知识，能应用常识推理。示例：用户提供一个人在烹饪的照片，模型

29、可能会指出“这个人在切洋葱，洋葱可能会使人流泪。”GPT-4V：信息提取内容转换文生视频：多模态应用的下一站基于GAN和VAE例如：Text2Filter基于Transformer模型例如：VideoGPT基于扩散模型例如：Make-A-Video文生视频技术主要发展过程多模态理解与融合动态视觉合成时间序列编排音频匹配与生成需要“语义融合引擎”，以理解文本的深层含义并将其与视觉和听觉元素相关联。利用“视觉生成算法”根据文本内容创造连贯的视觉画面。采用“叙事逻辑映射器”安排和同步视频中的事件以匹配文本叙事。需要“音频同步技术”来生成或选择配合视频情景的音轨。情感连贯性保证用户交互式定制内容适

30、应性和可扩展性生成效率与优化需要“情感连贯算法”确保视频表达与文本情感相符合。实施“交互式视频编辑器”允许用户对生成的视频进行个性化调整。通过“自适应内容框架”来保证视频内容在不同平台和设备上的适配性。需要“生成优化器”以提高视频生成的速度和减少所需的计算资源。技术难点当下流行平台：Runway视频“GPT时刻”：视听演绎多模创构模型和工程创新在视频生成模型的开发、工程实践、数据管理和规模化扩展方面实现显著技术进步。加速的技术演进视频生成模型和技术正加速更新，内容控制和创新自由度不断提高。高标准数据获取需要高分辨率、良好审美和艺术构图的视频数据，同时强调动作的意义和内容的多样性。知识产权

31、的合规处理在法律严格的地区，特别是处理版权问题，需要与法律专家紧密合作。高算力需求与资源动员视频模型的训练和优化需要显著更高的计算资源，超越目前开源社区的能力范围。技术架构的优化解决视频模型性能和算法问题，可能需要重构模型架构，要求大量的计算资源和技术投入。视频生成的“GPT时刻”未来一年内可能实现Pika Labs创始人之一，Demi Guo 视频时长：模型可以借助延展功能，将视频时长延长。但这种延长需要关注动作的意义和复杂性。如延长20秒的走路视频，模型并不能实现包含翻滚、奔跑在内的系列动作，仅能够单纯通过无意义动作增加视频时长。物体动态化：对于图片或视频中的任意对象的任意动态化，这一点非

32、常重要，一旦实现将能够真正生成任意内容的视频关键突破点未来方向语音输入信息处理语音输出ChatGPT：实时、顺畅自然的语音对话语言大模型和文本大模型的区别语音交互：人机对话多态演进u 信息输入差异：语音交流更加自然和非正式，情感和语调信息可以提供额外上下文；u 信息处理差异：语音的标注和处理更加复杂，需要时间对齐的转录文本，响应速度较慢；u 技术挑战差异：语音大模型需要处理各种方言、口音、说话速度和噪音等问题。问答、角色扮演、多语言对练 InputOutputText-to-speechmodelI Love youu会议转录：Otter.ai、Trintu语言转译：Speechmatics

33、u语音识别：Wav2Letter、Kaldiu语音克隆：Resemble.aiAI孙燕姿爆火语言大模型对人格化的影响u 语感共鸣：模仿人类语音特征,实现自然人机对话；u 情感共振：与用户建立情感共振，提供共情回应；u 全域交互拓展：应用在客服、教育、健康护理等领域，提供人格化交互。语音版GPT-4：智慧如炬声情并茂高级理解力逼真的交互策略性沟通通过生动的话语表述和自然的语言停顿，GPT-4展示了它能够模拟人类交流的高级特征。能够理解和参与到文化和社会话题中，显示出对人类社会习俗的深刻洞察。在谈论敏感话题时显示出高度的同理心和情商，与人类在情感上相互理解和响应。在对话中巧妙地维护其角色设定的真

34、实性，展示了能够在复杂社交场景中进行策略性沟通的能力。语音版GPT-4不仅仅是一个响应机器，而是一个能够进行高度复杂、适应性强、情感丰富和社交敏感的对话的高级AI代表。情感同步化AIGC+搜索引擎：互融互通实时动态Bing：借助GPT-4提升用户搜索和交互体验，是搜索引擎向AI技术的延伸，强化了搜索引擎的智能化。GPT-4：集成互联网数据，是AI模型向搜索服务的拓展，丰富了大模型的应用场景和数据获取能力。u 可获取现实世界的实时信息u 支持更多依赖外部信息的任务影响u 降低幻觉和回答错误率u 使知识图谱更加开放和动态u 需要稳定的网络连接u 信息安全和隐私保护难控制问题u 外部信息可能带来噪

35、音误导u 计算和存储成本增加u 信息协同共鸣：大型语言模型和搜索引擎共同构建一个协同网，优化信息检索和知识探索的过程。u 智能探索生态：可创建互动式知识探索系统，鼓励用户深入挖掘信息，促进知识发现和创新。u 全面知识融合：既能深入理解问题，又能提供广泛和最新的信息资源。大模型与搜索引擎的互补性New Bing内置GPT-4GPT-4内置浏览模式本质区别大模型如何替代传统搜索引擎关键性能：u 准确理解复杂查询意图并生成丰富、准确、可信、实时的答案u 根据用户的历史交互和偏好提供个性化搜索结果和建议u 保持或提高搜索效率的同时提供增值服务u 用户体验易用、界面设计简洁，使用户能够轻松获取和理解信

36、息u 理解整合不同模态的数据，提供全面多模态搜索和深入的搜索结果u 确保用户数据的安全和隐私是替代传统搜索引擎的关键ALL TOOLS：能力规整综合理解图片识别能力用户：北京今天的天气如何请将其绘制成可视化图片高级数据分析(原代码解释器)能力Dalle 3的绘画能力四大功能01020304u 从“单一对话单一模式”，到“根据需要自动调用不同模式的功能”，丰富了 ChatGPT的使用场景，整体响应速度也有所提升。ChatGPT：今天（11月15日）北京的天气预报显示，白天天空云量将逐渐增多，傍晚前后会有零星小雨，西部和北部地区可能出现雨夹雪或小雪。北京今天没有暖阳，气温有所下降，预计最高气温

37、在9左右，体感较阴冷。后半夜，北风伴随冷空气南下，影响北京地区，阵风可能达到六七级。Bing联网能力实际运用请根据提供的图像进行重绘（以图生图）长时上下文理解：减少交互增强智商关键技术上下文编码器u 在理解局部上下文的基础上，引入用户历史数据进行全局上下文建模。记忆模块u 在模型中加入能够存储用户的关键信息和偏好长期的记忆模块，以便在未来对话中使用。时间感知u 通过时间标签和事件依赖关系，增加模型对于时间序列信息的敏感性。GPT-4-Turbo上下文长度从 32k 拓展到 128k，但仍无法避免“Lost in the Middle”AI缺乏长期记忆和全局理解能力，会限制其在复杂任务和长篇对

38、话中的表现，导致：u 非必要交互次数的增加；u 整体对话过程中的逻辑性不足。u 相关信息的位置和提供的上下文的长度可以极大的影响大模型的性能u 这一现象的出现与训练数据本身的偏差有关，即人类的大量语料一般都将重要信息放置于开头或结尾，间接导致了大模型无法很好地关注处于文档中间的内容。u 除了模型内部的问题以外，超长上下文背后可能的大规模数据传输、API 调用、网络协议等等“基础设施”都有可能成为新的问题。APP已衰：GPTs已来智能定制截止到12月13日的 GPTS总数：53283个 OpenAI推出了定制GPT，允许用户根据个人需求和偏好制作GPTs以执行特定功能，标志着AI定制化应用的新

39、时代。用户可以在没有编码知识的情况下创建适用于教学、游戏或创意设计等多样化任务的GPT模型。其本质逻辑是把AI的大脑与人类的智慧相结合，让它做某一类事情的时候变得更聪明。数学类新闻类设计类社交类学术类代码类写作类健康类GPTs发展：高速快增探索前行随机抓取2000个GPTs进行分析类别关键词文件处理docs,documentation,manual,guide网页流量browse,web,internet,pdf,data教育math,teach,learn,education,study,mentor,help艺术paint,draw,create,art,design,visionary

40、生产力summary,organize,manage,productivity,efficient娱乐game,play,fun,entertain,movie,music交流chat,talk,communicate,message,discussion技术api,code,program,develop,software商业finance,economy,trade,invest,market,sales,健康health,wellness,fitness,medicine,mental结论英语78%u GPTs数量最多的前五种类别：技术(代码)、艺术、文件处理、教育、交流u 英语是最主要

41、的GPTs创作语言（78%）：其次是日语(8%)、汉语(4%)、法语(2%)、韩语(1%)u 超过85%的GPTs的工具中用到了浏览器功能：其次是Dalle、Python、Pluginsu 单一个体最大创建数：6个与定制GPT的创意相结合，即将推出的GPT Store允许用户发布基于GPT的自定义模型，这个市场不仅将培养一个AI创作者社区，还将为开发者提供创新GPT货币化的机会。商店将展示多种类别的GPT，突出那些在实用性和创造性方面表现出色的模型。GPT Store：社交货币未来变现机遇深度个性化的GPTs将极大提高自身的工作能力和工作效率；巨大的流量红利助力GPTs开发者获取收益；G

42、PTs的第三方收集、检索、评价平台。GPTs开发服务，为想开发但不懂开发语言的人提供指导。挑战确保平台应用质量，避免低劣或欺诈性的内容。处理GPT应用可能带来的伦理和法律问题，特别是在内容创作和个人隐私方面。维护不同GPT应用间的技术标准和兼容性，确保用户体验的一致性和高质量。保护用户敏感信息的数据安全。GPT-5：演进预测模型升级u 多模态处理能力进一步增强多模态处理能力，如文本、图像、声音和视频的联合理解，提供更为丰富的交互体验。u 实时交互与反馈可能会增强其实时交互能力，能够更快速地响应用户的需求并学习用户的反馈。为用户提供更加个性化和适应性强的服务，持续优化模型输出。u 上下文理解与

43、长期记忆可能会加强对上下文的理解，拥有更长时间的记忆保持能力。使得与模型的交互更加连贯，提供更深度的上下文回应。u 低资源语言的支持可能会扩大其对低资源语言的支持，涵盖更多的语言和方言。实现真正的多语言普及，服务全球更广泛的用户群体。结合计算机科学的发展趋势和当前技术的实用化水平，GPT-5有望在模型结构、部署、计算效率、透明度、自适应学习和安全性等方面实现重大进展，为人工智能的广泛应用奠定更坚实的基础。u 能效与计算优化可能会进一步优化其计算效率，降低能源消耗。使模型在低功耗设备上运行成为可能，加速边缘计算的发展。u 模型微调与个性化GPT-5可能会增强模型的微调能力，允许用户根据特定需求进

44、行个性化调整。提供更加定制化的AI服务，满足各种特定场景的需求。u 安全性与鲁棒性可能会加强模型的安全性设计，提高模型的抗攻击能力和数据隐私保护。为用户提供更安全的AI服务，降低数据泄露和模型被攻击的风险。AI行业格局：巨头涌入投资结盟MetaAI在OpenAI拿到来自微软等约110亿美金的投资、估值近290亿美金后，其竞争对手Anthropic布与Amazon结盟（Amazon最高将为其投资40亿美金）。融资方面Anthropic成为仅次于OpenAI的AI创业公司。此后，除苹果外，AI行业基本上形成了如下格局：微软、OpenAI+Google、DeepMind+Meta、MetaAI+A

45、mazon、Anthropic+Tesla、xAI。AI AI 行业现有格局生成式AI全球投融资细分市场占比预训练应用 8%基础设施 8%模型市场63%应用21%部分数据来源：Dealroom.coAndreessen HorowitzSequoia CapitalLightspeed VentureAmplify PartnersKhosla Ventures全球顶级投资者影响与信任u 岗位替代性u 就业结构变化u 新的岗位诞生就业影响u 算法歧视u 侵犯隐私u 决策透明度伦理影响u 新技能要求u 如何指导教育u 软技能需求技能影响u AIGC失控u 网络安全威胁u 数据泄露风险安全影响u

46、法律适用性u 违规内容处理u 如何分配责任法律影响u 过度依赖AIGCu 面临道德退化u AI价值观道德危机u 人机依赖u 社会互动u 认知重塑人机关系u 技术竞争协作u 军事应用u 数据主权国际关系社会影响：智能泛化数字伦理AIGC技术人类劳动力替代性影响：可替性传统职业如重复性劳动岗位过渡性影响：转型期可能出现就业结构失衡渗透性影响：渗透绝大多数职业但影响程度不同变革性影响：部分工作内容和方式会发生重大变革技能要求影响：需要大规模提升哪些技能以适应变化培训投入影响：职业培训方式将发生哪些变化创造性影响：AIGC技术将带来高潜力新兴职业增强性影响：AIGC技术将增强多数岗位的工作效率和效

47、果p 移位性影响就业类型和分布可能发生区域或全球范围的移位p 收入分配影响资本与劳动收入比例可能受到影响互补型发展职业就业影响：危中寻利职场新机何静,沈阳.基于职业替代概率模型的AIGC职业发展探究J/OL.图书情报知识,2023(9):1-8.环境影响：能源消耗排放比较数据来源：The Carbon Emissions of Writing and Illustrating Are Lower for AI than for Humans鲁棒性u 评估训练和运行模型所需的硬件资源，如GPU、TPU、CPU和内存。u 分析存储训练数据、模型参数等所需的存储资源。u 评估数据传输、模型部署

48、和其他网络活动所需的带宽。u 考虑硬件的生产、使用和废弃阶段，评估其整体生命周期的资源效率和环境影响。计算资源消耗评估能源消耗评估u 评估训练模型所需的总能源，充分考虑训练的持续时间、硬件效率和其他因素。u 考虑到冷却、电源管理和其他相关活动，评估数据中心的总体能源需求。u 基于能源消耗和能源来源，评估AIGC系统的碳足迹和其他温室气体排放。研究结论：“无论是文本还是图像生成，AI的碳排放量都远小于人类活动“但这些数据引发了广泛的讨论和质疑，包括模型训练中的碳排放是否已全面考虑，以及计算方法的准确性等文本生成方面u ChatGPT：每次查询大约排放2.2克二氧化碳当量。u BLOOM：每次查询

49、大约排放1.6克二氧化碳当量。u 人类（以美国人为例）写250字（约1页）排放约1400克CO2当量。图像生成方面u DALL-E2：每次查询约排放2.2克。u Midjourney：每生成一张图排放约1.9克。u 注：模型的训练排放被认为是一次性成本，例如，GPT-3的训练排放约为552吨二氧化碳当量。u 技术的飞速前进是否催生了一代人的“失落感”？年龄在认知鸿沟中扮演着重要角色，技术的演变速度超越了许多中老年人的学习和适应能力，同时也促使我们重新审视教育体系的灵活性，以确保人类的认知能力与科技发展保持同步。u 科技应当是一种人类共享资源还是一种特权？收入作为认知鸿沟的一大影响因素，突显了科

50、技的应用是否受限于个体的经济实力。如何构建一个更加公正与普惠的技术社会值得我们反思。u 技术背后的权力动态发达国家拥有丰富的创新资源，国家层面的认知鸿沟揭示了科技发展背后隐藏的全球公平问题。一级指标二级指标知识鸿沟人们对AI基础知识、概念和功能的掌握度公众对AI的常见误解和错误观念AI技术如何影响人们的信息获取与处理态度鸿沟人们对AI的不同态度差异（如信任、担忧、好奇、怀疑）AI对社会分歧或偏见的加剧程度AI技术如何影响人们的价值观与道德认知行为鸿沟不同人群在日常行为中利用AI的差异（如购物、社交、工作）AI技术对人们决策方式的改变AI技术是否导致某些人群在社交互动与人际关系中的隔离社会文

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AIGC 发展研究资料 2.0

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：AIGC发展研究资料2.0.pdf
链接地址：https://www.zixin.com.cn/doc/1242942.html

Stan****Shan

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手