博弈交互学习——一种复杂系统决策问题的求解范式.pdf
《博弈交互学习——一种复杂系统决策问题的求解范式.pdf》由会员分享,可在线阅读,更多相关《博弈交互学习——一种复杂系统决策问题的求解范式.pdf(44页珍藏版)》请在咨信网上搜索。
可J 交 局 沽 寺 二 5 NA/军 亮 AAA 丰 2024 年 4 月 14 日 上。全)全)放学 人 学 计算 机 科学 与 技术 系 01 ”研究 背景 介绍 目录 02 问题 求解 范式 _04 未 来 研究 展望 ,深度 学 习 取得 成 功 的 最 主要 原因 我 们 仍 处 在 深度 学 习 引 发 的 人 工 智能 研究 热潮 之 中 有 1 WII II ET 本 让 本 Le 本 1 LT 与 14.反动 1 四|刘 过 省 0 TITTT11 WII 人 wwWTW Texf 和 Language 忆 用 Image 生 Video i Ri 汪 人 Speech 4 ws,|es Da fckr 国生 es 学 习习 痪 汪 了 2 Tube am 4 Cene Expression Geolcgic dl Doafa Product 4 沁 Recormmendaotio|天 Relofionol Daya/amazon 大 一 一 有 Social Nefwork Eee 算 力 数据 Climaye Chan 1-过 去 十 余年 来 的 主要 进展:感知 智能“感知 类 代表 性 技术:语音 识别、图 像 分 类、机 器 翻译 圭。-AAA AAA。基于 深度 学 习 的 语音 识 别 模 型 已 大 规模 部 者,占据 统治 性 地 位。人 谷歌、微软、百度、讯 飞 等 公司 相继 宣布 语音 识别 精度 超过 98%*。机 器 翻译 精度*。YouTube 视 频 己 语 利 E|动 般 详。向 软“亚 申 填。2022 千 11 月:机 对 1【D 5 性#尼 大 争 一 科学 考试,率 座 不断 提升,早 已 经 超过 人 类 识别 精度。FRVT 无 约束 人 脸 识 别 精 度 达 到 95.5%,远 超人 类 贞 别 水 平。ImageNet 图 像 分 类 止 确 不 断 提 升,接 近 人 类 水 平,经 实现 语音 实时 辣 步 识 曾 和 多 多 德”自 然 语 言 处 理 Al 程序 通过 上 确认 超 90%。OpenAl 友 布 了 ChatGPT 模 型,人 幅 提 升,取 得 突破 性 进展!过 去 十 余年 来 的 主要 进展:认 知 智能:决策 类 代表 性 技术:游戏 博 蛮、推 荐 系统、交 易 预测 等 2015:机 器 打 雅 塔 力 洲 戏 超过 人 类 选手 水 平*。2016:围棋 Al 程序 AlphaGo 4:1 击 败 李 世 石*。2017:AlphaGo zero 无 师 晶 通 击 败 所 有 人 类 选 于*。2017:念 扑 AI 生计 DeepStack 利 Libratus 击 败 专 业 选 手*。2018:星际 Al 程 Were 10:1 战 眶 人 关 去 业 选 手。2019:微软 Suphx 程 序 在 专业 麻将 平台 荣 升 10 段。2019:刀 搭 多 人 对 抗 Al 程序 DpenAl Five 避 性 志 界 二 军团 队。2021:腾讯 推出 王者 荣 深 Al 程序 觉悟 战胜 人 类 顶尖 玩家 基于 深度 强化 学 习 的 推荐 算法 被 大 规模 应 机 器 学 习 和 深度 学 习 预 测算 法 还 被 大 冲 用 到 广告 推荐、视 频 推荐、影 片 推荐 等 应 用 于 金融 预测 和 其 化 交易 系统 之 中 过 去 十 余年 来 的 主要 进展 小 结*。ChatGPT 的 出 现,使 得 通用 人 工 智 能 端倪 初 现 H ES 深度 神经 网 络 ImaseNet 数 据 AlphaGo/AlphaGo ChatGPT 论文 标志 深度 学 HMM-DNN 应 集 图 像 分 类 正 Zero/AlphaZero 围 人 机 对 话 的 习 时 代 到 来 用 到 语音 识别 确 率 效果 惊人 棋 游 戏 对 弈 Al 大 语言 模型 2005 2005 202 205 2015 20251 2025 语音 识别|图 像 分 类 游戏 对 战 大 语言 模型 人 类 是 否 会 被 人 工 知 能 彻 质 运 越 和 完全 取代?图 面向 复杂 系统 的 决 案 问题 还 存在 很 多 问题。从 感知 智能、认 知 智 能 到 复杂 系统 决策 智能 本|人 深度 学 习+大 数据 面 问 复杂 人 机 系统 的 证 作 门 台 疙】克 站 全 D 台 已 As AD 台 尼 感知 智能 认 知 智能 决策 智能 面向 复杂 系统 的 决策 问题 还 存在 很 多 问题 决策 环节 和 夯 。智 能 技术 加 速 ODODA 环:目前 AI 技术 在 不 后 匡 单 兵 战斗 对 抗 决策 对 抗 环 的 应 用 渗透 比例 临 最 大 技术 瓶颈 无 人 集群 对 抗 决策 陆海空 联合 指挥 决策 大 国 博 弈 推演 决策 复杂 系统 的 研究 发 展 历 史 研究 历 史 源 远 开关 于 贝”控制 论 代 表 人 工 知 能 的”一般 系统 论 的 以 耗 数 早 构 理 以 突变 理论、塔 说 菲 关 成 果 控 制 起 源 工 作-首”总结 性 工作 论、协 同学 和 混 光 理论 和 元 于 复杂 性 论 问 世 个 使 用 反馈”一般 系统 论:超 饥 环 理 沦 为 胞 自动 机 理论 的 研究 科 制 的 补 呈 基础 发展 和 代表 的 具体 经 为 代表 的 形式 网 结 模型 起 巡 阶 段:复杂 性 科学 三 种 代表 性 研究 工 具 和 全 和 汪 1 苞 流 长:很 早 被 提出,一 直 未 解决 得 体 论 与 还 原 纶 半 参 策 应 用 面 世 验 科隆 件 乎 自 租 级 理论 的 共 起 为 复杂 性 科学 的 整体 论 下 成 立 了 专门 从 钱学森 提出 了 成 立 了 新 英 格 开始 有 学 者 将 事 复杂 性 科学 0C6S 概 念,并 兰 复杂 系 蚊 研 复杂 系统 的 相 研究 的 机 构-称 之 为“系统 究 所,推 动 复 关 理论 应 用 于 关 国 的 圣 迟 菲 科学 涵 现 出 来 杂 性 科学 向 更 军事 系统 研究 二 的 一 大 领域”深入 领域 发 展 和 战争 分 析 加 合 阶段:系统 论,开 始 避 入 人 工 智 能 手段 研究 背景 介绍 类 复杂 系统 呈现 的 主要 特点 3 系统 之 间 存 在 交互,在 空间 和 UL 时 间 维 度 会 进化 出 新 的 性 质 系统 可 以 从 多 个 子 系统 模块 很 多 不 同 视角 介入 呈现 明显 的 层级 性 包含 诸多 要 素 紧 看 合 全 系统 各 层次 包含 要 素 关 系 错综复杂 的 要 素数 目 巨大 系统 模块 之 间 没有 了 明显 的 边 弄 不 清楚 钱学森。一 个 科学 新 领域 开放 的 复杂 巨 系 统 再 限,模 块 之 间 可 以 转换 及 其 方法 论。上 海 理工 大 学 学 报,2011 年。智能 技术 发 展 为 复杂 系统 决策 研究 带 来 新 思路 星际 唐 胃 疾 引 桂 蛋白 质 结 构 预测 Alphastar Wan 国 棋 AiphaGo”和 phafole 雅 塔 力 DQN 和 Googile Al 捉 这 藏 了 可,Hide-and-9Seek Ce 机 械 手 解 度 方 Dactyl OpenAl Five 策略 进化 Evolution Strategies 5-0 下 一 代 人 工 智能 技术 简 全 全 WL AI Next 进攻 性 蜂 群 技术 RAINEXTCAMPAIGN。会 棒 机 吧 守 3 OFFSET。终 笑 字 习 机 NS 全 L2M 和 让 二 证=深度 学 习+强 化 学 习:被 认为 是 通 往 通 用 人 工 智 能 的 一 条 本 5 加 日 录 本 光 基 和 IE 强 对 抗 环境 下 复杂 系统 决策 问题 面临 的 主要 挑战 1 鼎 数 据 少 知识 难 学 习 IE 3 六 TS 国生 一 一,了 有 6 交大 信 息 党 训 时 4 自 博弈 对 抗 数据 缺少 多 样 性“二 川 二 7 过、和 争 群 体 博 计 数据 耗费 大 量 算 力 全 S 之 间 在 国有 和 沁 区 洁 沁 很 多 网 江 难 以 建 模 ER 人 复杂 度 随 群 体 数 呈 指数 上 升 人 异 构 群体 难以 统一 表示 建 模 4 异 构 群 体 的 协作 关系 南 学 习 SP 焉 所 东、as 区 寺 则|4 离线 模型 难以 在 线 适应 对 手 4 策略 集成 不 足 存在 潜在 漏洞 4 不 同 想 定 模型 需要 重新 学 习 4 不 同 应 用 模型 需要 重新 设计 PP 4 复杂 博 蛮 对 抗 目标 都 难 确定 4 个 体 群体 总 体 进化 目标 冲突 4 信息 不 完备 造成 对 手 不 确定 4 智能 体 相互 克制 性 能 难 评估 回 申 求解 项 和 极 大 极,区 绽 蜀 亏 争 史 重演 度 学 习 值 尿 理 三 力 卷 积 神经 纳什 均衡 博 呈 网 络 贝 叶 斯 纳 轩 机 和 侍 环 神经 什 均衡 网 络 静态 博弈“动态 博 奔 强化 学 习 元 学 习 演化 计算”生成 网 络 扯 传 算法“知识 图 谐 知识 表示、传 递、积 累 演 化 结果、过 程、模 型 可 解释 随机 博弈”演化 博弈 重复 博弈 单 次 博 齐 交互 方式、范式、人 机 关 系 环境、任 务、策 略 可 解释 削 降 半 树 瑚 问题 求解 项 博弈 交互 学 习 研究 范式 in 叶酸 2 人 洒 二 避)汉 刁 当 从 济 污 济 /联盟 学 习 驱 动 自 主 进化 仁 群 三 洪 烛 问 囊 状态 空间 复杂 度:从 博弈 初 始 状态 开 始,可 以 达到 的 所 有 符合 规则 的 状态 的 总 数。决策 空间 复杂 度:从 博 斌 初 始 状态 开 始 到 截止,所 有 可 能 决策 序列 中 决策 点 总 数。算法 运#行 复 杂 度:通过 对 最 优 千 案 的 近似 求解,算法 在 有 了 过 程 的 决策 总 数。区 去 与 回 恰 暗 共 与 芹 回,寺 苯 与 所 时,互 1 与 对 艺 啦 库 关 艺 王 蜡 计 加 看 尘 问题 求解 范式 本 来 研究 展 技术 路 线 的 形成:知识 数据 混合 驱动 学 习“知识 和 数据 如 何 实现 双 回 友 代 增 强?个 ae 站 S 2 涡 丸 负 4 息 证 答 中 合 汪 Pr 玉 这 于 联 没 枯 大江 对 区 从 这 本 知识 数据 双向 迭代 E 罗.知识 推演 体系 构建 和 数据 驱动 知识 发 现 数据 驱动 模型 学 习 相 we 互 协同 进行,不 断 和 迭 答-知识 引导 数据 学 习。装“过 Sn 识 入 流 决策 k 平,。代 演 K 和 发 展 放 汪 兴 jw 之 1 往/9 _ 系 学 习 结果 发 现 新 知识,人 统 人 全 全 人 和 更 新 知识 推演 系统、疡 弧 交 蛮 决 策 系 统,5 导数 据 学 习 算法 提升 光志 澡 注 6。现 有 博 蛮 决策 水 平 凡 从 初 必 执 洒 习 驱动 类 勋 人 时 序 演化 维度:人 机 交互 学 习 字 问 全 求解 记 式 知识 数据 混合 驱动 学 习 技术 路 线 数据 拟 合 学 习 自 靖 庆 深度 强化 学 习 品 1 罗 sn.4,及)2 2 人 5 rr 多 和 9 必 弄”AN Data BRi(mi)=argmax ui(ri,Ti)o 王 和 格 一 SEE 初始 基准 解 En 二 光 四 计算 博弈 理论 机)上|国志 全 学 2 推理 和 演化 O 一,决策 过 程 逐 阶 推理 进 代 推 理 同步 推理 更 新 一 必 阶段:上 于 本 站 国人|风 十 本 出 2 RN 阶段 2 昌 一 csso 果 三|四 车 辐 司 知识 更 新 数据 模 态 问题 求解 认 式 分 布 式 并 行 优 化 博弈 学 习 引 和 擎“支持 并 行 分 布 式 对 抗 数据 生成、模 型 训练 学 习 和 在 线 模型 评估 ee Re 】外|状 太 CN 和 mw ea em wm mp am em wm um au wma 和 和光 证 em WA 人 自 孙 CONTENTS 我 们 主要 完成 的 研究 内 容“围绕 智能 体 与 环境 单 体 探索)、智 能 体 之 间 和 群体 博弈)、以 及 智能 体 与 人 人 机 混合)的 交互 学 习 问 题 开 展 核 心算 法 研究 单 智 能 体 多 智能 体 4,势能 场 模型 驱动 的 智能 体 三 普 守|基 于 动态 不 后 居 策 略 的 多 智 传 党 到 已”融 效 探索 复 法,UCAI 2020-小 一 霜|能 体 学 习 算 法,UCAI 2019“|ws PE aaa=pm 探索 学 习 而 效 探 索 算 法,AAAI 2021 优 示 范 学 习 算法,UCAI 2020 迪 产 渤:jj E|社交 影响 力 驱 动 的 智能 体“|六-4 站 于 最 佳 反 应 的 多 智能 体 次,必 人 2 有 是|交互 多 样 性 催生 混合 系统 中 的 合作 协同,AAMAS 2024 情境 感知 学 习 驱 动 的 离线 对 也 于 建 模 方 法,ICLR 2024 ea-|a AlphaHoldem:,专业 水 平 德|空 了;|序列 化 信用 分 配 多 智能 体 合 1 1,5 扑 Al,AAAI 2022 齐 越 论文 奖|市 作 学 习 算 法,AAMAS 2023|才 且 芋 HE=避 引入 人 类 外 部 知识 的 高 效 探 索 知 能 体,ICLR 2024 试验 环境 的 选择:各 类 不 同 的 游戏 展 博 弈 交互 学 习 研 “围 组 各 头 不 探 去 4、木 未 区 回合 制 游 戏 实时 制 游戏 单 人 游戏 两 人 游戏 儿 人 游戏 司 的 游戏 开 竟 速、动 作、射击、策 略 等|7 届 究 完美 信息 游戏 不 完美 信息 游戏 试验 环境 的 选择:各 类 不 同 的 游戏 选 全 村 国 游戏 可 以 实现 对 真实 世界 中 的 诸多 特性 进行 有 效 模拟 择 人.单 体、多 体、人 机、不 完美 信息、回 合 制、实 时 制 等 游 和 全国 游戏 问题 的 输入 状态 范 转 确 定,有 较 好 的 结构 化 描述 戏 游戏 问题 决策 的 空间 范围 确定,有 相关 的 物理 性 约束 试 4 本 游戏 的 规则 详细 定义,游 戏 对 抗 问题 胜 负 判 断 很 明确 AI 的 能 力 评估 通过 游戏 对 抗 进行 评估 有 明确 计算 准则 验 生生 游戏 的 对 搞 数 据 有 很 多 积累 或 者 可 以 用 算法 自动 生成 的.游戏 决策 模型 训练 过 程 中 执行 动作 不 会 产生 实际 损失 原 人 和 国 让 戏 与 智力 强 相关,专 业 选手 多 被 认为 是 最 聪明 的 人 因。很 多 游戏 拥有 专业 的 比赛 和 组 织 及 数量 众多 的 参与 者 技术 应 用 效 杂 近期 成 果 介 绍:引入 人 类 外 部 知识 的 高 效 探索 Al:PAE:将 自然 语言 形式 外 部 知识 引入 强化 学 习 训练 过 程 的 框架 研究 动机:,1)人 类 智能 善于 从 外 部 知识 中 吸取 有 ou 十 益 见 解,传 统 强化 学 习 算 法 仍 需要 大 量 试 错 来 进行 中 上 二 io 低 效 探索,本 工作 探索 了 三 个 问题;人 作 和 雪 SC 部 知识 如 何 指导 集 略 学 习?”2)大 幅 提升 现 有 RL 算 法 探索 效率,为 构建 人 类 可 参与 的 交互 式 博弈 学 习 范 式 提供 研究 和 算法 基础。型 外 部 知识?”、“如 何 引入 外 部 知识?”、“外 到 单|人 虽 RE|上 呈 筑 法 创新,提 出 了 一 个 能 够 吸收 人 类 知识 的 规划 器-执行 器-评估 器 PAE)算法 训练 架构:规划 需 由 昂 到 难 提供 外 部 知识,执 行 佑 遵循 指导 逐渐 掌握 复杂 技能,评 佑 硕 以 关 励 同时 张 动 规划 谷 和 执行 花 更 新;能够 以 目 然 语 言 的 形式 生成 人 拓 可 理解 的 决策 序列。技术 应 用 效 订 近期 成 果 介 绍:引入 人 类 外 部 知识 的 高 效 探索 Al“规划 刁:由 易 到 难 提供 外 部 知 黄 多 规划 器 架构 1 IN 位 置 编 蚂 Suiaacesnass 执行 器|O ORGTTGTFTG5O 侈 ”进 性 生 让 二 马 一 YE“高 效率 对 抗 数据 生成 技术,。高 并 发 对 抗 模型 训练 技术,。高 可 靠 性 对 抗 性 能 评估 技术;人 工 技术 发 展 过 程 中 的“AI 效应”二 村 全 和 于 和 下 下 于 届 全 和 一 一 达 特 茅 斯 学 院 约翰.麦卡锡 未 来 取代 人 类 的 不 是 人 工 旬 能 而 是 会 使 用 人 工 知 能 的 人 谢谢 大 家 和 闪 车 学 2024 年 4 月 14 晶- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈 交互 学习 一种 复杂 系统 决策 问题 求解 范式
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文