人工智能之大数据挖掘.pdf
《人工智能之大数据挖掘.pdf》由会员分享,可在线阅读,更多相关《人工智能之大数据挖掘.pdf(177页珍藏版)》请在咨信网上搜索。
1、 图表目录图 1 数据挖掘是知识发现的过程之一.3 图 2 数据挖掘过程基本步骤.5 图 3 Data Mining 知识图谱.7 图 4 2013-2018 KDD 研究性论文投稿与接收情况.8 图 5 2013-2018 KDD 工业界论文投稿与接收情况.8 图 6 柯洁乌镇大战 AlphaGo 撼负后的微博热议.45 图 7 两个微博名人的微博点赞数据的箱型图.48 图 8 组数较大组距较小的频率分布直方图.49 图 9 相同均值和方差的不同数据.55 图 10 k=3 的 K-means 算法迭代过程.56 图 11 神经元.62 图 12 神经网络.63 图 13 Girvan-Ne
2、wman 算法结果.71 图 14 基于优化 Q 值的算法结果.72 图 15 Louvain 算法步骤.73 图 16 Skip-Gram 模型架构.76 图 17 话题模型的概率图.79 图 18 大数据处理平台技术架构图.80 图 19 基于开源系统的大数据处理平台架构.81 图 20 全球学者分布地图.84 图 21 国内学者分布地图.84 图 22 数据挖掘领域全球 Top1000 学者迁徙图.85 图 23 数据挖掘全球 Top1000 学者机构分布.85 图 24 数据挖掘全球 Top1000 学者 h-index 分布图.86 图 25 数据挖掘全球 Top1000 学者性别比
3、.86 图 26 两阶段的交互推荐方法.126 图 27 视频推荐(左)和视频搜索(右).127 图 28 方法框架.127 图 29 视频推荐的评测结果.128 图 30 YouTube-8M 数据集上的视频检索.128 图 31 抽取系统的架构图.129 图 32 数据偏差.129 图 33 数据集的实验结果.130 图 34 不同 submodular 的比较结果.131 图 35 共享表示层.131 图 36 UCI 数据集的实验结果.132 图 37 Google 数据的实验结果.132 图 38 PG 模型、MPG 扩展版本.133 图 39 在线系统的 A/B 测试.133 图
4、40 框架结构.134 图 41 实验结果.134 图 42 Microsoft Bing 的可视化搜索.136 图 43 算法展示.137 图 44 降维过程.137 图 45 RBE 模型.138 图 46 Rosetta 的两阶段抽取架构.139 图 47 系统的总体设计.142 图 48 DPG-FBE.142 图 49 阿里巴巴的可视化搜索.143 图 50 可视化搜索系统的离线学习(左)在线搜索系统的总体架构(右).143 图 51 基于注意力机制网络和 RNN 的深度架构.144 图 52 排序过程.144 图 53 电子商务网站中商品的表示学习.145 图 54 SI 辅助信息
5、.145 图 55 多级级联排名模型.146 图 56 鲲鹏的总体架构.146 图 57 conv-RNN 框架.147 图 58 局部匹配图.148 图 59 关系增强的实体表示.149 图 60 生成有意义的医疗关系.149 图 61 提供实时停车可用性信息的框架图.150 图 62 研究城市中人的活动.151 图 63 大规模实际招聘数据系统.152 图 64 Data Mining 全局热点.153 图 65 Data Mining 近期热点.153 图 66 Data Mining 早期热点.153 图 67 2007 至今 Data Mining 与 Health Care 领域交
6、叉分析.155 图 68 Data Mining 与 Health Care 未来 3 年交叉研究趋势预测.156 表 1 数据挖掘和 KDD 对比图.2 表 2 数据挖掘分类表.3 表 3 两个比较受欢迎的微博名人在 2018 年 3 月到 2018 年 5 月间的一部分微博数据.46 表 4 LDA 模型中的变量和标记.79 1 摘要摘要 数据挖掘(Data Mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在大规模数据中发现隐含模式的计算过程。基于大数据时代的背景,本研究报告对数据挖掘这一课题进行了简单梳理,包括以下内容:数据挖掘的概念与研究概
7、况。数据挖掘的概念与研究概况。首先从数据挖掘的定义、分类、过程与功能四个方面介绍了数据挖掘;整理并分析了数据挖掘领域顶级会议 ACM SIGKDD 近六年的信息。数据挖掘的算法与实现。数据挖掘的算法与实现。按照数据挖掘应用的方向,从大数据、机器学习、社会网络、自然语言与统计数据分析五个方面介绍了数据挖掘的算法。基于大数据的数据挖掘主要介绍了数据采集层、数据存储层、数据处理层和服务封装层四个层的基本架构,和部分大数据平台实例;基于机器学习的数据挖掘主要介绍了非监督学习方法与监督学习方法,重点是监督学习方法,包括训练集、验证集与测试集、决策树模式、kNN 算法、神经网络、回归分析;社会网络中的大数
8、据挖掘主要介绍了图的基本要素、图的度量算子,并从行为分析算法、社区发现算法等方面介绍了社交网络上的算法;自然语言中的数据挖掘先介绍了词的表示分析,并从语言模型与话题模型两个层面进行算法介绍;统计数据分析与前三个方面均有交叉,主要从数据描述性分析、回归分析、关联分析、聚类分析三个方面进行介绍。最后具体分析了数据挖掘领域顶级会议 SIGKDD 最近几年在数据挖掘基础理论、社交网络分析和图数据挖掘、大数据挖掘等几个方面的国内外的主要研究成果。数据挖掘领域专家介绍。数据挖掘领域专家介绍。基于 AMiner 数据,对数据挖掘领域专家进行深入挖掘和介绍。包括顶尖学者的全球与中国分布、迁徙概况、学者机构分布
9、、h-index分析,并依据 AMiner 评价体系,从代表学者与近十年代表学者两个层面选取学者进行详细介绍。数据挖掘的应用领域与发展趋势。数据挖掘的应用领域与发展趋势。数据挖掘无论是在科学领域还是工程领域、理论研究还是现实生活中,其应用都十分广泛,有着极为广阔的发展前景。本文对其在物流业、旅游业、零售业等相关领域的应用情况进行了介绍,并基于AMiner 数据,对近期数据挖掘领域研究热点进行可视化分析,对未来数据挖掘方向进行了预测:隐私保护、可视化、与专业领域结合、多媒体数据挖掘等。2 1 概述篇概述篇 1.1 数据挖掘基本概念数据挖掘基本概念 数据挖掘(Data Mining),是指从大量的
10、数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。数据挖掘的广义观点:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法1。数据挖掘是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,它的最重要的价值在于用数据挖掘技术改善预测模型。早期数据挖掘并不是作为单独学科存在,追溯到30年前,Gregory I.Piatetsky-Shapiro(也是 KDnuggets 的创始人)等人于 1989 年 8 月在美国底特律的国际人工智能联合会议(IJCAI)上召开了一
11、个专题讨论会(workshop),首次提出了知识发现(Knowledge Discovery in Database,KDD)这一概念。KDD 涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成,再后来的 30 年间 KDD 逐渐形成了一个独立、蓬勃发展的交叉研究领域。后来经过若干年的培育,1995 年,在加拿大蒙特利尔正式召开了第一届“知识发现和数据挖掘”国际学术会议 KDD。1995 年在美国计算机 ACM 年会上,开始把数据挖掘视为知识发现 KDD 的一个基本步骤。随后成立了 ACM 专委会SIGKDD 以及对应的国际数据挖
12、掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称 SIGKDD),到目前为止 SIGKDD已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用,详见 1.2 近年 SIGKDD 概况。数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web 数据,此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询
13、优化、决策支持及数据自身的维护等。2 数据挖掘是 KDD 的一个关键步骤,下表对二者做一比较。表 1 数据挖掘和 KDD 对比图 输出不同 共同点 数据挖掘 模型 输入的都是学习集(learning sets)目的都是尽可能多的自动化数据挖掘过程 知识发现 规则 1 http:/www.kdd.org/curriculum/index.html 2 王惠中,彭安群 数据挖掘研究现状及发展趋势 J 工矿动化,2011(2)3 一般文件数据仓库知识清理与集成选择与转换数据挖掘评估与表示 图 1 数据挖掘是知识发现的过程之一 早期比较有影响力的发现算法有:IBM 的 Rakesh Agrawal 的
14、关联算法(IBM Fellow、后来 MS Technical Fellow、第一届 ACM SIGKDD 的创新奖得主)、UIUC大学韩家炜(Jiawei Han)教授等人的 FP Tree 算法(第四届 ACM SIGKDD 的创新奖得主)、澳大利亚的 John Ross Quinlan 教授的分类算法(第十一届 ACM SIGKDD 的创新奖得主)、密西根州立大学 Erick Goodman 的遗传算法。同时已经有一些国际知名公司纷纷加入数据挖掘技术研究的行列,如:美国的 IBM 公司于 1996 年研制的智能挖掘机 Intellingent Miner,用来提供数据挖掘解决方案,此后出
15、现了 SPAA 公司的 Enterprise Miner、SGI 公司的 SetMiner、Sybase 公司的Warehouse Studio,还有 CoverStory、EXPLORA、Knowledge Discover Workbench、DBMiner、Quest 等等。1.1.1 数据挖掘分类数据挖掘分类 表 2 数据挖掘分类表 分类方依据 分类 按挖掘的数据库类型 文字型 网络型 Time 型 Space 型 按挖掘的知识类型 高抽象层 原始数据层 多个抽象层 按所用技术类型 模式识别 神经网络 可视化 统计学 面向数据库或仓库技术 l 按挖掘的数据库类型分类按挖掘的数据库类型分
16、类 由于数据库有约定俗成的分类方式,例如数据模式、数据类型、应用环境等分类种类,以上几种数据库都有属于自己特有的数据挖掘技术;数据库之间可以互相对应,根据数据库类型定义数据挖掘技术的方法可行。数据挖掘技术若按照数据类型进行分类,可以分为文字型、网络型、Time 型、Space 型等。3 3 王桂芹,黄道 数据挖掘技术综述 J 电脑应用技术 2007(69):10-11.4 l 按挖掘的知识类型分类按挖掘的知识类型分类 数据挖掘技术可以按照数据挖掘技术的功能划分,可划分为分析数据的内在规律、分析数据间的内在联系、定义描述等。一个数据挖掘全过程会同时由以上二个、三个或者多个功能组成。数据挖掘还可以
17、划分为广义知识、原始层知识、多层知识等类别。也就是专业术语所说的高抽象层、原始数据层、多个抽象层等类别。经典的数据挖掘技术通常能够找到多层知识。数据挖掘技术也能够按照其内在规律和奇特的异常性进行分类。通常来说,数据的内在规律可以通过分析相关性数据、找出数据之间的内在联系、定义描述、集合类的对象为多个类和估算等方法挖掘4。l 按所用的技术类型分类按所用的技术类型分类 数据挖掘按照技术类型划分为:模式识别、神经网络和可视化、机器学习、统计学、面向数据库或仓库技术等;也可按照数据分析方法划分为:建模并模拟神经网络、进化算法、集合类似的对象为多个类、分类树、推演规律等。大型的数据挖掘系统通常包含二种或
18、三种以上挖掘方法,或者吸取多种挖掘方法的优点来处理数据挖掘。l 按应用分类按应用分类 数据挖掘技术应用的领域不同,分类也不同。比如生物医学行业、交通行业、金融行业、通信行业、股市行业等都有自己合适的且已广泛应用的数据挖掘方法。因此不可能做到用同一个数据挖掘技术应用到各个行业领域。1.1.2 数据挖掘过程数据挖掘过程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的,可实用的信息,并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。数据挖掘过程中各步骤的大体内容如下:第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,
19、但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。第二步:数据准备。数据准备分为三个阶段。数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型。这个分析模型是 4 JiaweiHan,MichelineKamber,JianPei,et al.数据挖掘:概念与技术M.机械工业出版社,2012.5 针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。逻辑数据库被选择的数据预处理后的数据被转换的数据被抽
20、取的信息被同化的信息选择预处理转换挖掘分析和同化 图 2 数据挖掘过程基本步骤 第三步:进行数据挖掘。对得到的经过转换的数据进行挖掘。第四步:结果分析。解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。第五步:知识的同化。将分析所得到的知识集成到所要应用的地方去5。1.1.3 数据挖掘功能数据挖掘功能 目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之
21、间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。1.1.4 大数据与数据挖掘大数据与数据挖掘 大数据是近年随着互联网、物联网、通信网络以及人类社交网络快速发展的结果,成为一个交叉研究学科,和数据挖掘紧密相连。一方面大数据包含数据挖掘的各个阶段,即数据收集、预处理、特征选择、模式挖掘、表示等;另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施;最后大数据的迅速发展也使得数据挖掘对象变得更为复杂,不仅包括人类社会与物理世界的复杂联系,还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用,
22、传统数据挖掘算法必须满足对真实数据和实时数据的处理能力,才能从大量无序数据中获取真正价值。5 王桂芹,黄道.数据挖掘技术综述C全国第 18 届计算机技术与应用学术会议论文集,2007 6 大数据具有 4V 特性,对 4V 特性的解释有多种,包括美国国家标准技术研究院 NIST 的解释:即规模庞大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化多样(Variability)。IBM 给出了类似的解释,但 Variability变成了真实性(Veracity),后来将数据价值(Value)引入了进来,成为了大数据的 5V 特性。麦肯锡全球研究机构(McKinsey
23、 Global Institute)后来给出了大数据定义,综合了“现有技术无法处理”和“数据特征定义”定义,这也是目前比较公认的定义:即规模庞大(Volume)、种类繁多(Variety)、变化频繁(Velocity)和价值(Value)。大数据的快速发展极大的促进了数据挖掘领域的发展。1.2 数据挖掘知识图谱数据挖掘知识图谱 本节分析了近年来数据挖掘领域的高水平学术论文,挖掘出了包括社交网络、大数据、情报分析、聚类分析、文本挖掘、用户行为、推荐系统、离群检测、专家系统等相关关键词近年来全球活跃的学术研究。此外,结合知识图谱技术,本报告将以上研究领域表示为三级图谱结构,具体分析和处理的方法如下
24、:1.使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图谱,将文章分配到相应领域;2.依据学科领域对论文文献进行聚类,并统计论文数量作为领域的研究热度;3.领域专家按照领域层级对学科领域划分等级,设计了三级图谱结构,最后根据概念热度定义当前研究热点。下图是数据挖掘二级知识图谱的可视化表示,三级详细数据可以参见本报告附录,或到 https:/ 中直接下载原始数据。7 图 3 Data Mining 知识图谱 1.3近年近年SIGKDD概况概况 国际知识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Dat
25、a Mining,简称 SIGKDD)是数据挖掘领域的顶级国际会议,由ACM 的数据挖掘及知识发现专委会负责协调筹办。会议内容涵盖数据挖掘的基础理论、算法和实际应用,SIGKDD 主会期间,除了学术研究论文,自 2010 年起还设有面向工业和政府应用的专题研讨会,以及工业应用博览的邀请报告会。SIGKDD 发展的历史可以追溯到 1989 年,一系列关于知识发现及数据挖掘的研讨会从那时开始组织。自 1995 年以来,SIGKDD 以大会的形式连续举办了24 届,论文的投稿量和参会人数呈现出逐年累增的趋势。由于 SIGKDD 的学科交叉性和广泛应用性,吸引了来自统计、社会网络分析、机器学习、大数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 数据 挖掘
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。