基于大数据平台的数据挖掘的研究和应用专题培训课件.ppt
《基于大数据平台的数据挖掘的研究和应用专题培训课件.ppt》由会员分享,可在线阅读,更多相关《基于大数据平台的数据挖掘的研究和应用专题培训课件.ppt(38页珍藏版)》请在咨信网上搜索。
1、1大数据平台生态系统2应用与研究3软件著作权目录大数据是什么?大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。2)Variety(多样性):即大数据包括各种格式和形态的数据。3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。4)Veracity(准确性):即处理的结果要保证一定的准确性。5)Value(大价值):即大数据包含很多深度的价值,大数据分析
2、挖掘和利用将带来巨大的商业价值。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是什么?大数据生态系统1、数据采集层2、数据存储层3、数据计算分析层4、数据可视化层hdfs!Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。!HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-c
3、ost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。hdfs总体结构图mapreduce!MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。!它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所
4、有映射的键值对中的每一个共享相同的键组。hive!hive是Hadoop上用于大数据中数据仓库的工具,它能把具有结构化的的数据形式文件投影到数据库的表格中,在其中提供结构化查询语言的数据查询,sql语句编译解释是运行在Hadoop上MapReduce的任务。!Hive的优势在于较低的学习成本,我们只需要编写基本的类SQL语句就能很快的完成具有规模较大数据模块的MapReduce数据的查询、检索、统计任务,不需要另外的开发专门用于MapReduce的应用,非常适用于统计分析数据仓库。!优化研究与应用!赛题背景:阿里巴巴旗下电商拥有海量的买家和卖家交易场景下的数据。利用数据挖掘技术,我们能对未来的
5、商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作用。!赛题介绍:本赛题以历史一年海量买家和卖家的数据为依据,要求参赛者预测某商品在未来二周全国和区域性需求量。选手们需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率。解决方案-比赛任务!评测成本:在本赛题中,参赛者需要提供对于每个商品在未来两周
6、的全国最优目标库存和分仓区域最优目标库存的预测。我们会提供每一个商品的补少成本(A)和补多成本(B),然后根据用户预测的目标库存值跟实际的需求的差异来计算总的成本。参赛者的目标是让总的成本最低。全国范围内的成本计算如下:分仓区域内的成本计算如下:总的衡量指标:解决方案-比赛任务!赛题数据:我们提供商品从20141010到20151227的全国和区域分仓数据。参赛者需给出后面两周(20151228-20160110)的全国和区域分仓目标库存。商品在全国的特征包括商品的本身的一些分类:类目、品牌等,还有历史的一些用户行为特征:浏览人数、加购物车人数,购买人数。注意我们要预测的未来需求是“非聚划算支
7、付件数”(qty_alipay_njhs)。表(1)item_feature:商品粒度相关特征表(2)item_store_feature:商品和分仓区域粒度相关特征表(3)config:每个商品在全国和分仓区域的补少、补多的成本表(4)选手需要提交的结果表(预测目标表)参赛者需要提供每个商品的全国和分仓区域的未来两周(20151228-20160110)目标库存。注:各表的具体详情请参考赛程说明文档数据预处理采样与过滤A增加序列号C缺失值填充E数据合并B拆分D归一化F天池的御膳房算法平台提供数据预处理工具和方法标准化G采样与过滤!加权采样:以加权方式生成采样数据;权重列必须为double或i
8、nt类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。!随机采样:以随机方式生成采样数据,每次采样是各自独立的。!过滤与映射:对数据按照过滤表达式进行筛选。过滤条件中填写where语句后面的sql脚本即可;映射规则可以rename字段名称。!分层采样:根据用户指定的分组字段分层采样样本数据合并!JOIN:类似sqljoin的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称!合并列:将两张表的数据按列合并,需要表的行数保持一致,否则报错。!UNION:类似sqlunion的功能,将两张表的数据按行
9、合并,左、右表选择输出的字段保持完全一致;去重是union,不去重是unionall。增加序列号在数据表第一列追加ID列。缺失值填充!忽略元组!人工填写缺失值!使用全局常量(如Unknown)填写缺失值!使用属性的中心度量(如均值或者中位数)填充缺失值!使用与给定元组属同一类的所以样本的属性均值或中心值!使用最可能的值填充缺失值拆分!按照比例拆分样本集,如设置0.6,切分成60:40两个样本集归一化!min-max标准化也称为离差标准化,是对原始数据的线性变换,使结果值映射到0-1之间。转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,
10、可能导致max和min的变化,需要重新定义。标准化!Z-score标准化方法这种方法给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:结合赛题的实际情况所做的一些具体的数据预处理步骤预处理的前期工作:把表格数据倒进来查看数据congfig的预处理数据合并:合并所有仓库合并全国表和分仓表归一化和标准化:最后两周每种商品的销售额求方差日期的处理得到每周商品的标准差数据过滤:消除双十二的影响,得到20151129之后的商品销量数据。双十二的数据用12月10日和12月13日的平均值代替购物节
11、数据预处理:每个商品的每周内的销量的平均数和标准差购物节特征特征工程特征变换A特征选择C数据视图E特征重要性评估B特征生成D天池的御膳房算法平台提供特征工程的工具和方法菜鸟-需求预测与分仓规划项目的特征工程特征提取:提取训练集的特征提取商品的特征提取store_code的特征提取brand_id的特征提取cate_level_id的特征提取supplier_id的特征提取store_code提取cate_level_id的特征提取store_code的特征提取brand_id的特征合并特征:合并训练集特征特征变换主成成分分析(PCA):通过正交变换将一组可能存在相关性的变量转换为一组线性不相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 平台 挖掘 研究 应用 专题 培训 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。