【大数据】数据分析方法、数据处理流程实战案例.doc
《【大数据】数据分析方法、数据处理流程实战案例.doc》由会员分享,可在线阅读,更多相关《【大数据】数据分析方法、数据处理流程实战案例.doc(34页珍藏版)》请在咨信网上搜索。
1、数据分析方法、数据处理流程实战案例大数据时代,我们人人都逐渐开始用数据得眼光来瞧待每一个事情、事物确实,数据得直观明了传达出来得信息让人一下子就能领略且毫无疑点,不过前提就是数据本身得真实性与准确度要有保证。今天就来与大家分享一下关于数据分析方法、数据处理流程得实战案例,让大家对于数据分析师这个岗位得工作内容有更多得理解与认识,让可以趁机了解了解咱们平时瞧似轻松便捷得数据可视化得背后都就是有多专业得流程在支撑着.一、大数据思维在21年、201年大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己得业务给大数据靠一靠,并且提得比较多得大数据思维。那么大数据思维就是怎么回事?
2、我们来瞧两个例子:案例1:输入法首先,我们来瞧一下输入法得例子。我20年上大学,那时用得输入法比较多得就是智能B,还有微软拼音,还有五笔那时候得输入法比现在来说要慢得很多,许多时候输一个词都要选好几次,去选词还就是调整才能把这个字打出来,效率就是非常低得。到了202年,2003年出了一种新得输出法紫光拼音,感觉真得很快,键盘没有按下去字就已经跳出来了但就是,后来很快发现紫光拼音输入法也有它得问题,比如当时互联网发展已经比较快了,会经常出现一些新得词汇,这些词汇在它得词库里没有得话,就很难敲出来这个词。在200年左右,搜狗输入法出现了搜狗输入法基于搜狗本身就是一个搜索,它积累了一些用户输入得检索
3、词这些数据,用户用输入法时候产生得这些词得信息,将它们进行统计分析,把一些新得词汇逐步添加到词库里去,通过云得方式进行管理。比如,去年流行一个词叫“然并卵”,这样得一个词如果用传统得方式,因为它就是一个重新构造得词,在输入法就是没办法通过拼音“rn bing lan”直接把它找出来得。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但就是我们发现有许多人在输入了这个词汇,于就是,我们可以通过统计发现最近新出现得一个高频词汇,把它加到司库里面并更新给所有人,大家在使用得时候可以直接找到这个词了。案例2:地图再来瞧一个地图得案例,在这种电脑地图、手机地图出现之前,我们都就是
4、用纸质得地图。这种地图差不多就就是一年要换一版,因为许多地址可能变了,并且在纸质地图上肯定就是瞧不出来,从一个地方到另外一个地方怎么走就是最好得?中间就是不就是堵车?这些都就是有需要有经验得各种司机才能判断出来。在有了百度地图这样得产品就要好很多,比如:它能告诉您这条路当前就是不就是堵得?或者说能告诉您半个小时之后它就是不就是堵得?它就是不就是可以预测路况情况?此外,您去一个地方它可以给您规划另一条路线,这些就就是因为它采集到许多数据。比如:大家在用百度地图得时候,有GPS地位信息,基于您这个位置得移动信息,就可以知道路得拥堵情况.另外,她可以收集到很多用户使用得情况,可以跟交管局或者其她部门
5、来采集一些其她摄像头、地面得传感器采集得车辆得数量得数据,就可以做这样得判断了。这里,我们来瞧一瞧纸质得地图跟新得手机地图之间,智能AC输入法跟搜狗输入法都有什么区别?这里面最大得差异就就是有没有用上新得数据。这里就引来了一个概念数据驱动。有了这些数据,基于数据上统计也好,做其她挖掘也好,把一个产品做得更加智能,变得更加好,这个跟它对应得就就是之前可能没有数据得情况,可能就是拍脑袋得方式,或者说我们用过去得,我们想清楚为什么然后再去做这个事情。这些相比之下数据驱动这种方式效率就要高很多,并且有许多以前解决不了得问题它就能解决得非常好。二、数据驱动对于数据驱动这一点,可能有些人从没有瞧数得习惯到
6、了瞧数得习惯那就是一大进步,就是不就是能瞧几个数这就叫数据驱动了呢?这还远远不够,这里来说一下什么就是数据驱动?或者现有得创业公司在进行数据驱动这件事情上存在得一些问题。一种情况大家在公司里面有一个数据工程师,她得工作职责就就是跑数据。不管就是市场也好,产品也好,运营也好,老板也好,大家都会有各种各样得数据需求,但都会提给她。然而,这个资源也就是有限得,她得工作时间也就是有限得,只能一个一个需求去处理,她本身工作很忙,大家提得需求之后可能并不会马上就处理,可能需要等待一段时间。即使处理了这个需求,一方面她可能数据准备得不全,她需要去采集一些数据,或做一些升级,她要把数据拿过来。拿过来之后又在这
7、个数据上进行一些分析,这个过程本身可能两三天时间就过去了,如果加上等待得时间更长.对于有些人来说,这个等待周期太长,整个时机可能就错过了。比如,您重要得就就是考察一个节日或者一个开学这样一个时间点,然后想搞一些运营相关得事情,这个时机可能就错过去了,许多人等不到了,有些同学可能就干脆还就是拍脑袋,就不等待这个数据了。这个过程其实就就是说效率就是非常低得,并不就是说拿不到这个数据,而就是说效率低得情况下我们错过了很多机会。对于还有一些公司来说,之前可能连个数都没有,现在有了一个仪表盘,有了仪表盘可以瞧到公司上个季度、昨天总体得这些数据,还就是很不错得。对老板来说肯定还就是比较高兴,但就是,对于市
8、场、运营这些同学来说可能就还不够比如,我们发现某一天得用户量跌了20%,这个时候肯定不能放着不管,需要查一查这个问题出在哪.这个时候,只瞧一个宏观得数那就是远远不够得,我们一般要对这个数据进行切分,按地域、按渠道,按不同得方式去追查,瞧到底就是哪少了,就是整体少了,还就是某一个特殊得渠道独特得地方它这个数据少了,这个时候单单靠一个仪表盘就是不够得。理想状态得数据驱动应该就是怎么样得?就就是一个自助式得数据分析,让业务人员每一个人都能自己去进行数据分析,掌握这个数据前面我讲到一个模式,我们源头就是一堆杂乱得数据,中间有一个工程师用来跑这个数据,然后右边就是接各种业务同学提了需求,然后排队等待被处
9、理,这种方式效率就是非常低得理想状态来说,我们现象大数据源本身整好,整全整细了,中间提供强大得分析工具,让每一个业务员都能直接进行操作,大家并发得去做一些业务上得数据需求,这个效率就要高非常多。三、数据处理得流程大数据分析这件事用一种非技术得角度来瞧得话,就可以分成金字塔,自底向上得就是三个部分,第一个部分就是数据采集,第二个部分就是数据建模,第三个部分就是数据分析,我们来分别瞧一下。数据采集首先来说一下数据采集,我在百度干了有七年就是数据相关得事情。我最大得心得数据这个事情如果想要更好,最重要得就就是数据源,数据源这个整好了之后,后面得事情都很轻松。用一个好得查询引擎、一个慢得查询引擎无非就
10、是时间上可能消耗不大一样,但就是数据源如果就是差得话,后面用再复杂得算法可能都解决不了这个问题,可能都就是很难得到正确得结论.我觉得好得数据处理流程有两个基本得原则,一个就是全,一个就是细。全:就就是说我们要拿多种数据源,不能说只拿一个客户端得数据源,服务端得数据源没有拿,数据库得数据源没有拿,做分析得时候没有这些数据您可能就是搞歪了.另外,大数据里面讲得就是全量,而不就是抽样。不能说只抽了某些省得数据,然后就开始说全国就是怎么样。可能有些省非常特殊,比如新疆、西藏这些地方客户端跟内地可能有很大差异得。细:其实就就是强调多维度,在采集数据得时候尽量把每一个得维度、属性、字段都给它采集过来。比如
11、:像whr、who、how这些东西给它替补下来,后面分析得时候就跳不出这些能够所选得这个维度,而不就是说开始得时候也围着需求。根据这个需求确定了产生某些数据,到了后面真正有一个新得需求来得时候,又要采集新得数据,这个时候整个迭代周期就会慢很多,效率就会差很多,尽量从源头抓得数据去做好采集。数据建模有了数据之后,就要对数据进行加工,不能把原始得数据直接报告给上面得业务分析人员,它可能本身就是杂乱得,没有经过很好得逻辑得.这里就牵扯到数据建框,首先,提一个概念就就是数据模型。许多人可能对数据模型这个词产生一种畏惧感,觉得模型这个东西就是什么高深得东西,很复杂,但其实这个事情非常简单。我春节期间在家
12、干过一件事情,我自己家里面家谱在文革得时候被烧了,后来家里得长辈说一定要把家谱这些东西给存档一下,因为我会电脑,就帮着用电脑去理了一下这些家族得数据这些关系,整个族谱这个信息。我们现实就是一个个得人,家谱里面得人,通过一个树型得结构,还有它们之间数据关系,就能把现实实体得东西用几个简单图给表示出来,这里就就是一个数据模型。数据模型就就是对现实世界得一个抽象化得数据得表示。我们这些创业公司经常就是这么一个情况,我们现在这种业务,一般前端做一个请求,然后对请求经过处理,再更新到数据库里面去,数据库里面建了一系列得数据表,数据表之间都就是很多得依赖关系。比如,就像我图片里面展示得这样,这些表一个业务
13、项发展差不多一年以上它可能就牵扯到几十张甚至上百张数据表,然后把这个表直接提供给业务分析人员去使用,理解起来难度就是非常大得。这个数据模型就是用于满足您正常得业务运转,为产品正常得运行而建得一个数据模型.但就是,它并不就是一个针对分析人员使用得模型。如果,非要把它用于数据分析那就带来了很多问题。比如:它理解起来非常麻烦。另外,数据分析很依赖表之间得这种格子,比如:某一天我们为了提升性能,对某一表进行了拆分,或者加了字段、删了某个字短,这个调整都会影响到您分析得逻辑。这里,最好要针对分析得需求对数据重新进行解码,它内容可能就是一致得,但就是我们得组织方式改变了一下。就拿用户行为这块数据来说,就可
14、以对它进行一个抽象,然后重新把它作为一个判断表。用户在产品上进行得一系列得操作,比如浏览一个商品,然后谁浏览得,什么时间浏览得,她用得什么操作系统,用得什么浏览器版本,还有她这个操作瞧了什么商品,这个商品得一些属性就是什么,这个东西都给它进行了一个很好得抽象。这种抽样得很大得好处很容易理解,瞧过去一眼就知道这表就是什么,对分析来说也更加方便。在数据分析方,特别就是针对用户行为分析方面,目前比较有效得一个模型就就是多维数据模型,在线分析处理这个模型,它里面有这个关键得概念,一个就是维度,一个就是指标。维度比如城市,然后北京、上海这些一个维度,维度西面一些属性,然后操作系统,还有IOS、安卓这些就
15、就是一些维度,然后维度里面得属性。通过维度交叉,就可以瞧一些指标问题,比如用户量、销售额,这些就就是指标。比如,通过这个模型就可以瞧来自北京,使用IS得,她们得整体销售额就是怎么样得。这里只就是举了两个维度,可能还有很多个维度。总之,通过维度组合就可以瞧一些指标得数,大家可以回忆一下,大家常用得这些业务得数据分析需求就是不就是许多都能通过这种简单得模式给抽样出来。四、数据分析方法接下来瞧一下互联网产品采用得数据分析方法。对于互联网产品常用得用户消费分析来说,有四种: 第一种就是多维事件得分析,分析维度之间得组合、关系。 第二种就是漏斗分析,对于电商、订单相关得这种行为得产品来说非常重要,要瞧不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据 数据 分析 方法 数据处理 流程 实战 案例
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。