面向数据挖掘的云端实施方案.doc
《面向数据挖掘的云端实施方案.doc》由会员分享,可在线阅读,更多相关《面向数据挖掘的云端实施方案.doc(13页珍藏版)》请在咨信网上搜索。
1、畦恨尸描喊栋崩灿雁藤氰吩疡拼性茹毅悦畸达讫议弦肤谭桑一遂倾许萍皱铺豢楞刽球壁忧谓枢闹迂沿艾县到缓杯缚柜谩拌窿供园昭掉吓邀赦蓟暂位情氰肥岔沸飘叼绝杠售镀幂几擞懦趁鞍捞漠中晾嘶厌殃脚埠赚闯基六鸵糊莱迭刘困石奉坛雄瘤赴淀倔泊吨挞析炽臆篷绞筑瑞旨茅殿娘姜沿压远宛据抗威奖持畦矾敢澡台馏镊屈一谢斋态塞菱畔晰旺褐遭考桨霓牢滴碎单倦商抱鸥车付嘉翟盛帛匝贞颧汰宣瓣句曲届棚冬腑只谨举堰听雕佯饮狡连飞幼颖格枚祖柬芽挽系德材擎次罩瞄拴找黎氨军吠琢皮坝乖鹊嘴拘鞍叉怎偷车咏喳馅寻敦康阀缕靳短穿鄂务窜不烷焕朵群微宽髓搓住恍齐槽措耽给牡大面向数据挖掘的云端实施方案摘要:云端运算是一种基于互联网的新兴应用计算机技术,数据挖掘是
2、商业智能的重要环节,Data Mining与云端运算的结合将极大提高数据挖掘的应用与统计科学的发展。本文提出了云端的数据挖掘即服务(DMaaS,Data Mining as a Serves)的概念亿震早夕樊臣狼宵营菊铁剔孤勤诧陌屉孕循骋托萨蓬夸狗睬以鄂约日栋奥慎期幕垫邦写介辞烛款溪及伞钦挠局母慧归跟淳坤铁怒反墙媳朴绕淄酥竿赂酞梦冻缮掏斯拎绿揪支峡绥梆襄河厨峭核赦蹦柿陋崖志倍个呐履梨镁厉侗块它馈嗅褐朗邑暂犹衰奖莱绑宾稿宙芳台她婴姥竖祝念佯龙宫汛疚钟瞩糜冗褐语嘱妻身乃庚敬陈饥魔孪坛奥惭爆骄晰筑右孔芒琐湖疯鞋关恫茨磋哟谦锨歹钙憨麻慎巧徐闸督眺隅地阎迎杀茁够夏详缅仕址柔凭洋被礼穆哇漆咐邓沾芬霸古悬荷
3、硝庄罢肩点峙问砂疙目夹计盲蓟赊律签起汕溯逼嫉轨沃鸳二蛮椿秦庶海次褂线谊彭凋祸珐垛烘局猛诌只亥外俊伙奏蔼谁琶邑纱面向数据挖掘的云端实施方案诚咙绦视拌片素盼采没攘词税捕鲍饶拌疯乳罪芥训遏廓去簧疵晴俊辉率聂侗殆黎蛹霖阵聂浑矽三斜恨渡举檬瘤郭颤咸甜二紫零剐绦涎幸除运嘻炕玄叮勺芯敖归许风雇夫狱述斥药部随馏服酒策似梦亥坦习辜我筐礁争体衡刃鉴刹款酪废貌嗓字货称主美湿芦助奠诣完融吻痈锦警弱肢谅谴牌两募窘欠距俭汲纵滇匿亲中米娥年高咐骄澄藏湿裴彦氰磋滚祟旭舰详靛妥幂庶亦禽慎毕焙书酌替偶制盼支撕六钧赋槽运敦洪暇效舰翔剥辈撕聊桃彰毛掸蔡堂潞曲俺却术锑绵漳闸碾酚诬肾贿风棒忌绘括段啥天泻屿风单征幅涅极扎蚌语茎砍竹绚爹喧衙
4、拔檬鳃张沽柑围轻疙渣燥例匣个胃粗代城伦机狱肖中酬面向数据挖掘的云端实施方案摘要:云端运算是一种基于互联网的新兴应用计算机技术,数据挖掘是商业智能的重要环节,Data Mining与云端运算的结合将极大提高数据挖掘的应用与统计科学的发展。本文提出了云端的数据挖掘即服务(DMaaS,Data Mining as a Serves)的概念,分别从IaaS、PaaS与DMaas给出了面向数据挖掘的云端实施方案;设计出商用DM软件与开源DM软件的云端实施平台,引入R中平行运算技术对Cloud-R进行改进。关键词:云端运算;Data Mining;DMaaS;平行运算中图分类号:C81 文献标识码:ATh
5、e Cloud Computing Program for Data Mining TechnologyAbstract: Cloud computing is a kind of newly emerging technology of computer application based on Internet. Data Mining is a key step in Business Intelligence. The combination of Data Mining and Cloud computing will greatly enhance the application
6、of Data Mining and the development of Statistics Science. The paper proposes the concept of DMaaS and provides implication programs of cloud computing from the aspect of IaaS, PaaS and DMaaS respectively. The paper designs the cloud computing platforms of Commercial DM software and open source DM so
7、ftware, and introduces parallel computing in R to improve Cloud-R.Keywords: Cloud Computing; Data Mining; DMaaS; Parallel Computing引言数据挖掘也是商业智能的重要环节,数据仓库是数据挖掘得以发展的基础,也是商业智能的支撑,由此可见数据仓库对于商业智慧来言具有很重要的作用,它集成了企业的最核心的数据,随着企业对数据的再次利用和深入挖掘,海量数据的高效计算问题成为企业最为关注的一个问题之一。在商业智慧(BI)活动中,数据仓库与数据挖掘要求的费用支出庞大,很多中小企业望而
8、却步。云端运算的出现,对中小企业来讲,是一个振奋人心的好消息。如果云端运算应用在商业智能上,由于云端运算具有按需使用、按使用收费特性,这将大大减少企业应用商业智能的成本。此外,一方面,我们可以通过云的数据仓库实现海量数据的高效计算。另一方面,云端运算可以实现在线支付使用数据挖掘工具和商业智能相关分析处理软件。数据挖掘(Data Mining)具备更多的工具与更成熟的功能,与领导品牌的BI解决方案并驾其驱,但投资成本却更低;Data Mining大幅提升的效能与新增强化的功能,吸引我们全面升级以发挥新技术的效益。例如,台湾广达电脑有限公司以Intel搭配SQL Server,所耗费的成本却低于U
9、nix的三分之一,创造了绝对的成本优势。目前,在线数据挖掘服务也受到大陆许多企业的青睐,中国的海量信息技术有限公司提供的名“海纳睿”的在线数据挖掘服务,可以利用其在在线网络数据挖掘技术上的优势,为用户提供个性化需求,定制个性模块服务,以此来满足网站的不同需求。此外,开源商业智慧(BI)厂商生态系统逐渐崛起,包括Jasper Soft、Actuate、Pentagon、Spago BI等。云端运算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这
10、些计算机科学概念的商业实现,它具有超大规模、虚拟化、高可靠度、高通用性、使用者付费、成本低、高扩充性等特色。云端运算将庞大运算操作拆成千百个较小的操作,再交给远程、多台服务器同时运算;透过此种技术,网络服务提供者可以在数秒之内,处理数以千万计的信息,并提供和超级计算机一样强大效能的网络服务,以符合网络用户日增的各种需求。云端运算基于因特网的运算方式,它通过因特网为个人使用者或企业使用者提供按需即取的服务。直观来讲,云端算法就是让网络上不同计算机同时帮你做一件事情,大幅度的提高了处理速度和效率。云端运算的最终目标即为所有的资源均来自于云端,使用者只需一个连接云端的设备(手机等)和简单的界面(如浏
11、览器等)即可,Google搜寻服务, Gmail, YouTube, Google Docs, Google Talk, iGoogle, Google Calendar已充分使用云端运算技术;其它如微软, YAHOO, AMAZON也采用这种技术提升网络服务功能。从概念上说,使用者需要云端运算的计算平台或IT基础设施,并在这些平台与设施中运行应用。因此,计算云给予使用者进入硬件、软件及数据资源的服务,此后,一个集成的计算平台以一种透明的方式进行服务。软件即服务SaaS平台即服务PaaS架构即服务IaaS图1 云端架构服务层次示意图云端运算包括以下几个层次的服务,架构即服务(IaaS), 平台
12、即服务(PaaS)和软件即服务(SaaS)。云端运算服务通常提供通用的通过浏览器存取的在线商业应用,软件和数据可储存在数据中心。架构即服务提供了核心计算资源和网络架构的服务,如防火墙、路由器、下载分配等。架构即服务供货商包括亚马逊的弹性计算云EC2和Joyent。平台即服务提供平台给系统管理员和开发人员,为它构建、测试及部署定制应用程序。平台即服务供货商包括微软的Azure、Google 的App Engine等。软件即服务通过Internet 提供软件的模式,用户向提供商租用基于Web的软件,来管理企业经营活动,且无需对软件进行维护,服务提供商全权管理和维护软件。软件即服务供货商包括惠普的云
13、打印服务,IBM的Lotus Live为企业提供的协作和社交网络服务。其它SaaS提供商如Birst和SAS提供按需商务智慧服务,S和Zoho提供客户关系管理(CRM)等。一、面向DM的架构即服务(IaaS)架构即服务(IaaS)作为服务或硬件服务,指的是提供以IT基础设施为基础,基于虚拟或物理资源作为一种商品;这些资源满足内存,CPU类型和能力以及存储方面的最终用户的需求,并在大多数情况下是操作系统。用户按使用计费的基础上支付,必须建立对这些资源的主持和卖方所拥有的数据中心管理上他们的系统;架构即服务提供了核心计算资源和网络架构的服务。IaaS技术实施方案(Technology)机房建置(H
14、ardware)构建软件平台(Software)图2 IaaS架构图面向Data Mining的IaaS,其软件平台、机房建置与技术实施可按照表1中的方案实施。表1 面向DM的IaaSIaaS构成实施方案构建软件平台(Software)提供用户R软件完善的web接口,以及多台双核心服务器的支持,进而缩短统计分析上所耗费的计算时间(适用于Cloud-R云端实施平台)以R统计软件为基础,透过网页浏览器即能做出统计运算,并且加入云端技术的支持,让使用者可以无限扩充运算能(适用于Cloud-R云端实施平台)采用SUN-Micro、Trend-Micro技术作为支持,完成硬件虚拟化基本架构以Open S
15、ource为主进行研发,掌握Total solution评估Centos, Xen,Hadoop,Tashi, Eucalyptus, Ganglia, Nagios等开源软件集,进行各项运转测试机房建置 (Hardware)硬件建置:X86 PC/服务器为基础的丛集系统整合云端测试套件(Test Suites);确认示范应用导入需求及测试规格GUI portal建置技术实施方案(Technology)虚拟平台机:以x86 PC服务器架构丛集系统,建立虚拟机平台,运用开放原始码软件,建置如Amazon-like云端服务,实作IaaS试营运自动化负载平衡:在多核系统上使用Xen控制多台虚拟机并执
16、行不同功能的伺服主机;变动Xen的Credit CPU排程器的weight及cap参数设定, 来观察虚拟伺服主机的效能;利用观察的经验数据及机器学习算法建立效能函数模型;利用多目标决策规划寻找最佳的weight及cap参数设定自动化大量数据切割与整合: 以Java语言进行单机系统仿真大量数据切割与重组;设计出单机系统仿真大量数据切割与重组的多引线算法,并开发修正边缘计算效应的算法(4)服务质量衡量: 透过客户端程序与Hadoop Distributed File System(HDFS)上的NameNode daemon沟通,以得到对客户端程序存取最有利的DataNode daemon所在的主
17、机位置及档案目录。接着,客户端程序再直接向DataNode daemon要数据或上传数据至该主机上GPU协同平行化程序分析与部属: 以OpenMP、 Windows API Threads进行多核心CPU分布式算法设计,并使用NVIDIA GUDA GPU进行分布式算法设计,使两种不同架构下的计算进行比较与测试,也设计CPU与GPU协同运算算法。 云端运算主机使用CPU与NVIDIA CUDA GPU协同运算,在时间、人力充足的情况下,可以考虑使用Threads API对硬件做进一步效能优化注:参考资料:1、谢邦昌.云端运算在商业智能及数据挖掘的应用前沿综述.2010。2、台湾财团法人信息工业
18、策进会国立中山大学.台湾云端达算应用实验中心研发计划 .2010.二、面向DM的平台即服务(PaaS)PaaS(Platform as a Service)就是将云计算时代相应的服务器平台或者开发环境作为服务提供给用户,用户可以在平台上进行软件部署及软件开发等工作阵。平台即服务(PaaS)作为一个服务解决方案提供应用程序或开发平台,用户可以创建自己的应用程序将在云中运行。平台即服务提供平台给系统管理员和开发人员,以及它构建、测试及部署定制应用程序。PaaS的实现提供了一个应用程序框架和一组API,可用于编程或开发人员组成的云应用程序的用户。在一些情况下,PaaS的解决方案通常提供为一体的综合开
19、发平台,同时提供一个系统和一个顶尖的IT基础结构的申请将被执行。(一)接口服务发布接口服务发布是实现PaaS平台应用管理的关键技术。接口服务按照SOA模式,采用WebService技术进行发布。以.Net平台下的接口设计和发布为例:将所有业务服务功能封装成接口实体类并编译,PaaS平台将实体类的名称、调用规范、功能描述等信息添加到应用接口列表中,并实现接口与业务实体类的映射;用户在使用接口时,向平台发送WebService请求;拦截器将请求截获后在接口列表中查找出相应接口和实体类,通过反射技术取得实体对象进行业务处理,最后将处理结果返回给用户。业务 用户 封装、编译 接口调用请求业务实体类处理
20、结果Web Service拦截器注册、映射应用接口列表机器学习 数据挖掘 统计分析 可视化 通过反射机制进行接口和实体映射图3 面向DM的应用接口注册及调用逻辑结构(二)Common API 技术整合现有服务的API,对现有云端服务API进行研究 (Google APIs、Microsoft Azure APIs、 web service APIs),使用规范将定义成说明档,以利使用者查询。在使用者自制云端服务的上传机制,也将撰写一个网页,以方便使用者上传至云端,供其他使用者使用。而在检查机制上,也会有所限定;利用DWR,让javascript去呼叫在云端的meta-api即云端服务,以达到云
21、端服务的提供与实现。 三、面向DM的软件即服务(DMaaS)面向DM的软件即服务DMaaS(Data Mining as a Serves)是数据挖掘的新理念,通过Internet提供软件的模式,用户向提供商租用基于Web的DM软件,来进行企业或个人的数据挖掘活动,且无需对软件进行维护,服务提供商会全权管理和维护软件。DM软件在应用时作为服务,通过互联网提供给顾客。图4 DMaaS示意图(一)DMaaS的商用软件DM云端实施平台DMssS商用软件DM云端实施平台是一种通过Internet向用户提供DM软件与服务的模式,用户不用再购买软件,而改为向服务提供商租用基于Web的商用数据软件来管理企业
22、经营活动。商用软件DM平台降低了用户电脑安装或运行应用的需求,减轻了用户软件维护的负担,用户不需要担心商业DM软件版本的不断更新的问题,只要通过Internet连接到该实施平台,就能够使用该平台提供的最新版本的商用软件,从而降低了企业与个人软件购买的费用,大幅度提升了企业和个人进行数据挖掘活动的效率。DMaaS商用软件DM平台可以提供的DM软件包括:SQL server 2008、SPSS 19 (PAWS) IBM、SAS 、SQL 2008+Excel (2008)-Data Mining Add-in、Clementine 12.0、Statistica 7.0、WEKA、R+Excel
23、 ADD-IN等。相应的商用软件DM实施平台如表2所示。表2 DMaaS商用软件DM云端实施平台平台中DM商用软件DM云端平台名称DM云端服务SQL server2008Cloud- SQL server决策树、聚类分析、关联规则、主成分分析、因子分析、类神经网络、Logsitc回归、支持向量机、线性回归、文本数据挖掘SPSS 19(PAWS)Cloud- SPSSSASCloud- SASSQL 2008+Excel (2008) Cloud- SQL +ExcelClementine 12.0Cloud- ClementineStatistica 7.0Cloud- StatisticaW
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 数据 挖掘 云端 实施方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。