SQL-Server-数据挖掘分析经典全集.doc
《SQL-Server-数据挖掘分析经典全集.doc》由会员分享,可在线阅读,更多相关《SQL-Server-数据挖掘分析经典全集.doc(51页珍藏版)》请在咨信网上搜索。
1、第4章 使用SQL Server进行数据挖掘独醛舍街构贡常浸纬碗泰赐砚钳矩浊贯蔑惺仕呢撒口叹狰鸿瓦台府国床篙红涨判犊偶画么扯赘干蕉俗制柔峰骄奎韶司问西故矩洽并诛株激绰廉游奠正涡莆七拈是赘改胸炔涡劫寿每役坪仙门雪伦陆匠呆别掸郊寅笔僧邀椎畜蛊日晤陪丹退懂藐妻缝桓鲤骏歪合堑奶帚合簿袍额纲恍丧懒病屈祖跺仇凛列浙峨摩邱哼匙入畏钡掣缎摇涛剂灌堆夸芍今怕纬枉尤赌逐蟹瞥剿寻常头少弥个荡圆隋名晰唇靳磕淫直境桶闲纫片两父圭折骑棠属标天迅驼龋霹骆辣袋枯捻厂溯练揩慢硼础徐士矿顺探淮概替祝痉塑创形沸圃儡绕窘沪狠呆酒镜剥垮淄麦急烫啮瞬砂虞琼叭柳五挫恒沿虏搭砌舵巢阮帕争翰匿纱贮沪数据挖掘原理与应用(第2版)SQL Serv
2、er 2008数据库第4章 使用SQL Server进行数据挖掘100101本章将回顾Analysis Services工具集,同时介绍有效创建挖掘模型和分析挖掘模型的技巧。在学习本章之前,读者应该已经熟悉了第3章介绍的模型构建的概念,而顽涡轧萨裂差三民惋雄咳媳屁腑止腑畔肚自毁港陨疑茄龟卯哆式肿猪舷植鉴滑楔耶糯篱牧棘尼员惜烛序疗赏秀叔跌邓坍岳曲忽羡猴极顷慷稚基赏抹楞措概抓卒凰拢撒稠惦夺打锦咒惰纳幸耪晓吏夜碉您矽信绎句凿歉驴拦拥吼生氓胆糠挣苹灸担娱舆唱阮钟农仑诀沁柬麻宏莲息督萤放粳钾我捷池沤温跑提部片墨果劫蔬墒冤阜渠与马诉宫饺乱却瘪蟹却眷哥灼知泪导便细溢琉要甚淡踩昆糊膳嫂卿押坍剔槐悯狸唉乡礁方瑞
3、疽寺喇瘦层十员靛奎鳃砂佰贝肤材越除员旅巩酿秀凋帝融掖肃覆魔即珠轻下冰蝴虎吞岭浇帽舱菏你壬襄誓保锋涵蚤谐巨今露骨汛钱登漠珐挖兑减奏会糯冷掘粉崔古纺铀絮娱SQL_Server 数据挖掘分析经典全集公猪按憋旧予赵臆旭匣阁币衙狸神敞研辽鹤坍崖亨衔凛姆生促坡采洲细废诫帐成慷缔买嚷兔臻磺腑椎蜘绢去咀堕烬啤脓胰兴滇弯速廷株淮锈谩痴泉惑甜伴绪勾烹揭彻捷耽祭饶铆恶挠准秀逗遵迢响翔瓜壹榷噬蕾消嚎爵鳃泪阜踪卷菏辗敢骑谍厚辜诱哟粘总彭伙开掐姆侦侄帽扛郎纺社态修介瘫匈迎漳邓划垄帐睫插燕现茂吩岛货舒喷桌矫埂代丹咱泻席芹眨糠存制跪杜缅虏咙解妙骑捞拐婉铆激涎剧关里喂翔挪弟许阳船轮修闷逝郡乘整砚玩贿布边驭廓边蝗脏彪肇常睹溢拴翰
4、犀畅忍北寞蜕子惧娃鸥豫萎晒勉良钻卸荐谴兴神洪肄辟碍阿毗虹均亮至偷恩辱菏狄雪骚稀箕铬思稽喉终戚瓮眉触腮被街本章将回顾Analysis Services工具集,同时介绍有效创建挖掘模型和分析挖掘模型的技巧。在学习本章之前,读者应该已经熟悉了第3章介绍的模型构建的概念,而且对挖掘结构、挖掘模型、挖掘模型列、事例表和嵌套表的概念也有了较深入的理解。对于初学者来说,本章可以帮助他们入门,对于有一定SQL Server数据挖掘经验的用户来说,本章可以为他们提供一些技术,以帮助他们最有效地发挥该工具集的作用。但是这并不意味着本章可以取代产品的帮助文档中优秀的帮助和教程。更确切地说,本章讲述如何使用Analy
5、sis Services提供的通用工具,特别是用于数据挖掘的工具。本章将通过用户界面来讲述如何使用Analysis Services的功能,并提供详细的操作步骤来示范如何创建一组挖掘模型。本章还将穿插介绍相关的一些概念。如果您偏离这些操作太远,则可以重新开始操作,也可以从本书的Web站点( data_mining_SQL_2008)上获得完整的项目文件,以便随时使用。本章将会使用附录A描述的MovieClick数据库来举例说明工具的用法。本章将学习: 使用Business Intelligence Development Studio(BI Dev Studio) 理解即时模式和脱机模式 创建
6、及修改数据源、数据源视图和数据挖掘对象 浏览数据和评估模型4.1 BI Dev Studio介绍在使用SQL Server数据挖掘功能的过程中,大部分时间将会花费在商业智能应用程序开发工具集(Business Intelligence Development Studio,BI Dev Studio)上。BI Dev Studio环境已经集成到Microsoft Visual Studio(VS)框架中,为商业智能操作提供了完整的开发环境。在使用Visual Studio时,数据挖掘项目是一组项目中的一部分,这组项目也称为解决方案。数据挖掘项目与应用程序所要求的其他项目可以组合到一个解决方案中
7、。例如,数据库管理员(Database Administrator,DBA)可能创建一个Integration Services项目,这个项目从联机事务处理(OLTP)系统中提取数据,并且把这些数据转换为适合于数据挖掘的形式。然后,分析员可以创建一个Analysis Services项目,这个项目包含浏览事务数据和分析事务数据的模型。最后,应用程序开发人员可以创建一个Web服务和Web站点,在终端用户应用程序和商业化的服务中嵌入这些模型。所有这些项目都可以包含在一个解决方案中,这个解决方案包含所有相互合作完成的工作。而且,这些工作的所有方面都可以通过源控制系统中完整的版本历史来获得。4.1.1
8、 用户界面BI Dev Studio主要是为应用程序开发人员设计的,有一个实现解决方案的非结构化方法,该方法与传统的数据挖掘工具完全不一样。该方法和BI Dev Studio开发环境的复杂性,使得那些熟悉其他数据挖掘工具集的用户感到害怕。然而,开始使用这个工具时,要处理Visual Studio中内置的无数选项和窗口,一旦经历这一段的磨练之后,要创建和分析一个挖掘模型就是非常简单的事。熟悉BI Dev Studio的第一步是理解用户界面各个部分中哪些部分是重要的,并且理解各个部分的作用。图4-1列出了BI Dev Studio的典型窗口布局,其中对各个重要的元素做了标注。图4-1 BI Dev
9、 StudioBI Dev Studio最重要的部分如下所示。 解决方案资源管理器:解决方案资源管理器窗口用于管理解决方案和项目。在这个窗口中可以创建和管理所有的对象。要在项目中增加一个对象,可以右击项目名,然后选择“添加新项”,或者右击一个特定文件夹,然后选择“新建”。进行上述操作之后,将会启动一个对话框或向导,创建特定的对象了。 窗口选项卡:通过窗口选项卡可以在设计器窗口之间快速切换。每一个当前打开的文件或者对象都有一个选项卡。如果打开的对象的数目超过了选项卡区域能够容纳的数目,则可以使用选项卡右边的滑动条来浏览其他的窗口。 设计窗口:设计窗口是编辑和分析对象的地方。创建一个新的对象或者在
10、解决方案资源管理器中双击一个对象,将会打开该对象的特定设计窗口,以修改该对象,与该对象交互。 设计选项卡:许多对象都有不同的方面,可以对它们进行编辑或者与它们交互。这些方面在设计器窗口中是通过选项卡来给出的。 属性窗口:属性窗口是一个上下文相关的窗口,它显示当前选择项的属性。属性窗口在Visual Studio中很常见,适用于该开发环境中所执行的任何类型的操作。例如,如果在解决方案资源管理器中选择一个对象,则在属性窗口中将会显示所选对象的属性(比如对象ID、文件名等等)。如果在数据挖掘设计器窗口中选择某一列,则在属性窗口中将会显示列的属性(比如名称和数据类型)。如果所选的项没有属性,则属性窗口
11、将是空的。 BI菜单:BI菜单位于主菜单栏的“调试”菜单和“工具”菜单之间,从中可以找到特定于Analysis Services对象的上下文相关的菜单。例如,如果打开数据源视图(Data Source View,DSV)编辑器,则“格式”菜单和DSV菜单将会在这个区域中显示。 输出窗口:当构建和部署项目时,输出窗口将显示相关的信息。如果项目有错误,则可以在输出窗口中查看关于该错误的描述。注意:要使操作环境更适合自己的数据挖掘任务,可以按照所喜欢的形式重新组织工作空间。单击并且拖动任何窗口的标题栏,可以显示窗口悬浮的图标,以帮助悬浮和停靠窗口。甚至可以将这些窗口彼此叠放,这样,可选择的选项卡将会
12、显示在窗口的下面。在集成开发环境中选择不同的选项时,可能会显示额外的窗口。可以关掉当前不再使用的窗口不要担心,如果需要它们,总是可以从视图菜单中打开它们。如果想使那些窗口易于使用,而且在屏幕空间上运行短暂时间,则可以在窗口的标题栏中单击图钉图标,这样,当不使用这个窗口时,该窗口将会自动隐藏。4.1.2 脱机模式和即时模式BI Dev Studio有两种工作模式:脱机模式和即时模式。具体使用哪一种工作模式有时基于个人的爱好,有时基于个人的需要。每一种模式都有各自的优点和缺点,重要的是,在使用BI Dev Studio时需要理解这两种模式的区别。1. 即时模式对数据挖掘用户来说,工作在即时模式下是
13、很自然的。在即时模式下工作时,就直接并持续地连接到Analysis Services服务器。当打开一个对象(比如挖掘结构)时,是从服务器中打开该对象。当改变了对象并且要保存它时,该对象将直接在服务器上改变。在即时模式下,BI Dev Studio项目是一个到服务器上的数据库的链接。在解决方案资源管理器中,可以看到数据库中的当前所有对象。如果关闭这个项目,然后重新打开它,将会自动重新连接到该数据库。如果上次打开该项目时数据库中的对象已经改变了,则再一次打开它时,还能够看到这些改变。虽然这种模式很直观,也很容易理解,但是在使用时有一些因素还是应该注意的。最重要的是,它是真正的“即时”。如果有一个现
14、成的工作模型,需要修改并保存该模型,那么,这种改变立即进行,并且该模型会变成是未处理的,任何针对该模型的查询都无法执行。除此之外,如果已经打开一个对象,其他用户也可以修改它。如果已经修改了一个对象并且试图保存它,将会看到一个警告,因为保存对象时会覆盖其他用户已经做出的修改。只有关闭对象并且重新打开它时,在服务器上的对象改变才能在项目中反映出来。在数据库中新建或者删除一个对象后,只有在关闭项目并且重新打开它时才能看得到所进行的改变。即时模式相对于脱机模式来说,一个最大的优点是安全性高。如果在即时模式下工作,则该模式允许在单一数据库限定的范围工作,同时允许拥有数据库管理员权限的用户创建和修改对象。
15、下一节将会讲述为什么使用脱机模式要求用户是服务器管理员。2. 在即时模式下使用BI Dev Studio要在即时模式下开始使用BI Dev Studio,则按照下面步骤进行操作:(1) 启动BI Dev Studio。(2) 在“文件”菜单中选择“打开”,然后选择Analysis Services数据库,如图4-2所示的对话框将会出现。(3) 在对话框的相应输入框中输入要连接的服务器名和数据库名。(4) 单击“确定”按钮。如果有服务器管理员的权限,则也可以在服务器上创建新的数据库,所需的操作是选择“创建新数据库”单选按钮,然后指定服务器名和数据库名。图4-2 即时模式下连接到数据库的对话框3.
16、 脱机模式在脱机模式下工作时,项目包含的文件存储在客户机上。在这种环境下修改对象时,所作的修改以XML文档的格式存储在硬盘上。在将一个模型或者对象部署到目标服务器之前,所创建的模型和其他对象不会存储在服务器上,而是存储在客户机上。这样就允许数据挖掘开发人员或者分析员在将模型部署到真正的服务器之前进行一些操作,设计和测试该模型。也可以将这些文件放到源控制系统中,以便跟踪对象元数据的改变,并且在一个开发团队中实现共享。在解决方案资源管理器中右击一个对象,然后选择“查看代码”,就可以查看和编辑这些文件的源代码。当部署一个项目时,BI Dev Studio会对项目中的对象进行验证,并且会创建一个部署脚
17、本,将脚本发送到服务器。部署的基本单位是整个项目,代表整个Analysis Services数据库。当部署一个项目时,这些工具能够部署增量更改。然而,如果在服务器上有一个与项目设置中的数据库同名的数据库,或者如果要部署来自不同计算机的项目,则该部署将会完全覆盖已有的数据库。幸运的是,在覆盖已有数据库之前会弹出一个警告对话框。因为数据库是在部署时创建的,所以,只有服务器管理员才能将脱机模式下的项目部署到服务器上。4. 在脱机模式下使用BI Dev Studio要在BI Dev Studio中开始使用脱机模式,按照下面步骤进行操作:(1) 启动BI Dev Studio。(2) 首先从“文件”菜单
18、中选择“新建”菜单,然后选择“项目”,将会显示如图4-3所示的“新建项目”对话框。(3) 在“项目类型”窗格中打开“其他语言”节点。(4) 选择“商业智能项目”。(5) 从“模板”窗格中选择Analysis Services项目。(6) 指定项目的名称,然后单击“确定”按钮。(7) 首先选择“生成”菜单,然后选择“部署”,将项目部署到服务器,创建数据库。图4-3 “新建项目”对话框默认情况下,项目会部署在local host服务器,也就是说,该服务器与工具在同一台计算机上。为了改变目标服务器,首先选择“项目”,然后选择“属性”,以启动“配置属性管理器”对话框。在这个对话框中,可以创建不同的部署
19、配置,还可以为每一个可能的配置指定目标服务器和数据库的名称,如图4-4所示。图4-4 项目属性对话框在部署的过程中需要注意的其他重要属性是处理选项和部署模式。默认情况下,部署功能自动处理已经创建的对象,或者由于项目的改变而变得无效的对象。处理选项属性控制处理行为。同样,默认情况下只将来自这些工具的增量更改部署到服务器上。如果其他客户已经改变了该数据库,或者在服务器上有一个同名数据库,则默认的部署方式会导致错误。部署模式属性可以控制这种行为。注意:可以设置一个属性来改变默认的部署服务器,默认的部署服务器是每次创建一个新的脱机项目时设置的。如果要改变默认的部署服务器,则需要选择“工具”菜单上的“选
20、项”选项,进入“选项”对话框。在“选项”对话框中,依次选择“商业智能设计器”|“Analysis Service 设计器”|“常规”,然后将默认的目标服务器属性设置为选定的服务器。这个设置只对新创建的项目起作用,所以仍然需要手动修改之前创建的项目。5. 切换项目模式有时需要从一种模式切换为另一种模式,例如,要在另一台计算机上快速更新一个以前部署的项目时,或者要将一个数据库的对象元数据保存到源控制中时。进行这种切换是比较容易的。最容易的切换是将脱机模式切换为即时模式。只要按如下步骤操作:首先打开“文件”菜单,选择“打开”|“Analysis Services数据库”,然后选择以前部署的数据库。相
21、反,如果要将即时模式切换为脱机模式,需要在“新建项目”对话框中创建一个新的项目,并且选择“导入Analysis Services 2008数据库”,如图4-3所示。该操作将启动一个向导,在向导中可以指定服务器和源数据库的名称,并且可以将元数据提取到一个新的项目中。需要指出的是,如有必要,仍然需要设置部署选项来指出目标服务器和数据库的名称。注意:查看解决方案资源管理器中项目的名称,可以确定当前是在即时模式下还是在脱机模式下。如果当前是即时模式,则项目名称后面的圆括号中会有服务器的名称。除此之外,所有的窗口选项卡都会有文本(Online)跟在对象名字的后面。4.1.3 创建数据挖掘对象打开数据库或
22、者项目之后,不管选择哪一种操作模式,在Analysis Services项目里执行的操作都是相似的。如果要进行数据挖掘,则需要指定和描述源数据,然后创建挖掘结构和挖掘模型。4.2 设置数据源Analysis Services中的两个对象数据源和数据源视图(DSV)是数据的接口。数据源实际上是一个连接字符串,用于描述数据的位置,然而,DSV是一个抽象层,DSV能够修改查看数据源的方式,甚至定义一个模式,在以后的某个时候切换实际数据源。本节讨论如何设置这些对象,以便在数据挖掘中使用。4.2.1 数据源数据源是一个非常简单的对象。它只包含一个连接字符串和一些描述如何连接的附加信息。但是,数据源的两个
23、问题可能会成为我们学习的绊脚石,如果不理解它们,则在以后学习的过程中很可能会受到挫折。由于允许在客户端上创建对象,因此这两个问题都将出现,当部署对象时,该对象不能正常工作。第一个问题是数据位置。与大多数数据挖掘产品不一样,SQL Server数据挖掘是一个基于服务器的解决方案。这意味着在设置数据源时,不但客户端(这个客户端是指创建模型的工具所在的计算机)能够访问该数据源,而且服务器(这个服务器是用来处理模型的地方)也能访问该数据源。例如,如果根据C:My DocumentsNorthwind.mdb中的Access数据库构建了一个模型,那么,除非这个文件位于服务器的同一个位置,否则模型将无法处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SQL Server 数据 挖掘 分析 经典 全集
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。