基于数据仓库的数据挖掘模型应用方案建议书【方案之家】.doc
《基于数据仓库的数据挖掘模型应用方案建议书【方案之家】.doc》由会员分享,可在线阅读,更多相关《基于数据仓库的数据挖掘模型应用方案建议书【方案之家】.doc(51页珍藏版)》请在咨信网上搜索。
1、 欣晨制作数据挖掘模型应用方案建议书方案之家 欣晨制作2013年1月25日目录第1章 系统概述41.1 项目背景41.2 建设原则51.3 总体要求61.3.1 基本指导思想61.3.2 系统定位61.3.3 功能描述61.4 建设目标71.4.1 近期目标71.4.2 中长期目标81.5 术语解释8第2章 系统平台方案82.1 硬件总体方案82.1.1 基本原则82.1.2 网络拓扑图及说明102.1.3 硬件平台组成及功能112.2 硬件配置依据122.2.1 性能问题分析122.2.2 数据挖掘系统磁盘存储容量计算122.2.3 磁盘存储总容量132.2.4 数据库服务器处理能力计算13
2、2.3 系统安全控制142.3.1 网络安全管理142.3.2 操作系统安全142.3.3 数据库系统安全142.3.4 应用软件上的安全控制152.3.5 数据备份152.4 硬件配置方案1172.4.1 产品配置清单17第3章 挖掘模型介绍183.1 xxx的流失预警模型流程183.1.1 商业理解183.1.2 数据理解193.1.3 数据准备193.1.4 建立模型203.1.5 模型检验203.1.6 模型发布223.2 xxx的客户细分模型流程223.2.1 商业理解223.2.2 数据理解233.2.3 数据准备233.2.4 建立模型233.2.5 模型检验243.2.6 模型
3、发布243.3 xxx的信用度模型流程253.3.1 商业理解253.3.2 数据理解263.3.3 数据准备263.3.4 建立模型283.3.5 模型检验283.3.6 模型发布293.4 xxx的生命周期模型设计293.4.1 建模原因293.4.2 建模流程293.5 xxx的终身价值模型设计313.5.1 建模原因313.5.2 建模流程323.6 xxx的交叉销售和提升销售模型设计333.6.1 系统功能结构图333.6.2 模块说明333.6.3 数据准备程序353.6.4 建模流程363.6.5 交叉销售模型363.6.6 提升销售模型373.6.7 生产流程383.6.8 交
4、叉销售模型383.6.9 提升销售模型403.6.10 验证流程413.6.11 交叉销售模型验证流程413.6.12 提升销售模型验证流程423.7 xxx的营销方案损益测算模型设计423.7.1 系统功能结构图433.7.2 模块说明433.7.3 计算设计433.7.4 测算文件模版453.7.5 程序流程图46第4章 应用解决方案474.1 设计原则474.2 应用三层模型474.3 软件系统结构图494.4 业务逻辑494.5 软件功能504.6 软件模块划分504.7 系统内部接口504.8 系统外部接口514.9 模型设计步骤和流程514.10 功能实现514.10.1 ETL子
5、系统实现514.10.2 数据准备实现524.10.3 模型自动化实现534.10.4 前台展现实现544.11 xxx数据挖掘模型的优势57第1章 系统概述1.1 项目背景面对新的世界经济格局和态势,“客户中心”理论引导商业社会的积极参与者必须为客户提供更好的产品,更优质的服务,更加适应新生活所需的个性需求,企业最终通过有市场竞争力的服务赢得客户对企业的尊重,获得企业的利润。近年电信市场竞争已经逐步由单纯的资费竞争、价格竞争、网络质量竞争转向多元化的营销模式竞争、渠道竞争、服务竞争、品牌竞争等更深层次,移动通信战场硝烟弥漫,异常惨烈,各家各出奇招,变粗放型经营为精细化经营已经势在必行。数据仓
6、库技术是市场竞争的产物,他的目标是整合企业内部所有分散的原始的业务数据,并通过便捷有效的数据访问手段,支持企业内部不同部门、不同需求、不同层次的用户随时获得自己所需的信息。数据仓库是提供有效的决策支持,能为企业有效的管理数据提供技术上的保证。目前,已建立和使用的数据仓库应用系统都取得了明显的经济效益,在市场竞争中显示了强劲的活力。在目前日益激烈的市场竞争中如果没有有力的技术手段来支持更高一层的管理模式,是无法和强大的竞争对手进行抗衡的。从深圳目前的客观条件来看,深圳联通公司经过近10年的发展,积累了大量的客户资料、通话信息、网间通话数据等,这些都是非常宝贵的资源,但由于缺乏必要的手段,无法使用
7、这些资源运用到对新兴客户的获取以及在网用户的二次营销上。而主要竞争对手深圳移动早已经开始了这方面的工作,针对客户流失、客户发展、竞争对手、客户消费模型等设立了多种挖掘计算专题。目前这些专题已经产生了效果,对我们经营造成了非常大的威胁,给我们的发展新客户、挽留老客户都带来了障碍。因此结合开展直复营销的契机全面在深圳的一线和二线部门提升量化营销的能力是非常必要的。 基于该背景,积极通过量化营销支撑系统的建设全面提高深圳联通量化营销能力,进一步提升其市场核心竞争力,已迫不及待。1.2 建设原则根据xxx多年的建设经验和客户的需求。系统规划和建设的原则主要包含以下几个方面:1. 系统集中、分步实施原则
8、采用统一原则,建立统一基础模型结构,考虑有多个模型需要建立,根据模型的重要性和紧迫性采用分步实施,先实施主要的几个模型,随后逐步实施其它模型,不仅符合运营商初期现实情况,又有效的保护了投资,使ROI最大化。2. 以客户为中心,以市场为导向 系统需满足个性化、信息化的需求。围绕以客户为中心吸引客户、方便客户、满足客户,为客户提供多样化及个性化服务,赢得客户满意的理念设计系统,以适应市场不断的变化。3. 接口的标准化和规范化原则实现系统内部接口的标准化、规范化,并且能够实现与综合营帐、综合客服、专业计费等相关专业系统间接口的标准化、规范化。系统与外部应用应遵从双向接口,向应用提供模型数据输出以及接
9、受模型评估后的结果进行模型自动修正。4.具备先进性的同时规避风险充分利用开发商(xxx)在与其它各大运营商在多年合作中积累的市场、技术、客户体验的经验。充分利用xxx在深圳联通经营分析系统建设中的沟通与经验的积累。采用新的实现技术,新的管理理念使系统具备先进性,同时继承其成熟的技术,成熟的理念,有效规避建设风险。1.3 总体要求基本指导思想1、将数据仓库建设成为全公司、全业务、全产品的统一经营数据分析核心平台;2、具备公司全业务、全流程的预测、调整、评估能力;3、具备对各生产作业系统的指挥、调度、评估能力;4、具备对各环节、各作业单元、各产品较完善的财务损益测算能力; 系统定位 系统定位为整个
10、公司核心的经营分析、生产决策平台,使用模型生产的结果数据进行有效的营销。功能描述基本内容:具备对客户价值、行为、生命周期、信用等方面评分分级功能;具备对各营销方案、维系挽留政策财务损益测算功能;具备针对不同营销活动进行响应客户识别功能;功能要求 具备数据挖掘能力、财务损益测算评估的能力;用户界面必须友好、人性化;具备方便的模型参数调整功能与界面,可实现参数动态灵活调整,并需要具备参数到期自动提醒功能;数据源必须丰富,不仅包含系统性数据源,还要包含计财、市场等管理性外部数据源;具备界面友好的模型评估功能;具备经营分析数据与文档统一存储功能;具备方便的可扩充的外部接口与各应用系统交互;l 具备较好
11、的帮助功能、在线培训功能;1.4 建设目标 本工程建设,考虑到技术、投资、效益、管理等各方面,需要按照指导思想提到的“个别试点、逐步铺开”的原则来开展。目前,技术上存在效果可行性的进一步核实和论证问题,投资方需要确定投资的规模和风险,项目建成后是否可以取得预期的效果也有不确定性,管理上也需要急迫的见到工程实施后的效果,所以需要将整个工程分成以下几个阶段。近期目标中长期目标“方案论证”“南京、扬州试点”“一类地市”“二类地市”“三类地市”具体如何区分地市的类别,可以按照目前省公司的分类方法,也可以选用经济状况划分,分类如下:以上地市类别是按照各地市的话务收入来划分的。1.4.1 近期目标近期目标
12、主要,完成“方案论证”,“南京、扬州试点”和“I类地市”的应用。近期目标这样的安排,对以后规避投资风险,以及总结成功经验有好处,做好“南京、扬州试点”工作后,将使用该项技术及延伸的业务问题解决能力,推广到急需使用的、并且经济条件好的地市。1.4.2 中长期目标 中长期目标,在巩固了近期目标,并进步深化落实近期目标的基础上,总结经验后,向全省各地市铺开,全面建立数据挖掘模型基础,并解决急切的业务难题,实现项目预期的客户信用控制技术基础和应用。1.5 术语解释DB:Database数据库,是数据的存储组织方法。OS:Operation Systerm操作系统,对硬件设备进行管理和对软件系统进行支撑
13、的平台。ETL: Extraction、Transformation、Loading数据抽取、转换、装载系统,该系统整合不同的数据源过来的数据,并对数据进行初步的规格化整理,清洗除杂。捕获率:实际上是同一用户被判断为同一用户的人数/实际上是同一用户的总人数。捕获纯度:实际上是同一用户被判断为同一用户的人数/所有用户(包括同一用户和不同用户)被判断为同一用户的总人数。第2章 系统平台方案2.1 硬件总体方案2.1.1 基本原则硬件平台包括硬件和系统软件两个大的方面,同时,网络架构安全性的考虑也是关键的部分。系统的硬件设计中遵循以下几个基本原则:l 先进性采用当前世界先进的基于计算机网络的软件、硬
14、件产品,从而保证系统在技术上领先。计算机产业是发展迅速的产业,新技术不断涌现,旧产品快速淘汰。选择能够长久发展的主流机种可以减缓机器更换频率,提高主机的服务年限,更好的利用设备投资。在实用的前提下,应从投资保护及长远观点做适当考虑,在技术上要保持五至十年左右的先进性。l 可靠性系统应具有极高的运行质量,能够一天24小时连续不断工作。整个系统应采用多种系统容错手段,主要设备采用高可靠性设计,保证无故障时间满足系统要求。这就要求从硬件和软件平台的角度,能够提供高可用的解决方案。高可用方案针对可靠性、可用性、容错能力、最大无故障时间等方面提供完整科学系统方案。l 稳定性系统必须保证稳定运行。l 可扩
15、展性软件、硬件平台应具有良好的可扩充、扩展能力,能够方便进行系统升级和更新,以适应各种不同业务的不断发展。市场竞争越加激烈,为了提高竞争力而不断推出新业务得以满足市场要求。这就要求系统在技术上具有强大的扩展能力,能够满足业务量的提升,同时能够为增加软件功能提供运行空间。l 安全性充分考虑了整个系统运行的安全、备份与恢复策略和机制,可以根据不同的业务要求和应用处理,设置不同的安全措施。系统包括大量的数据,保证这些数据不被恶意破坏、非法侵取是电脑系统安全策略所要解决的内容。安全、备份与恢复策略提供网络、主机、交易等关键资源有力保护,为业务系统创造安全可信的运作空间。l 经济性经济性原则要求系统的设
16、计与实施必须考虑现有资源的使用和闲置情况,如存储、网络资源等的利用,尽可能使用最小的投资,完成最可靠的系统。设计应充分保护目前的设备投资并将再投资规模控制在较合理的范围之内,保证系统的建设具有很好的投资回报效应。同时系统应该还具有较低的运行和维护费用。l 高性能平台应用具有强大而平衡的处理能力。针对系统数据量大,数据格式复杂,业务比数繁多等情况,要求服务器能够支持大规模批量处理,尤其在高峰期间能够与磁盘系统配合,使整个系统性能平衡不会出现系统瓶颈,保证系统响应大压力的数据负载。2.1.2 网络拓扑图及说明整个系统具有以下特点:l 存储系统采用SAN网络,有利于系统存储的扩展。l 数据库服务器配
17、置1台,应用服务器使用1台,两台服务器做成双机互备,保证了高可用性。l 可以采用IP映射的方式,将IP映射到firewall的DMZ区,保证系统的安全性。l 内网与外网之间通过防火墙隔离,保证内网的安全,必要时可以采用IDS系统对系统进行入侵检测。l 与其他系统数据传送通过firewall设备进行安全控制,这样可以避免对其他系统安全带来威胁。l 前端可以通过专网或者Internet接入,接入可以多样性。网络拓扑结构图如下:2.1.3 硬件平台组成及功能系统的硬件平台主要有以下设备组成:l 数据库服务器数据库服务器是系统数据处理的中心。通常把数据库服务器称为主机系统。支撑主机系统的核心系统软件是
18、数据库支撑软件,采用Oracle10gR2 Enterprise Edition。挖掘服务器是数据模型算法中心,用在系统中用来对数据进行分析和挖掘。本系统的建设将系统的数据挖掘服务器与数据库服务器物理上采用同一台主机,采用Insightful Miner挖掘支撑工具。l 应用服务器应用服务器是系统业务逻辑的核心,承担着前端用户的访问。l 磁盘存储系统存储系统实际上包括联机存储和脱机存储两部分,磁盘阵列就是我们通常所说的联机存储。这部分也包括硬件和软件两块,硬件包括SAN交换机和磁盘阵列。l 网络设备网络设备主要包括核心交换机、接入交换机、路由器等各种保证网络互联互通的设备。建议方案采用与营帐等
19、其他系统共用方式,节省投资。l 网络安全设备防火墙是在网络层保证系统安全的重要组成部分,它可以防止恶意攻击,也可以防止非法入侵。同时还具有网络隔离的功能,是保证系统安全的最核心、最有效部分。2.2 硬件配置依据2.2.1 性能问题分析首先,必须有适当的硬件体系结构,要优化网络和CPU的效用,如果要最充分的利用网络和CPU资源,则数据的布局将是很重要的。在为取得性能进行数据布局时,数据的布局会受到很多因素的影响,包括规模、数据的易变性、复制、数据的访问频率以及其他因素。其次,要有良好的数据库结构设计。如果数据库设计得不合适,不仅不能充分发挥最大作用,而且应用程序的性能则会受到影响。本系统是一个面
20、向业务的系统,因此,如何提高效率、响应速度,是业务每一个环节都必需考虑的问题。2.2.2 数据挖掘系统磁盘存储容量计算按50万的用户规模计算存储容量。下面将对这部分的容量进行详细计算:数据种类每用户字节数用户数量保存时间数据量(GB)(Kb)(万)(月)客户资料有关25010.95客户消费数据15062.86客户信用度模型15031.43客户流失模型15031.43行为细分模型(6个)15031.43生命周期识别模型15031.43客户价值模型15031.43交叉销售模型15031.43提升销售模型15031.43挖掘宽表数据750620.00挖掘临时空间1050314.30CDR(5条/用户
21、/天)0.55010.71详单汇总0.7目前1750万条/天31051.42小计1203.21系统表空间存储数据库系统表8索引表空间索引表空间,主要是一些宽表数据索引,数据量比较大100回退表空间设4个回退段,每个回段8G,考虑大事务处理32工具表空间设一个,容量为4G4归档日志空间设10个日志文件,每个大小为512MB5临时表空间存放一些临时表8逻辑备份空间Exp备份50文件系统空间数据库应用文件及其它20小计227合计1430.21考虑冗余20%1717.98采用raid525%2147.46总计21472.2.3 磁盘存储总容量系统的磁盘存储总容量为:磁盘总容量= 2148(GB)同时,
22、在配置磁盘的时候,要考虑增加适当的Hotspace磁盘做为磁盘保护,防止由于磁盘损坏严重,造成数据丢失。2.2.4 数据库服务器处理能力计算数据挖掘处理是该系统的主要功能,也是处理过程最复杂的部分,是系统最有可能成为瓶颈的部分,因此,主机服务器处理能力依据数据挖掘过程,详细计算过程如下:以流失预警模型为例进行分析:指标名称单位数值深圳联通合约用户数(N1)万30深圳联通数据库服务器IBM-H85的TPCC指标(N2)TPMC19300深圳联通流失预警模型更新时间(T1)小时4 在通常情况下,一个数据挖掘模型的模型更新时间在2到6小时之间都是合理的,采取折衷方案(T2)小时4 用户数(N3)万5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方案之家 基于 数据仓库 数据 挖掘 模型 应用 方案 建议书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。