银行客户满意度分析论文-毕业论文.doc
《银行客户满意度分析论文-毕业论文.doc》由会员分享,可在线阅读,更多相关《银行客户满意度分析论文-毕业论文.doc(16页珍藏版)》请在咨信网上搜索。
1、浙江大学宁波理工学院数据挖掘竞赛论文报告浙江大学宁波理工学院银行服务客户满意度分析综合评定成绩: 评委评语:评委签名:银行服务客户满意度分析摘要:随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术对客户满意度进行分析已成为研究热点。 桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集要求通过数据挖掘技术在早期就能识别对其服务不满意的客户,以便及时采取合适的改进措施以提升客户的体验。关键词: 数据挖掘技术 顾客满意度 PCA主成分分析法 决策树 预测 The thesis titleA
2、bstract: A brief description of the abstractKey words: The keyword extraction目 录1.研究目标62.分析方法与过程62.1. 总体流程62.2. 具体步骤62.3. 结果分析73.结论74.参考文献71. 挖掘目标(1)背景:随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术对客户满意度进行分析已成为研究热点。桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集要求通过数据挖掘技术在早期就能识别对其服务不满意
3、的客户,以便及时采取合适的改进措施以提升客户的体验。在本次竞赛中,参赛者需要通过分析匿名用户的上百个特征来预测用户对其银行服务的满意程度(满意或不满意)。在数据集中ID表示客户的匿名ID,TARGET是需要预测的变量,1表示不满意,0表示满意,剩余的列是已提取的跟客户满意度相关的观测指标(属性);需求:1、 分析哪些特征或特征组合能较好的对银行服务满意程度进行分析;2、 建立合适的银行服务客户满意度模型;3、 预测在测试集中每个客户的满意程度(属于不满意客户的概率);4、 建立合适的评价指标,验证你的预测结果。说明:附件共分三个文件:Train.csv中是训练数据,其中包含预测量TARGET,
4、Test.csv是测试数据,只包含属性数据。Sample_submission.csv是需要与源代码一起上传的最后结果样式,要求输出对Test.csv的测试结果。(2)目标:本次数据挖掘建模要达到的目标是利用银行关于客户信息建立下来的数据,采用数据挖掘技术,进行已知数据以及结果的相关分析测试找到规律建立模型,之后利用测试数据带入模型进行预测得到你结果。题目给出的大数据的属性以及维度都比较大,所以会有一些冗余和无效数据,首先要先将高维大数据进行预处理,利用weka的元学习器,通过与NativeBayes方法一起使用,测试软件自带的属性选择方法,选择得到一些最具影响力的属性进行作为训练子集,并且运
5、用进算法里面。这个方法可以将数据进行降维,保留相应比较主要的影响因素属性。随后将数据和人属性一起放入决策树分类算法,建立合理的模型,可以找到不同属性对目标决定影响程度,建立完成比较合理的分类系统。随后将题目给出的测试数据放入模型,利用已知的模型进行预测,可以推算出客户满意情况,银行可以对于这个预测结果对相应用户可以提早对其采取相应措施。2. 分析方法与过程2.1. 总体流程2.1.1 问题12.1.2 问题2、3、4原始数据建模&预测0结果&评估数据预处理数据筛选2.2. 具体步骤2.2.1 解问题1将excel数据进行转化得weka可以识别的csv格式,利用weka的另存功能得到arff格式
6、,这个过程得到的数据还是不能直接进入决策树运用的。需要打开arff格式的数据,将数据类别的一栏修改为银行需要的0、1满意度类别,将数据加载计入决策树可以得到一个枝节繁茂的树,由此可以从这棵树的模型之中得到影响因素中最大的特征或特征组合为根节点以及靠近根节点的几个特征。使用wake通过决策树J48算法 ,验证训练集,结果如图:图1图22.2.2 解问题2、3、4本用例主要包括如下步骤:步骤1:数据筛选&数据预处理 从原始数据分析得到,题目给出的原始数据属性太多,并且都是未知属性,此外表格的大部门数据值为0,面对这个训练集,里面特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一
7、种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。所以我们利用weka深入研究自动属性选择,它允许指定属性选择方法和学习算法,作为分类器的一部分。该分类器确保选择属性子集仅基于训练数据。 该算法的好处: 提高数据准确估计在选择属性过程中避免了因为有监督的过滤器的使用而而导致减少后的一部分数据用于模型测试的过程中,在选择属性中回导致已经看到了测试数据中要使用的属性,从而影响模型构建有偏倚的准确性估计。 提高属性选择效率该方法是利用算法,让学习器对数据进行自己学习选择,提取重要影响因素,这种软件自己学习选择得到的数据结果比手工选择相关属性具有更加高的准确率。我们想要利用上面的方法
8、筛选得到需要的训练子集,这个训练子集对总体的影响程度相关性比较大。利用这些对模型训练起较大作用的数据,从而建立一个更科学的决策树模型,使得这个模型可以应用于测试数据,从而进行相关的结果预测。最后我们得到的训练子集为如下10个:图3图4步骤2:建模&预测 1、建模将上面预处理得到的训练子集,打开分类面板,利用 weka 的分类算法决策树(J48)。采取预剪枝的的优化方法,设定枝节的阈值为10,置信区间为0.55的决策树预设,进行分类处理。该算法的原理是通过对属性的信息熵的计算,以信息增益量为度量进行划分分裂结点,选取信息增益量最小的作为根节点,下面就重复上面的步骤依次将节点分裂完全,最终知道该节
9、点只有一个分裂方向或者该节点的分裂枝节小于阈值,则停止分裂。建模过程中,我们一决策目标TARGET为样本的类别,属性值具体如下:attribute TARGET 0 , 1为了知道不同特征属性的银行客户最终满意程度,我们需要做的是建立一个合理的决策树模型,筛选出需要的属性特征作为决策节点。其中决策树的核心算法是J48,他不是一个算法,而是一组算法,其中包括剪枝与非剪枝J48。可是,一个元组本身有很多属性,我们怎么知道首先要对哪个属性进行判断,接下来要对哪个属性进行判断?这个时候算法原理是利用了属性选择度量来解决这个问题的。属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属性选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 客户 满意 分析 论文 毕业论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。