如何使用矩阵数据分析法.doc
《如何使用矩阵数据分析法.doc》由会员分享,可在线阅读,更多相关《如何使用矩阵数据分析法.doc(17页珍藏版)》请在咨信网上搜索。
1、如何使用矩阵数据分析法(完整版)实用资料(可以直接使用,可编辑 完整版实用资料,欢迎下载)如何使用矩阵数据分析法下面通过例子来介绍如何进行矩阵数据分析法。1、确定需要分析的各个方面。我们通过亲和图得到以下几个方面,需要确定它们相对的重要程度:易于控制、易于使用、网络性能、和其他软件可以兼容、便于维护。2、组成数据矩阵。用Excel或者手工做。把这些因素分别输入表格的行和列,如表所示。3、确定对比分数。自己和自己对比的地方都打0分。以 “行”为基础,逐个和“列”对比,确定分数。“行”比“列”重要,给正分。分数范围从9到1分。打1分表示两个重要性相当。譬如,第2行“易于控制”分别和C列“易于使用”
2、比较,重要一些,打4分。和D列“网络性能”比较,相当,打1分。如果“行”没有“列”重要,给反过来重要分数的倒数。譬如,第3行的“易于使用”和B列的“易于控制”前面已经对比过了。前面是4分,现在取倒数,1/4=0.25。有D列“网络性能”比,没有“网络性能”重要,反过来,“网络性能”比“易于使用”重要,打5分。现在取倒数,就是0.20。实际上,做的时候可以围绕以0组成的对角线对称填写对比的结果就可以了。表1:矩阵数据分析法ABCDEFGH1易控制易使用网络性能软件兼容便于维护总分权重%2易于控制04131926.23易于使用0.2500.200.330.251.033.04网络性能1503312
3、34.95软件兼容0.3330.3300.33411.66便于维护140.33308.3324.2总分之和34.374、加总分。按照“行”把分数加起来。在G列内得到各行的“总分”。5、算权重分。把各行的“总分”加起来,得到“总分之和”。再把每行“总分”除以“总分之和”得到H列每个“行”的权重分数。权重分数愈大,说明这个方面最重要,“网络性能”34.9分。其次是“易于控制”26.2分。 摘要: 本文简述了数据挖掘技术的基本概念、产生和发展的基础以及在现实生活中所发挥的巨大作用。同时还就数据挖掘技术在全国广播监测网的应用做了初步的探索和尝试。关键词: 数据挖掘 广播电视监测 决策支持0 引言随着广
4、播电视监测网建设规模的不断扩大和运行时间的不断增加,广播电视监测网数据库积累的各种监测数据也越来越多。激增的数据背后隐藏着许多重要的知识和信息,而目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。如何运用数据挖掘这一新兴技术从大量的监测数据中发现有意义和有价值的知识,并根据这些知识来指导我们日常的监测工作和维护工作,使我们的工作更有效率,成为广播电视监测领域里一个值得探索和研究的课题。1 数据挖掘技术简介1.1 数据挖掘技术的基本概念数据挖掘(Data Mining就是从大量的、不完全的、有噪声的、模糊的、随机的
5、实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要能够易于被用户理解,最好能用自然语言表达;并不要求发现放 应用探索 杨 京 国家广电总局监测数据处理中心之四海皆准的知识,换句话说发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。下面再简单解释一下知识的基本概念。从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉。而原始数据可以是结构化的,如关系数据库中的数据;也可以是半结
6、构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于决策支持和过程控制等。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘所发现的知识最常见的有以下四类:1. 广义知识(Generalization:广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。关联知识(Association:它反映一个事件和其他事件
7、之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。2. 分类知识(Classification &Clustering:它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。3. 预测型知识(Prediction:根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。时间序列预测方法有经典的统计方法、神经网络和机器学习等。4. 偏差型知识(Deviation:此外,数据挖掘还可以发现其他类型的知识,如偏差型知识,它是对差异和极端特例的描述,揭示
8、事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。1.2 数据挖掘技术的基础数据挖掘技术的三大基础技术包括计算机硬件技术、大规模数据库技术和数据挖掘算法。在过去数十年里,计算机硬件技术得到了迅猛的发展,包括单个CPU的处理能力大幅提升、内存和磁盘存储器价格的显著降低、支持多个CPU的并行处理结构的巨大进步等。大型关系型数据库及数据库管理系统在各行各业的广泛应用、最近10年来数据挖掘算法的不断发展、成熟和稳定。数据挖掘是利用了人工智能和统计分析这两种技术致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析技术的延伸和扩展。大多数的统计分析技术都基于完善的
9、数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,它们几乎不用人的关照自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。1.3数据挖掘和数据仓库之间的关系数据挖掘与数据仓库的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的
10、原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经被你解决了(图1。数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得建立一个数据仓
11、库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘(图2。1.4 数据挖掘和传统数据分析的区别数据挖掘与传统的数据分析如查询、报表、联机分析处理(OLAP是完全不同的工具,基于的技术也完全不同。传统的查询和报表工具是告诉你数据库中都有什么,OLAP工具则更进一步告诉你下一步会怎么样(Whatnext、和如果我采取这样的措施又会怎么样(Wh
12、atif。用户首先建立一个假设,然后用OLAP工具检索数据库来验证这个假设是否正确。联机分析处理的过程是先建立一系列的假设,然后通过OLAP 工具来证实或推翻这些假设来最终得到自己的结论。联机分析处理过程在本质上是一个演绎推理的过程。而数据挖掘和联机分析处理的本质区别在于不是用于验证某个假定模式(模型的正确性,而是在数据库中自己寻找模型。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知的特征。所谓先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价
13、值。数据挖掘在本质上是一个归纳的过程。数据挖掘和联机分析处理具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么联机分析处理工具能回答你的这些问题。 2 数据挖掘技术在监测数据分析中的应用探索全国广播监测网数据处理中心数据库里保存着大量的数据,其中包括各种基础资源的数据如各类发射台和发射机的基本信息、各种发射台运行图的数据、监测台的基本信息、监测站点的基本信息等;各种监测数据如指标收测数据、频谱收测数据、由监测站点上报的各种指标报警数据(设备报警数据等。随着全国广播监测网规模的不断扩大、运行时间的不断增加,数据库里保存的各种历
14、史数据也随之不断增多。对这些数据除了可以进行各种浏览和查询操作,进行各种统计分析、生成各种统计报表和图表以外,我们还可以利用功能强大的数据挖掘工具,发现隐藏在这些数据背后一些有意义和有价值的知识、规律和模型,然后用这些知识来指导我们的日常监测和维护工作,使我们的工作更有针对性、效率更高。下面就数据挖掘在全国广播监测网中的应用做一些初步的探索和尝试。2.1数据挖掘案例1在全国广播监测网里,各监测台每天都以日报的形式将它所监测的中波台的指标异态数据上报到数据处理中心的数据库里。指标异态包括以下3种:停播、功率异态和调幅度异态,其中停播是最严重的异态。异态数据主要包括以下字段:异态发生日期、发生异态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 使用 矩阵 数据 分析 实用 资料
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。