数据挖掘在电子商务中的应用.doc
《数据挖掘在电子商务中的应用.doc》由会员分享,可在线阅读,更多相关《数据挖掘在电子商务中的应用.doc(13页珍藏版)》请在咨信网上搜索。
数据挖掘在电子商务中的应用 一、引言 在信息和知识经济时代,随着网络技术的迅猛发展和社会信息化水平的提高,传统的 贸易正经历一次重大的变革,电子商务显示出巨大的市场价值和发展潜力。电子商务是商 业领域的一种新兴商务模式,它是以网络为平台、现代信息技术为手段、以经济效益为中 心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。 电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带 来了巨大的变革。当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些 激增的电子化数据意味着人们面临“数据丰富而知识贫乏”的问题。出现了“数据爆炸但知识贫乏”的现象,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的信息和知识因此,需要有新一代的技术和工具来对海量数据进行合理及更高层次的分析,做出归纳性推理,从中挖掘出潜在的模式,提取有用的知识,帮助电子商务企业决策者调整市场策略,进行商业预测,做出正确的决策,从而提高信息利用率,降低风险,给企业带来巨大的利润。数据挖掘就是为顺应这些需要应运而生发展起来的数据处理技术。 八十年代末兴起的数据挖掘(Data Mining)技术,就是从这样的商业角度开发出来的。 数据挖掘技术可以为新的商业处理信息,把历史积累的大量数据进行抽取、转换、分析和 其他模型化的挖掘和处理,从中发现隐藏的规律或模式,提取辅助商业决策的关键性数据, 为决策提供支持。利用数据挖掘技术,能对数据进行充分挖掘,发现数据所蕴涵的有用知 识,帮助企业业务决策和战略发展,从而使企业在市场竞争中获得优势地位。因此数据挖 掘在电子商务系统中的应用成为当前研究的重要课题。 电子商务是现代信息技术迅速发展的必然产物,也是未来企业模式的必然选择。数据 挖掘技术引入电子商务,给企业的商务活动提供全面支持,为客户提供个性化服务,增强 企业的商务智能。数据挖掘是电子商务取得更多成就的必然方向,它将数据转化为知识, 是数据管理、信息处理领域研究、开发和应用的最活跃的分支之一。它帮助决策者寻找数 据间潜在的关联,发现被忽略的因素,是解决数据爆炸而信息贫乏问题的一种有效方法。 数据挖掘的一个重要分支—关联规则挖掘,主要用于发现数据集中项之间的相关联 系。由于关联规则挖掘技术形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关 系,从大型数据库中挖掘关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究 内容。 二、 1 1.1数据挖掘的历史及研究现状 数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,为了更好地利用这些数据,就要进行更高层次的分析。数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但是不能发现数据中存在的关系和规则,无法根据现有的数据对未来的发展进行预测,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 挖掘数据背后的知识可以用数据库管理系统来存储数据、用机器学习的方法来分析数据,两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery In Databases)的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算和专家系统等多个领域。从数据库中发现出来的知识可以在信息管理、过程控制、科学研究和决策支持等多个方面应用1989年8月在美国底特律召开的第一届国际人工智能联合会议的专题讨论会上首次出现在数据库中的知识发现KDD这个术语,它泛指所有从源数据中挖掘模式或联系的方法,包括了最开始的制定业务目标到最终的结果分析。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、数据分析算法、知识表示和知识运用等问题。随着参与人员的不断的增多,KDD国际会议发展为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,而且有30多家软件公司展示了他们的数据挖掘软件产品,很多软件己经在北美、欧洲等国家得到应用。 迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了很多次,会议规模由原来的专题讨论会发展成国际学术大会,研究重点也逐渐从发现方法转向了系统应用,注重了多种发现策略和技术的集成以及多个学科之间的相互渗透。从大型数据库中发现信息或知识已经成为数据库和机器学习领域的一个重要的研究课题,同时很多公司都意识到数据挖掘在提高公司决策能力、增加企业收益、提高企业竞争力等方面将起到重要的作用。数据挖掘发现的知识可以应用于信息管理、决策支持、过程控制等领域,数据挖掘也使数据库领域、机器学习、统计学、知识工程与知识管理、人工智能等领域的专家都对它产生了浓厚的兴趣与爱好。数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段 数据挖掘算法的好坏直接影响到所发现知识的好坏。目前大多的研究都集中在数据挖掘算 法和应用上。人们往往因为不严格区分数据挖掘和数据库中的知识发现,而把两者混淆使 用。通常在科研领域中称之为KDD,而在工程领域中则称之为数据挖掘。 促进数据挖掘诞生、发展和应用有许多原因,主要有以下四种: (1)大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖已生存的基础 (2)先进的计算机技术,尤其是网络技术和并行处理体系的发展,使大量办公室人 员得以摆脱繁重的日常信息处理工作,提高了工作效率的同时也节省了时间,有多余的时 间和精力对激增的数据进行高层次的分析,从中寻找对企业战略发展有重要意义的商业规 律和市场趋势。 (3)经营管理的需要。企业经营管理者迫切希望能够利用数据挖掘技术从企业积累 的大量历史数据中找到有价值的信息,来应对日趋严重的竞争压力。 (4)数据挖掘的精深计算能力。大规模数据挖掘需要复杂和精深的计算能力,这些 精深的计算能力主要是基于统计学、集合论、信息论、认识论和人工智能等各种学科理论 而促进数据挖掘诞生和发展的中坚力量正是这些精深的计算能力。 因此,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有了大规模数据库、高 效的计算能力、经营管理的压力和有效的计算方法后的产物,是从数据库或其他信息库中 存放的大量数据中挖掘有用知识的一个过程。 数据挖掘(Data Mining,简称DM),也称知识发现,是从海量数据中提息的工具,被描述为从数据中抽取出隐含的、具有潜在用途的、人类可理解的挖掘通过发现有用的新规律和新概念,提高人们对大量、看似不相关数据的更解、认识以及应用。数据挖掘技术是目前国际上数据库和信息决策领域最前沿之一,同时也是学术界和商业界共同关注的热点问题。 2.1数据挖掘的概念 数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理 法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效 有用的知识。 Bhavani(1999)定义数据挖掘为:The proeess of diseovering meaningful new correlation Patterns,and trends by sifting through large amount of stored data,using pattern reeogniti technologies and statistieal and mathematical technologies。(数据挖掘是从大量存储的数据中 利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。) 也就是说,数据挖掘(Date Mining)就是从大量的、不完全的、有噪声的、模糊的 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的并最 可理解的信息和知识的非平凡过程。 我们可以把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可是结构化的(如关系数据库中的数据),也可以是半结构化的(如文本、图形、图像数据还可以是分布在网络上的异构型数据。数据挖掘就是从大量的原始数据中提取或者“挖掘 知识的过程。 数据挖掘与传统的数据分析(如查询、报表、联机分析处理)不同在于,数据挖掘在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前知、有效和可实用三个特征。先前未知的信息是指事先没有预料到的信息,也就是说数挖掘是要发现那些不能单靠直觉发现的信息或知识,甚至有可能是违背直觉的信息或 识,挖掘出的信息越是出乎意料,可能就越有使用价值。而且它又是一个非平凡的过程 即挖掘过程不是线性的,而是反复和循环的,所挖掘到的知识也不是通过简单的分析就 容易得到,很有可能是隐含在表面现象的内部,所以它需要应用一些专门处理大数据量 数据挖掘工具,经过大量的数据比较分析才能取得。 鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性课题。目前数据挖掘研究人员、系统和应用开发人员所面临的主要挑战有数据挖掘语言设计、高效而有用的数据挖掘方法和系统的开发、交互和集成的数据挖掘环境的建立以应用数据挖掘技术解决大型实际应用问题。 2.2数据挖掘的功能 数据挖掘的功能主要是从数据库中发现隐含的、有意义的知识[11]。数据挖掘的任务 要是:描述性挖掘和预测性挖掘。数据挖掘的功能以及它们可以发现的知识类型有以下 种: 1.通过概念性描述发现广义知识(Generalization) 广义知识指对数据的概括、精炼和抽象,是对类知识的概念性描述。概念性描述是 某类对象的内涵进行描述,并概括此类对象的有关特征。概念性描述分特征性描述和区 性描述,特征性描述主要对某类对象的共同特征进行描述,区别性描述主要是对不同类 象之间的区别进行描述。在生成一个类的特征性描述时只涉及该类对象中所有对象的性,而生成区别性描述的方法却很多,如决策树方法、遗传算法等等。 概念性描述对类特征进行描述的方法和实现技术很多,如数据立方体、面向属性的纳等。数据立方体还可以看作是“多维数据库”、“实现视图”、“OLAP”等。该方法的本思想是实现一些常用的代价较高的聚集函数的计算,例如计数、求和、求平均值、求大值等,并把这些实现的视图存储在多维数据库中。因为很多的聚集函数需要经常重复计算,因此在多维数据立方体中存放预先计算好的结果就能保证快速响应,并能灵活地供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大SimFraser大学提出的面向属性的归纳方法。这种方法和SQL语言表示的数据挖掘查询相类似先收集数据库中的相关数据集,然后在相关的数据集上应用一系列的数据推广技术进行据推广,包括属性的删除、概念树的提升、属性阈值的控制、计数及其他聚集函数的传等。 2.通过关联分析发现关联知识(Association) 数据关联也是数据库中存在的一类重要的可以被发现的知识。如果在两个或多个变之间取值时存在某种规律,这种规律就称为数据关联。数据关联有简单关联、时序关联因果关联等。 关联知识是反映事件与事件之间依赖或关联的知识。如果两项或多项属性之间存在联,那么其中一项的属性值就可以依据其他属性的值进行预测。关联分析的目的是分析数据库中所隐含的关联网。最著名的关联规则发现方法是R.Agrawal提出的Apriori算法关联规则的发现分两步,第一步:迭代识别所有的频繁项目集,要求频繁项目集的支持高于用户设定的最低值;第二步:从频繁项目集中构造可信度高于用户设定的最低值的则,识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 3.通过分类和聚类方法发现分类知识(Classification&Clustering) 分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识基于决策树的分类方法是最为典型的分类方法。它从实例集中构造决策树,再根据练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选一些例外加入到窗口中,重复该过程一直到形成正确的决策集,最终结果是一棵树,其结点是类名,中间结点是带有分枝的属性,该分枝对应属性的某一可能值。常用的分类术还有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集和模糊逻辑等。 聚类方法是把数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的似度,而不同簇中的对象差别较大。聚类与分类不同,它要划分的类是未知的。相似度根据描述对象的属性值来计算的。聚类分析广泛应用于模式识别、数据分析、图像处理市场研究。在电子商务上,聚类分析能帮助市场分析人员从客户基本库中发现不同的客群,并且用购买模式来刻画不同的客户群的特征。利用聚类分析还可以将市场按顾客的费模式相似性分为若干细分的市场,制定有针对性的市场策略,提高销售业绩。聚类技有划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。 4.通过预测方法得到预测型知识(Prediction) 预测型知识指根据时间序列型数据,由原始数据和当前的数据去推测未来的数据,是以时间为关键属性的关联知识。 目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年B和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法过建立随机模型(如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季7 调整模型等)进行时间序列的预测。由于大量的时间序列不是平稳的,其特征参数和数 分布随着时间的推移也发生变化,仅仅通过对某段原始数据的训练,建立单一的神经网 预测模型,还不能完成准确的预测任务。因此,提出了基于统计学和基于精确性的再训 方法,当发现现存预测模型不再适用于当前的数据时,需要对模型重新训练,获得新的 重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。 5.通过偏差检测得到偏差型知识(Deviation) 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差型知 就是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如分类中的反常实例、 满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。所有这些知识 可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以 足不同用户不同层次决策的需要。 偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。 2.3数据挖掘的体系结构 数据挖掘是一个复杂的过程,因此数据挖掘的结构也比较复杂。典型的数据挖掘体 结构是一个三层的结构,如图2-1所示,从下向上分别是:数据层,数据挖掘引擎,用 界面[13]。 1.数据层。数据挖掘的对象是数据。为了便于挖掘,各种来源的数据经过预处理( 据的清洗、数据的集成、数据的过滤等)以后,都将存于一个统一模式的数据库或者数 仓库内。这个模式的设计综合考虑挖掘任务、实施算法、数据的特点等各种因素,可以 挖掘能够最优化。 2.数据挖掘引擎。数据挖掘引擎内集成了数据挖掘的算法。它根据知识库、挖掘 据库或者数据仓库中的数据得到许多模式,然后对这些模式进行评估、筛选,最终可以 到有意义的且用户感兴趣的模式。 3.用户界面。用户界面是人机交互的界面。用户界面将这些模式用直观的且易于 户理解的方式表现给用户。另外,用户可以(有时也必须)通过用户界面指导模式评估 挖掘引擎、数据的组织模式。 2.4数据挖掘的过程 数据挖掘是一个多步骤的处理过程,该过程从大型数据库中挖掘先前未知的、有效的 可实用的信息,并使用这些信息做出决策或丰富知识。这个过程是交互和迭代的,其中 多过程需要用户的参与。 数据挖掘过程主要包括四个步骤如图2-2所示:问题定义/确定业务对象、数据准备 数据挖掘、结果表达和分析。虽然我们把各个步骤按顺序排列,但数据挖掘过程并不是 性的。要取得好的结果就要不断反复和重复这些步骤]。 图2-2数据挖掘视为知识发现过程的一个步骤 1.问题定义 清晰地定义业务问题和认清数据挖掘的目标是进行数据挖掘的第一步,也是最重要 步。要想充分发挥数据挖掘的价值,首要的条件是要对用户的目标有一个清晰明确的定义 因此,在挖掘之前要明确业务的目标和需求。 2.数据准备 确定好挖掘目标后,就要开始为挖掘准备相关的数据。准备数据就是根据挖掘需求 集资料,并建立可挖掘的数据库。准备数据所花费的时间在整个数据挖掘过程中是最多的 这一阶段主要分为两步:第一步根据挖掘目标建立合理的数据库模式即数据选取; 二步是对数据进行预处理。 根据用户的挖掘目标,搜索所有与业务对象相关的内部和外部数据信息,并从数据 中提取与挖掘相关的数据。它与对数据进行采样和选择预测变量是有区别的,这里只是 略的除去一些冗余或无关的数据。为了进一步的分析数据,提高挖掘效率,去除无用或 关的信息,整理不完整的、含噪声的和不一致的信息,确定将要进行的挖掘操作的类型 我们必须对数据进行预处理。 数据预处理就是对选取出的数据进行加工,把这些不完整的、含噪声的和不一致的 据转化为完整的、不含噪声的和一致的数据。 数据预处理一般包括数据清理、数据集成、数据变换、数据归约等阶段。 (1)数据清理。主要用来填充缺漏的值,光滑噪声并识别离群点,去掉数据中的噪声 并纠正数据中的不一致。 (2)数据集成。数据的来源有可能包括多个数据库、数据方或者普通文件。来自多 数据源的数据被数据集成整合成一致的数据存储的形式,如数据仓库。其中可能会存在 式集中的错误、数据冗余和重复、数据值冲突的问题。使用元数据、相关分析等有助于 据的顺利集成。元数据可以帮助避免模式集中的错误,而相关性分析技术可以检测到冗余 (3)数据变换。将数据转换成适合于挖掘的形式。数据转换可能涉及如下内容: 平滑:数据库中有可能存在各种错误数值(如身份证号码有可能被粗心的数据录入 员录入为联系方式)和空缺值。这些都可能会最终影响模型的质量,因此必须要通过采 分箱、聚类和回归等技术来修正错误和填充空缺的数值。 聚集:对数据进行汇总或聚集。例如,根据每日的收入金额,可以计算出月和年的 入金额。这一步通常是用来为多粒度数据分析构造数据立方体。 数据泛化:可以使用概念分层,把低层或“原始”数据替换为高层概念。例如,分10 的属性如产品名称,可以泛化为较高层的概念如小商店或超级市场。同样的,货币属性 金额,可以映射到较高层概念如低档、中档和高档。 规范:满足有些算法和工具对数据范围有要求,需要对原始数据按一定的进行比例 放,使它有一个特定的区间,如神经网络要求所有的变量都在0-1之间。 属性构造:一般情况下有些数据需要从原始数据中衍生出一些新的属性来提高数据 掘的效率和可靠性。 (4)数据归约。在海量数据上进行复杂的数据分析和挖掘需花费很长的时间,这 分析是不现实和不可行的。使用数据归约技术可以得到数据集的归约表示,它虽小得多 但仍接近保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并可以产生 同或几乎相同的分析结果。数据归约的策略如下: 数据立方体聚集:聚集操作主要用于数据立方体结构中的数据。 属性子集选择:可以检测并删除不相关、弱相关或冗余的属性或维。 维度归约:使用编码机制减小数据集的规模。 数据归约:用替代的和较小的数据表示替换或估计数据,如聚类、抽样和使用直方 等。 离散化和概念分层产生:用区间值或较高层的概念来替换属性的原始数据值。数据 散化是一种数据归约形式,对于概念分层的自动产生是有用的。离散化和概念分层产生 数据挖掘有力的工具,允许挖掘多个抽象层的数据[11]。 3.数据挖掘 根据对问题的定义明确挖掘的任务和目标,首先选择合适的数据挖掘算法进行挖 (如关联模式、序列模式、聚类模式、分类模式等),然后建立并选取合适的模型和参数 利用已知数据对模型进行训练和测试,最后应用该模型从而得到挖掘结果。挖掘数据的 程就是按照人们设计的“模型”对数据进行处理、分析、预测的过程。当然,一种算法 工具不可能单独完成所有数据的挖掘,通常也很难一开始就能决定选择哪种算法是最适 所面临的问题,因此需要建立不同的模型(参数或算法),从中选择最好的。 4.挖掘结果的表述和评价 这个阶段分为结果表述和结果评价两个步骤。将挖掘出的结果以一种易于理解的形 表示出来,并进行分析和评价。具体包括消除无关的、多余的模式,过滤出要呈现给用 的信息。利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示,转化为用户 以理解的语言。成功的应用数据挖掘技术可以把原始数据转换为更简洁、更易理解、可确定义关系的形式,此外还可以解决发现的结果与以前知识的潜在冲突及利用统计方法 模式进行评价,从而决定是否需要重复以前的操作,以得到最优、最适合的模式。我们 可将分析所得到的知识集成到业务信息系统的组织结构中去,实现知识的同化。 综上所述,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投 的过程,这一过程要反复进行。在反复过程中,不断地趋近事物的本质,不断地优化问 的解决方案[16]。 2.5数据挖掘的主要技术 11 数据挖掘的研究融合了多个不同学科领域的技术与成果,使目前的数据挖掘出现多种 多样的技术。利用这些技术方法可以检查那些异常形式的数据,利用各种统计模型和数学 模型对这些数据进行解释,找出隐藏在这些数据背后的市场规律和商业机会[17][18]。 1.分类分析 分类是找出一个类别的概念描述,它代表了这类数据的整体特点,即该类的内涵描述, 一般用规则或决策树模式表示。在电子商务中通过数据挖掘对顾客进行细分,如发现在线 订购儿童用品的客户中有70%是25~35岁生活在大中城市的年轻妈妈。得到分类,针对这 类客户的特点展开商务活动,有针对性的提供个性化服务。 2.关联分析 关联分析的目的是挖掘隐藏在数据间的相互关系。关联分析常用的技术有关联规则和 序列模式。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如商场销售分析, 利用关联规则可以找到在一次购买活动中所购不同商品的相关性。关联规则典型算法— Apriori算法,从事务数据库中挖掘用户访问模式,是一种最有影响的挖掘布尔关联规则 频繁项集的算法。序列模式用于寻找事件之间在时间上的相关性,比如对股票涨跌的分析。 3.聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类。由聚 类所生成的簇是一组数据对象的集合,同一个簇中的对象彼此相似,个体之间的距离较小; 不同簇中的对象相异,个体之间距离则偏大。常用方法包括k-means算法、分层凝聚法 (Hierarchical Agglomerative Methods)及采用估算最大值法(Rstimation Maximization Algorithm)。 在电子商务中,聚类分析可以帮助市场分析人员从客户信息库中发现不同的客户群, 通过购买模式来分析不同的客户群的特征。根据顾客的消费模式相似性可以将市场划分为12 若干细分的市场,从而制定有针对性的市场策略,提高销售业绩。 4.神经网络 神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。 为解决复杂度很大的问题神经网络提供了一种相对来说比较有效的简单方法,近几年越来 越受到关注。神经元网络模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建 立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理基于电子商 务Web的数据挖掘技术研究和全局集体的作用、高度的自学习、自组织和自适应能力等优 点。神经网络经常用于分类和回归两类问题,是建立在可以自学习的数据模型的基础之上。 它可以分析大量复杂的数据,完成对于人脑或其他计算机来说非常复杂的模式抽取及趋势 分析。神经网络很适合非线性数据和含噪声数据,所以广泛应用于市场数据库的分析和建 模方面。 5.决策树 决策树是一种树型结构的预测模型,其中树的每个结点表示属性,叶子结点表示所属 的不同类别。树的最高层结点是根结点。根据决策树的结构对数据集中的属性值进行测试, 从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测,进行反复修剪后 转化为规则。决策树是通过一系列的规则对数据进行分类的过程。决策树方法主要应用于 数据挖掘的分类方面。 6.遗传算法 遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来 生成后续的假设。其基本思想是:随着时间的更替,只有适合的物种才能得以进化。将这 种思想用于数据挖掘就是根据遗传算法获得最适合的模型,并据此对数据模型进行优化。 也就是说,模仿生物进化的过程,反复进行选择、杂交和突变等遗传操作,直到达到最优 解。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强 的个体,产生新种群(后代)的过程;交叉(重组)选择两个不同个体(染色体)的部分 (基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异 的过程。在数据挖掘中,可以被用作评估其他算法的适合度。 7.统计分析法 在数据库或者数据集的各项之间建立两种关系,即能用函数公式表示确定关系的函数 关系和不能用函数公式表示但有相关确定关系的相关关系,可采用回归分析、相关分析、 主成分分析等方法对它们的进行分析。13 在电子商务等各个领域中,人们将多种数据挖掘技术结合,利用多种数据挖掘技术来 实现不同需求以达到最佳效果。 2.6数据挖掘的应用领域 数据挖掘工具的出现,使数据挖掘技术在各个领域中得到了广泛的应用。它的应用主 要体现在以下几个方面[11][19][20]: 1.科学研究 在信息量极为庞大的军事、航天、生物技术等领域中,实验和观测所获得的数据量非 常庞大,传统的数据分析工具已不能满足海量数据的分析,这就需要一种强大的智能性自 动数据分析工具。这种需求推动了数据挖掘技术在科学研究领域的应用发展,并取得了一 些重要的成果,如在自然科学、生物科学、社会科学等领域中获得了很多的重要应用成果。 2.商品零售业 零售业是数据挖掘的主要应用领域,特别是日益增长的电子商务上的商业方式的方便 和流行,数据量的不断迅速膨胀,积累了大量的销售数据,如顾客购买历史记录、货物的 运输、消费与服务记录等。大量的数据增加销售的难度,而销售的目的是能够获得最大的 利润,因此销售什么样的商品、采用什么样的销售策略能够使利润最大化成为商家最关心 的问题。通过数据挖掘(关联规则挖掘)能够有助于识别顾客的购买行为,发现顾客的购 买模式和趋势,设计更好的商品运输与分销策略以减少商品成本,改进服务质量取得顾客 的支持和满意,从而提高商品销量比率,促进利润达到最大化。 3.金融投资业 大部分银行和金融机构都提供多种多样的银行服务(如用于商业或个人用户的支票、 存款)、信用服务(如交易、抵押和各种货款等)和投资服务(如共同基金)等,有的还 提供了保险服务和股票投资服务。在这些服务过程中会产生相对较完善、可靠和高质量的 数据,大大方便了系统化的数据分析和数据挖掘。利用数据挖掘对已有数据进行处理,通 过挖掘到的模式进行市场预测,选择最佳的投资方向,降低金融投资的风险,如进行银行 业务过程中,可以根据客户的收入水平、偿还与收入比率和学历水平等来进行贷款偿还预 测和客户信用政策分析,尽量降低银行的贷款风险,同时对信用度不同的客户调整贷款发 放政策。金融数据的分析还可以帮助侦破洗黑钱和其他金融犯罪活动。 4.电信业 电信业己经迅速地从单纯的提供市话和长途服务演变为提供综合电信服务,如语音、传真、移动电话、图形、E-mail、计算机、Web数据传输以及其他数据通信服务等。利用 数据挖掘技术分析电信网络运行过程中存在的警告信息,从而得到一些有价值的信息,将 挖掘到的信息用于网络故障的定位检测和严重故障的预测,有效地管理电信网络。数据挖 掘技术还可以帮助理解商业行为、确定电信模式、捕捉盗用行为、识别异常模式、更好地 利用资源和提高服务质量。 5.保险业 随着社会保障体系的日益健全,保险业取得了蓬勃的发展。保险是一项有风险的业务, 进行风险评估是保险公司的一个重要工作。在保险公司建立的表单及索赔信息数据库的基 础上,利用数据挖掘技术来进行风险分析,寻找风险较大的保单,得到一些较实用的控制 风险的规则,来指导保险公司的工作。另外,在保险业中应用数据挖掘技术,有利于保险 公司开展业绩评价、财务预算、市场分析、风险评估和风险预测等,大大提高企业防范和 抵抗经营风险的能力和水平,同时也给管理人员提供了科学的决策依据。 当然,数据挖掘的应用在其他领域也非常广泛。如:在医疗方面,数据挖掘可用于病 情和病例的分析,以及处理药方的管理等;在司法方面,数据挖掘可以用于案件的调查、 案例的分析和犯罪监控,还可以用来分析犯罪行为特征等;在工业部门方面,数据挖掘可 以进行故障的诊断、生产过程的优化等,比如制造行业在质量的控制、制造过程中找出能 影响产品质量的最大因素和提高作业流程的效率等方面;在互联网方面,对检测网络入侵 信息数据的挖掘可以发现异常的访问模式,从而有效地防止黑客的攻击等等。 第五章面向电子商务数据挖掘的分析与应用 很多领域尤其是在商业领域已经应用数据挖掘技术。可以说,是商业领域对数据挖掘 的大量需求导致了数据挖掘技术的研究热潮。数据挖掘技术是伴随着数据库技术和人工智 能技术而发展起来的一种新型的交叉信息技术。一种新的商业模式——电子商务,它积累 了巨大的数据量,因而加大了对数据挖掘的需求。随着电子商务的迅猛发展,数据的安全 性和保密性要求也越来越高,所有这些都致使企业对数据挖掘提出了更高的要求。 5.1面向电子商务数据挖掘特点 电子商务具有一些独特的特点,面向电子商务的数据挖掘和传统商业领域中的数据挖 掘相比有以下几个特点[64][65]: 1.面向电子商务数据挖掘的任务主要表现在客户关系管理方面。由于Internet的存在, 电子商务使企业和客户之间的交流更加方便、频繁和便捷,因此,企业更多的需求是如何 通过电子商务的数据挖掘掌握更多客户的信息动态,以便改进企业与客户交流的方式和提 出新的交流内容等。 2.电子商务本身是一个信息化非常完全的系统,所积累的数据通常存储在电子商务 系统的数据库中,这些数据库一般是分布式的,而用户主要是从网络上获取这些数据,因 此对电子商务使用的数据挖掘主要是分布式数据挖掘。 3.电子商务数据挖掘的目的是提高企业竞争力,但是电子商务领域中的数据挖掘提 高企业竞争力的方式通常是对电子商务系统的改进。比如给客户推出个性化页面,把用户 最感兴趣的信息放在首页,从而更能吸引用户,当然,也存在一些其他的情况,比如挖掘 出某些比较受客户欢迎的特征产品,企业可能增强此类产品的设计和生产。总体上来看, 电子商务对数据结果的应用通常是针对电子商务系统的。 38 数据挖掘部分是一个独立的三层结构。最底层是数据层,主要是数据库和其他数据源 这些数据源是电子商务系统的关系数据库系统、专业知识和其它的数据源,它们是最原始 的数据。中间层是挖掘层,主要是可挖掘的数据库(通常是多维数据库)和挖掘引擎,通过 对数据预处理从数据层得到的数据,把从数据层得到的数据按照设计好的数据库模式载入 可挖掘的数据库,然后利用挖掘引擎进行挖掘。最顶层是用户界面,主要与用户进行交互, 用户通过这个接口来指导挖掘的过程,挖掘通过这个接口向用户返回挖掘的结果,这个结 果通常是可视化的。 除了部分挖掘以外,还包括用户和电子商务系统两个部分。电子商务系统是向客户提 供服务的系统,在运行的过程中产生了很多信息,这是挖掘系统工作的基础,在整个系统 中用户是必不可少的。用户在挖掘的过程中与数据挖掘系统进行交互,起指导作用。最后 挖掘系统得出结果,并把结果在数据挖掘系统中表现为:提出新的商务策略或修改电子商 务网站。39 5.3电子商务中进行数据挖掘的优势 在Internet电子商务中,虽然每个用户在不同的时期会有不同的访问模式,但其长期 趋势是稳定的。因此通过分析一定时期内商务站点上的用户的访问信息,可以发现该站点 潜在的客户群体、聚类客户、相关页面等,这些信息对于电子商务网站来说是非常有价值 的[67]。 1.驻留客户,挖掘潜在客户 电子商务跨越了时间、空间距离,客户可以自主选择销售商。而销售商通过挖掘客户 访问信息,了解客户的浏览行为,根据客户的兴趣与需求,向客户做动态地页面推荐和提 供定制化的产品,提高客户满意度,延长客户驻留的时间,最终达到留住客户的目的。 在留住老客户的同时也要善于挖掘新客户,利用分类技术可以在Internet上找到潜在 客户,通过挖掘Web日志记录,先对已经存在的访问者进行分类,然后从它的分类可以找 到潜在的客户。 2.制定产品营销策略,优化促销活动 对商品访问情况和销售情况进行挖掘,企业能够获取客户的访问规律,确定顾客消费 的生命周期,根据市场的变化,针对不同的产品制定相应的营销策略。 3.降低运营成本,提高企业竞争力 通过Web数据挖掘,电子商务的经营者可以得到可靠的市场反馈信息,分析顾客的 未来行为,有针对性的进行电子商务营销活动;根据产品的访问者的浏览模式来决定广告 的位置,增强广告针对性,提高广告的投资回报率,从而降低运营成本,提高企业竞争力 4.进行个性化推荐 根据挖掘客户活动规律,有针对性的在电子商务平台下提供“个性化”的服务。个性 化服务是指针对不同的用户提供不同的服务策略和服务内容的服务模式,其实质就是以用 户需求为中心的Web服务。它通过收集和分析用户信息来了解用户的兴趣和行为,进而实 现主动推荐服务。因此,通过网络提供的个性化服务可以有效地解决用户“信息过载”和 “信息迷失”的困境,还可以帮助企业建立友好的客户关系。 5.完善电子商务网站设计 通过对客户的行为记录和反馈情况进行挖掘,为站点设计者提供改进的依据,从而站 点设计者可以进一步优化网站组织结构来提高网站的点击率。利用关联规则,针对不同客 户动态调整站点结构,使客户访问的有关联的文件之间的链接更直接,客户可以方便地访问到想要访问的页面,具有便利性。提高站点质量,给客户留下好印象,增加下次访问的 机率。另外,对网站上各种数据的统计分析有助于改进系统性能,增强系统安全性,并提 供决策支持。 6.聚类客户 在电子商务中客户聚类是一个重要的方面。首先,找出Web中具有相似浏览模式的客 户。然后,通过对具有相似浏览行为的客户进行分组,分析组中客户的共同特征,帮助电 子商务的组织者更好的了解自己的客户,向客户提供更适合、更面向客户的服务。最后, 进行模式分析,挖掘出人们可理解的知识的模式解释。 数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘技术应用 于电子商务方面无疑是非常有益的,它可以全面地分析商品之间隐藏的内在联系,比如, 通过数据挖掘工具分析客户购买记录得到相关信息数据库系统,可以找到不同商品之间的 联系,进而分析顾客的购买习惯,提供个性化服务。通过数据挖掘分析,其分析结果能给 企业带来前所未有的收获和惊喜,这是传统商务无法具备的。 40 1.确定挖掘对象、目标。了解数据挖掘和电子商务相关领域的有关情况,熟悉有关 背景知识,并弄清楚用户的要求。挖掘的最后结果是不可预测的,但对要探索的问题要有 预见性,不能盲目的进行挖掘。 2.数据收集。这是一个工作量较- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 电子商务 中的 应用
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文