基于股票时间序列数据的关联规则挖掘研究-文献综述报告.doc
《基于股票时间序列数据的关联规则挖掘研究-文献综述报告.doc》由会员分享,可在线阅读,更多相关《基于股票时间序列数据的关联规则挖掘研究-文献综述报告.doc(11页珍藏版)》请在咨信网上搜索。
1、南昌大学2003级硕士学位论文文献综述报告基于股票时间序列数据的关联规则挖掘研究Study on Mining Association Rules from Stock Time Series Data 系 别: 计算机科学与技术系专 业: 计算机应用技术研究方向: 人工智能研 究 生: 一引言随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(time series)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集1,如金融证券市场中每天
2、的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模
3、式挖掘等2。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。二股票时间序列传统研究方法概述随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能
4、有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类3:一类是基本分析和技术分析,另一类是经济统计分析。1基本分析和技术分析在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法4。基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断
5、大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。2经济统计学分析主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于5:分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究;预测时间序列的未来发展情况。传统的时间序列数据分析最基本的理
6、论是40年代分别由Norbor Wiener和Andrei Kolmogomor提出的。20世纪70年代,G.P.Box和G.M.Jenkins发表专著时间序列分析:预测和控制,对平稳时间序列数据提出了自回归滑动平均模型(ARMA),以及一整套的建模、估计、检验和控制方法,使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信息会对当前的股票价格产生一定程度的影响。采用的方法一般是在连续的时间
7、流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集6。7基于股票时间序列是一种混沌时间序列的认知,提出一种新颖的非线性时间序列预测模型,即滑动窗口二次自回归(MWDAR)模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内,系统的行为却可以用某种线性模型近似。8则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。可以看出,经济统计学为问题的探索解决方案提供
8、了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是,在大量数据集中往往存在一些未被人们预期到但又具有价值的信息,人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。三数据挖掘技术应用于股票时间序列分析的研究现状数据挖掘(DM,Data Mining),也称为数据库中的知识发现(KDD,Knowledge Discovery in Database)是数据库技术和机器学习等人工智能技术相结合的产物,是一门新兴的数据智能
9、分析技术9。20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(MIS)和网络数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟,导致了“信息爆炸”但“知识贫乏”的现象。到了90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成了数据挖掘技术的诞生。所谓数据挖掘,简单地说,就是从大量数据中提取或挖掘知识2;详细一点可以描述为主要利用某些特定的知识发现算法,在一定的运算效率的限制下,从大量的数据中抽取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算
10、法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1相关技术介绍(1)关联规则挖掘关联规则是美国IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出来的KDD研究的一个重要课题10。关联规则挖掘本质是从大量的数据中或对象间抽取关联性,它可以揭示数据间的依赖关系,根据这种关联性就可以从某一数据对象的信息来推断另一对象的信息。它可以做如下形式化定义:设I = i1,i2,.,im是一组项的集合(例如一个商场的物品),D是一组事务集(称之为事务数据库)。D中的每个事务T是项的集合,且满足TI。称事务T支
11、持物品集X,如果XT。关联规则是如下形式的一种蕴含式:XY,其中XI,YI,且XY= f。(1) 称关联规则XY在事务数据库D中具有大小为s的支持度,如果物品集XY的支持度为s%,即support(XY)=P(X U Y)。(2) 称规则XY在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y,即confidence(XY)=P(Y|X)。从语义的角度来分析,规则的可信度表示这条规则的正确程度;支持度表示用这条规则可以推出百分之几的目标,即这一规则对于整体数据的重要程度。用户可以定义二个阈值,要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的
12、阈值。这样,就用蕴含式、支持度和可信度唯一标识了每一个挖掘出来的关联规则。已知事物数据库D,关联规则的挖掘问题就是产生支持度与置信度分别大于用户给定的最小阈值的所有关联规则。该问题分两步来求解:第一步是找出事务数据库D中所有满足条件的具有用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项集。第二步是从频繁项集中构造可信度不低于用户要求的规则。形式地,对于每一个频繁项目集A,找出A的所有非空子集a,如果比率support(A)/support(a)min_conf(可信度),就生成关联规则a(A-a)。识别或发现所有的频繁项集是关联规则挖掘算法的核心,也是计算量最大的部分。目前已有不少
13、挖掘频繁项集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法11,其核心是利用这样一个性质:频繁项集的所有非空子集都是频繁的。基于这样的先验知识,Apriori使用一种“逐层搜索“的迭代方法,k-项集用于探索(k+1)项集。首先找出频繁1-项集,记作L1;用L1找频繁2-项集L2;而L2用于找L3,如此下去,直到不能找到频繁k-项集。虽然Apriori算法能最终挖掘出所有的关联规则,但由于处理的数据量非常大,因而算法的效率显得十分重要。后来的一些研究人员对算法的连接和剪枝过程进行各种优化。如12提出了称为AprioriTid的改进算法,该算法提出了在每一步(
14、第一步除外)计算候选频繁项集的支持度时不需要浏览整个事务数据库。它认为不包含任何k-项集的事务不可能包含任何k+1项集,这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(jk),扫描数据库时不再需要它们。该算法的本质是压缩进一步迭代扫描的事务数。而13提出的AprioriPro算法,其基本思想与AprioriTid是一致的,也是减少对数据集的扫描,不同的是AprioriPro算法是通过在原有的数据集上增加一个属性,通过这个属性的取值来减少对某些事务的扫描。14是结合Apriori和AprioriTid两种算法,提出了一种混合挖掘算法AprioriHybrid,其基本思想是在
15、扫描的早期使用Apriori算法,当候选模式集中记录条数小到可以放进内存时就转向AprioriTid算法。这些改进算法虽然比Apriori算法在挖掘效率上有一些提高,但本质上没有什么区别,都要在挖掘过程中生成大量的候选模式集。“有没有这样的算法,挖掘全部的频繁项集而不产生候选?” 1999年Han等人提出FP-Growth算法15,以及 Agrawal等人提出的树投影(Tree Project)16关联规则挖掘算法就是这样的算法,它们在性能上均获得了突破,与Apriori算法相比,挖掘效率有了数量级的提高。利用FP-Tree 可以压缩事务数据集,压缩有的达到100多倍;而树投影方法从原理上讲是
16、适应任何数据集的,无论其据量多大该算法都能有效运行,从而使得关联规则挖掘可以应用于海量数据的挖掘和稠密数据集的挖掘。除了上述关联规则挖掘的经典算法之外,人们着重在以下几个方面对关联规则进行了研究。(1)继续通过各种手段提高挖掘效率。这方面包括对原有算法的进一步改进17,18;提出一些并行挖掘算法19,20、增量算法21以及带约束的关联规则挖掘策略(元规则制导关联规则挖掘)22,23。(2)不同形式关联规则的研究。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本关
17、联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法24,由单层的关联规则扩展为多层次关联规则的研究25等等。关联规则形式的多样化,反映了人们从不同角度认识同一事物的不同视点,加深了对关联规则的认识与研究。(3)结合其它理论(如软计算理论)对关联规则进行研究。引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度26;通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现27;还有基于遗传算法的多维关联规则挖掘28等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。(4)关联规则的价值评判标准研究。如29分别讨论了
18、关联规则的客观评价指标(支持度、可信度和相关强度)和主观评价指标(新颖性、用户感兴趣性和简洁性),在此基础上给出了一种关联规则的综合自动评价方法。(5)关联规则的应用研究。理论从实践中来,但最终是为了指导实践。关联规则自提出以来,经过无数学者的研究努力,广泛应用于社会生产和科研的各个方面,产生了巨大的效益30,31,32,33。(2)序列模式挖掘序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出来的34。设有一个交易数据库D,每个顾客可在不同时间购买不同物品,每次购买活动称为交易(Transaction)。这里,顾客、交易时间和所购物品分别以Custome
19、r_ID、Transaction_Time和Itemset标识。如果以Customer_ID为第一关键字,Transaction_Time为第二关键字对数据库D排序,那么,对每一顾客而言,他进行的所有交易是以交易时间的升序排列的,从而构成一个序列,称这种序列为顾客序列CS(Customer Sequence)。一般地,令某顾客的各次交易时间为t1,t2,t3,tn,该顾客在交易时间ti购买的物品集记为itemset(i),于是该顾客的CS序列为itemset(t1), itemset(t2), itemset(t3), itemset(tn)。相应地,可以认为上述交易数据库D已转换为顾客序列数
20、据库。如果某序列s包含在某顾客的CS序列中,那么称该顾客支持(Support)该序列s。某序列的支持度为支持该序列的顾客数与顾客序列数据库中顾客总数之比。序列模式就是在上述顾客序列数据库中满足用户指定最小支持度的最长序列。序列模式的问题定义与关联规则很相似,它们之间的区别可以用下列例子描述,关联规则描述的是在一次购物中所购买物品之间的关联关系,而序贯模式则是描述同一顾客在不同次购物所购物品之间可能存在的某种关联关系。换句话说,关联规则仅仅发现事务内部(intra-transaction)的模式,而序列模式则是发现事务之间(inter-transaction)的模式。序列模式的发现方法与关联规则
21、的发现方法大致相同,R.Agrawal在Apriori算法的基础上提出了三个序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome34。AprioriAll算法采用哈希树储存候选序列,将所有的候选序列均储存在哈希树的叶子节点中;将候选序列的记数划分为向前及向后两阶段:向前阶段跳跃性地产生所有特定长度的频繁序列,而向后阶段找出在向前阶段未考虑的频繁序列。 在3536中提出了挖掘具有概念分层、滑动时间窗口及最大和最小时间约束的 GSP(Generalized Sequential Patterns)算法。该算法也采用哈希树存储候选序列,仍将候选序列的记数分为向前及向
22、后阶段,但此法划分向前阶段与向后阶段的目的与实现均与 AprioriAll 算法不同。 PSP(Perfectly Sequential Patterns)算法在37中提出,该算法采用了前缀树结构(而非哈希树)存储候选序列,从而导致该算法的候选序列集的产生和记数均不同与GSP算法; 同时,由于前缀树的每个节点只存储事务中的一项,故与哈希树结构相比较大的节省了内存空间。(3)软计算方法软计算(Soft Computing)是方法论的集合,这些方法集互相协作,并以一种形式或其它某种形式为现实中的模糊情况提供灵活信息处理功能38。它的目的是为了获得易处理的、粗糙的、低成本的解决方法而对不确定的数据进
23、行处理。遵从的原则是以追求近似解决模糊/精确问题,并低成本地设计解决方案。软计算方法主要包括模糊逻辑、Rough集、遗传算法、神经网络等。模糊逻辑是处理不确定性概念及其推理机制的过程,Rough集和神经网络常被用来分类和规则抽取,遗传算法包括最优解和搜索过程,像问题最优解和样本选择。针对时间序列挖掘,软计算方法的应用研究简要介绍如下:模糊逻辑是最早、应用最广泛的软计算方法,模糊逻辑的发展导致了软计算方法的出现。39在挖掘时间序列数据时使用了模糊语言概化;40针对商业销售的智能分析需求,提出了一种基于模糊集合的数据挖掘时间序列模式算法。神经网络是一个黑箱问题,它先前被认为不适合应用于数据挖掘,且
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 股票 时间 序列 数据 关联 规则 挖掘 研究 文献 综述 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。