大数据时代的统计学.doc
《大数据时代的统计学.doc》由会员分享,可在线阅读,更多相关《大数据时代的统计学.doc(11页珍藏版)》请在咨信网上搜索。
1、。大数据时代的统计学摘要:本文主要围绕“大数据”展开话题,结合“统计学”专业,论述了什么是大数据,什么是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程。从中找出大数据与统计学的联系,然后进一步了解在大数据时代下统计学所处的地位以及大数据时代下统计学的变化和发展。在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统计学方法去解决大数据时代下的一些问题,并提出自己的看法。关键词:大数据;统计学;数据挖掘;数据分析引言本文写作的目的在于阐述大数据的定义、历史发展及趋势、运用领域等有关大数据的问题,以及阐述统计学的定义、发展趋势、运用领域等有关统计方面的问题。在此基础上探析
2、大数据时代下的统计学发生的变化,带来的影响,以及所导致的统计学的发展趋势。有关大数据的文献很多,涉及的领域也相当广泛,如互联网、天文学、大气科学、基因组学、大规模电子商务等等,都离不开计算机作为载体,它们都成为了大数据的来源。本文写作主要基于运用统计学知识去处理大数据所涉及问题,而运用统计方法分析问题所涉及的范围也相当广泛。对于大数据的到来,对于统计学来说是福音,因为它为大数据时代处理大数据问题带来了有效的解决方法。本文所引用文献主要来自于2011年到2015年的国内外有关大数据的期刊文献,从不同角度描述了大数据对当今时代的影响,尤其是对本文的另一位主角-统计学的影响。而对于一个统计学专业出身
3、的人,对于大数据时代下统计学的发展有喜有忧,大数据时代的到来在一定程度上促进了统计学的发展,同样的也带来了巨大的挑战。这些都需要我们一步步的解决并完善。正文1 大数据的来源与发展历程“大数据”这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度1-5。不过,大约从2009年开始,“163大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数
4、据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。就这样,“大数据”在不知不觉中进入了我们的生活,无论哪里都有着它的影子,这说明“大数据时代”已经到来。我们可以这样来定义“大数据时代”,大数据时代是建立在通过互联网、物联网等现代网络渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。在这个时代,人们几乎能够从任何数据中获得可转换为推动人们
5、生活方式变化的有价值的知识22。“大数据时代”的到来引起了业界和学界的广泛关注,大量研究成果不断涌现。那么什么是大数据呢?大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是一种大规模数据的管理和利用的商业模式和技术平台的泛指,它与传统的海量数据不同的是,它除了数据规模呈现几何级数增长的特征之外,还包括所有数据类型的采集、分类、处理、分析和展现等多个方面,从而最终实现从大数据挖掘潜在巨大价值的目的18。到目前为止对于大数据还没有统一的定义。对于大数据,其特点18在
6、于:(1)数据体量大。普遍认为PB级的数据为大数据的起点。(2)数据类型繁多。既可以是传统的有因果关系的结构化数据如关系数据库数据,但更多的是诸如网络日志、视频、图片、地理位置信息等等的半结构化和非结构化数据。(3)价值密度低。大数据蕴藏的价值虽然巨大,价值密度却很低,往往需要对海量的数据进行挖掘分析才能得到真正有用的信息,从而产生价值。以视频为例,连续不间断监控过程中,可能有用的数据仅有一两秒。(4) 处理速度快。大数据时代更强调实时分析,而不是批量分析,奉行 1秒定律。即一般要在秒级时间范围内给出分析结果,时间太长就失去价值。基于统计学的角度,我们应该如何理解“大数据”呢?李金昌认为,大数
7、据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据20。2 统计学的发展历程由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态18-20。古典记录统计学形成期间大致在十七世纪中叶
8、至十九世纪中叶。统计学在这个兴起阶段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家拉普拉斯(P.S. Laplace,17491827)。因此,后来比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始。近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。由于这种“描述”特色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。生物统计学派的创始人是英国的高尔登(F. Galton
9、,18221911),主将是高尔登的学生毕尔生(K.Pearson,18571936)。现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。人类历史进入二十世纪后,无论社会领域还是自然领域都向统计学提出更多的要求。各种事物与现象之间繁杂的数量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难以奏效。因此,相继产生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。从描述统计学到推断统计学,这是统计发展过程中的一个大飞跃。统计学发展中的这场深刻变革是在农业田间试验领域中完成的。因此,历史上称之为农业试验学派。对现代推断统计的建立贡献最大的是英国统计学家哥塞特(W.S. Goss
10、et,18761937)和费雪(R.A. Fisher,18901962)。在大数据时代,对统计学来说既是机遇又是挑战,机遇在于大数据的分析主要建立在统计学的基础上对数据进行处理、分析,从而使得大数据“可视化”,而挑战在于,当下传统统计学的方法对于大数据的不适用,这需要我们进一步对统计学进行发展与创新。3大数据时代对统计学的影响统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用; 统计学又是一门生命力及其旺盛的学科,他海纳百川又博采众长,随着各门具体学科的发展不断壮大。毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科
11、面临着重大的挑战。怎样深刻地认识和把握这一发展契机,怎样更好地理解和应对这一重大挑战,这就迫使我们需要澄清大数据的概念明确大数据的特征; 重新审视统计的工作过程提出新的统计思想理念22。3.1 大数据对样本和总体的影响统计利用大数据的目的6是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差26。如果说,传统统计研究的数据
12、是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本数据所进行的分析,其空间十分有限-通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限制-任何种类的数据都来者不拒、也无法抵拒。不难发现,大数据相比
13、于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现; 样本不足以捕捉的某些弱小信息,大数据可以覆盖; 样本中被认为异常的值,大数据得以认可。这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会20。所以说,在大数据时代下,大数据既是样本,也是总体。由于计算机处理技术发生着日新月异的变化,人们处理大规模复杂数据的能力日益增强,从大规模数据中提取有价值信息的能力日益提高,人们将会迅速进入大数据时代。数据时代,不仅会带来人类自然科学技术和人文社会科学的发展变
14、革,还会给人们的生活和工作方式带来焕然一新的变化22。3.2 相关分析变化大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响29-30。近些年,国外已经有很多学者开始注意到大数据时代相关分析方法的重要性,对如何改进相关分析方法进行了研究。Reshef等学者(2011)基于信息论中关于两个事件集合的相关性信息度量提出了一种关于相关性分析的改进方法-最大信息系数(Maximal InformationCoefficien
15、t,MIC)的,可以对变量间的非函数相关关系进行有效的识别。David Lopea-Paz等学者(2013)运用 Copula 转换提出了随机相关系数(Randomized Dependence Coefficient,RDC),并与MIC方法进行了对比,证明前者的时间复杂度更低。Hoang V.Nguyen等学者(2014)根据MIC方法,提出了更一般化的相关分析方法-最大相关分析(Maximal Correlation Analy-sis,MAC),扩展了MIC方法的运用范围,可以对两组变量之间的非函数相关关系进行准确的测量27。新兴的相关分析方法在最近几年涌现,一方面是由于国内外学者看到
16、了大数据分析中传统统计相关分析存在的缺陷,运用传统统计方法已经无法满足大数据时代数据分析的需求;更重要的在于,国内外学者们都看到了大数据时代相关分析思维的重要性,看到了相关分析在特征选择、变量依赖关系识别中的实用性27。大数据时代,相关分析的运用范围之广、重要性之大是我们不能忽略的,也是传统相关分析所面临的巨大机遇。如何以相关分析思路为起点探究新的分析方法,使统计相关分析方法能够更顺应时代的变化,体现出传统统计思维的经典与先进,在大数据下能够发挥作用,即是传统相关分析面临的挑战也是机遇7。3.3 因果分析的变化随着大数据时代的到来,经济中,对于数据的分析发生了很大的变化,从原来的注重因果分析到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 统计学
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。