网络大数据现状与展望.docx
《网络大数据现状与展望.docx》由会员分享,可在线阅读,更多相关《网络大数据现状与展望.docx(13页珍藏版)》请在咨信网上搜索。
1、网络大数据:现状与展望1引言1.1研究与发展现状近年来,随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展,数据的快速增长成了许多行业共同而对的严峻挑战和宝贵机遇,因而信息社会己经进入了大数据(hig Data)时代.大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变.一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合川.网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据. 当前,网络大数据在规模与复杂
2、度上的快速增长对现有IT架构的处理和计算能力提出了挑战.据著名咨询公司IDC发布的研究报告,2011年网络大数据总量为1. 8 ZB,预计到2020年,总量将达到3 5 ZB.IBM将大数据的特点总结为3个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity).首先,网络空间中数据的体量不断扩大,数据集合的规模己经从UBTB到了PB,而网络大数据甚至以EB和ZB(10z1)等单位来计数.IDC的研究报告称,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍以迎合50倍的大数据增长.其次,网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数
3、据.在现代互联网应用中,呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上.这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用.再次,网络大数据往往呈现出突发涌现等非线h状态演变现象,因此难以对其变化进行有效评估和预测.另一方而,网络大数据常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能充分利用这些数据. 近几年,网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活.2012年11月时代杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据
4、的搜集、分析和挖掘.目前,eBay的分析平台每天处理的数据量高达100 PB,超过了纳斯达克交易所每天的数据处理量.为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析. 2012年的双十一,中国互联网再次发生了最大规模的商业活动:淘宝系网站的销售总额达到191亿元人民币.淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求,得益于其对往年的情况,特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析. 网络大数据给学术界也同样带来了巨大的挑战和机遇.网络数据科学与技术作为信息科学、社会科学、网络科学和系统科学等相关领域交叉的新兴学科方向正逐步
5、成为学术研究的新热点.近年,Nature和Science等刊物相继出版专刊来探讨对大数据的研究. 2008年Nature出版的专刊“BigData,从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方而介绍了海量数据带来的眺战叫.2011年Science推出关于数据处理的专刊Dealing with Data,讨论了数据洪流(Data Deluge)所带来的机遇川.特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用.1. 2网络大数据研究的意义 总体而言,网络大数据研究的重要性体现在以下几个方而: (1)网络大数据的研究对捍卫国家网
6、络空间的数字主权,维护社会稳定,推动社会与经济可持续发展有着独特的作用.信息化时代,国家层而的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力.国家在网络空间的数字主权也将是继海、陆、空、天四空间之后另一个大国博弈的空间.在网络大数据领域的落后,意味着失守产业战略制高点,意味着国家安全将在网络空间出现漏洞.为此,今年3月,美国政府整合6个部门投资2亿美元启动“大数据研究和发展计划”.在该计划中,美国国家科学基金会提出要“形成一个包括数学、统计基础和计算机算法的独特学科”.该计划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引发教育和学习的变革.这意味
7、着网络大数据的主权己上升为国家意志,直接影响国家和社会的稳定,事关国家的战略安全. (2)网络大数据是国民经济核心产业信息化升级的重要推动力量.“人、机、物”三元世界的融合产生了大规模的数据,如何感知、测量、利用这些网络大数据成为国民经济中许多行业而临的共同难题,成为这些行业数字化、信息化的障碍和藩篱.如何使不同行业都能突破这一障碍,关键在于对网络大数据基本共性问题的解决.譬如,对于非结构化数据的统一表示与分析,目前缺少有效的方法和工具.因此,通过对网络大数据共性问题的分析和研究,使企业能够掌握网络大数据的处理能力或者能够承受网络大数据处理的成本与代价,进而使整个行业迈入数字化与信息化的新阶段
8、.在这个意义上,对网络大数据基础共性问题的解决将是新一代信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,也是行业用户提升竞争能力的新动力. (3)网络大数据在科学和技术上的突破,将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业.网络数据科学与技术的突破意味着人们能够理清数据交互连接产生的复杂性,掌握数据冗余与缺失双重特征引起的不确定性,驾驭数据的高速增长与交叉互连引起的涌现性(Emergence),进而能够根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧,最终达到充分利用网络数据价值的目的.涌现性是指由低层次的多个元素构成高层次的系统时展示出的每个单一元素所不具备
9、的性质.网络数据不再是产业环节上产生的副产品,相反地,网络数据己成为联系各个环节的关键纽带.通过对网络数据纽带的分析与掌握,可以降低行业成本、促进行业效率、提升行业生产力.因此,可以预见,在网络数据的驱动下,行业模式的革新将可能催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业. (4)大数据引起了学术界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命.科学研究最初只有实验科学,随后出现了理论科学,研究各种定律和定理.由于在许多问题上,理论分析方法变得太过复杂以至于难以解决难题,人们开始寻求模拟的方法,这又产生了计算科学.而大数据的出现催生了一种新的科研模式,
10、即而对大数据,科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象.2007年,己故的图灵奖得主吉姆格雷( JimUray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm),把数据密集型科学从计算科学中单独区分开来.格雷认为,要解决我们而临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法. 网络大数据的深挖掘、大规模利用是新兴产业界的立足点.即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来
11、说就是来源于应用的问题.著名出版公司() Reilly的创始人Tim O Reilly断言,大数据就是下一个Intel Inside,未来属于那些能把数据转换为产品的公司和人群.MUI的研究报告也宣称,大数据是下一代革新、竞争力和生产力的先导,网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益.Uartner公司则更具体地预测,到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%.本文梳理了网络大数据所带来的挑战以及相关的研究体系,从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会计算
12、以及网络数据平台系统与应用4个方而回顾了相关领域的新近发展,探讨了网络大数据研究方向和所而临的挑战,并展望了未来的主要研究方向.2网络大数据带来的挑战 如上所述,网络大数据而临着来自诸多方而的挑战.但从研究的角度来说,根本挑战在于其复杂h、不确定性和涌现性.对这3个基本特性的研究决定着网络大数据的发展趋势、研究进展和应用前景.2. 1网络大数据的复杂性 复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性. (1)数据类型复杂性.信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.相应地,则需要开发新的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 数据 现状 展望
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。