电力大数据处理、存储与分析调研报告.docx
《电力大数据处理、存储与分析调研报告.docx》由会员分享,可在线阅读,更多相关《电力大数据处理、存储与分析调研报告.docx(61页珍藏版)》请在咨信网上搜索。
1、!编号:SY-.!密级:受控Sieyuan电力大数据处理、存储与分析的调研报告编制:审核:思源电气股份有限公司SIEYUAN ELECTRIC CO., LTD.2015年12月传统数据大数据千兆字节-百万兆字节拍字节(PB)-艾字节(EB)集中式分布式结构化半结构化和无结构化稳定的数据模型平面模式已知的复杂的内部关系不复杂的内部关系从时间或成本效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处理和分 析工作。也就是说,必须将数据组织成关系表(整齐的行和列数据),传统的企业级数据仓 库才可以处理。由于需要的时间和人力成本,对海量的非结构化数据应用这种结构是不切实 际的。此外,扩展传统的
2、企业级数据仓库使其适应潜在的PB级数据需要在新的专用硬件上 投资巨额资金。而由于数据加载这一个瓶颈,传统数据仓库性能也会受到影响。(1ZB=1O24EB , 1EB = 1024PB, 1PB = 1024TB , 1TB = 1024GB)3.2、Hadoop大数据新方法在Hadoop出现之前,高性能计算和网格计算一直是处理大数据问题主要的使用方法和 工具,它们主要采用消息传递接口(Message Passing Interface, MPI)提供的API来处理大 数据。高性能计算的思想是将计算作业分散到集群机器上,集群计算节点访问存储区域网络 SAN构成的共享文件系统获取数据,这种设计比较
3、适合计算密集型作业。当需要访问像PB 级别的数据的时候,由于存储设备网络带宽的限制,很多集群计算节点只能空闲等待数据。 而Hadoop却不存在这种问题,由于Hadoop使用专门为分布式计算设计的文件系统HDFS, 计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算, Hadoop中的集群存储节点也是计算节点。在分布式编程方面,MPI是属于比较底层的开发 库,它赋予了程序员极大的控制能力,但是却要程序员自己控制程序的执行流程,容错功能, 甚至底层的套接字通信、数据分析算法等底层细节都需要白己编程实现。这种要求无疑对开 发分布式程序的程序员提出了较高的要求。相反,Had
4、oop的M叩Reduce却是一个高度抽 象的并行编程模型,它将分布式并行编程抽象为两个原语操作,即m叩操作和reduce操作, 开发人员只需要简单地实现相应的接口即可,完全不用考虑底层数据流、容错、程序的并行 执行等细节。这种设计无疑大大降低了开发分布式并行程序的难度。Hadoop得以在大数据处理应用中广泛应用得益其自身在数据提取、变形和加载(ETL) 方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如 像ETL (Exiract-Transform-Load )这样的批处理操作相对合适,因为类似这样操作的批处 理结果可以直接走向存储。Hadoop的MapRe
5、duce功能实现了将单个任务打碎,并将碎片任 务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。3.3、大规模并行分析数据库不同于传统的数据仓库,大规模并行分析数据库能够以必需的最小的数据建模,快速获 取大量的结构化数据,可以向外扩展以容纳TB甚至PB级数据。对最终用户而言最重要的是,大规模并行分析数据库支持近乎实时的复杂SQL查询结 果,也叫交互式查询功能,而这正是Hadoop显著缺失的能力。大规模并行分析数据库在 某些情况下支持近实时的大数据应用。大规模并行分析数据库的基本特性包括:大规模并行处理的能力:就像其名字表明的一样,大规模并行分析数据库采用大
6、规模 并行处理同时支持多台机器上的数据采集、处理和查询。相对传统的数据仓库具有更快的性 能,传统数据仓库运行在单一机器上,会受到数据采集这个单一瓶颈点的限制。无共享架构:无共享架构可确保分析数据库环境中没有单点故障。在这种架构下,每 个节点独立于其他节点,所以如果一台机器出现故障,其他机器可以继续运行。对大规模并 行处理环境而言,这点尤其重要,数百台计算机并行处理数据,偶尔出现一台或多台机器失 败是不可避免的。列存储结构:大多数大规模并行分析数据库采用列存储结构,而大多数关系型数据库 以行结构存储和处理数据。在列存储环境中,由包含必要数据的列决定查询语句的“答案, 而不是由整行的数据决定,从而
7、导致查询结果瞬间可以得出。这也意味着数据不需要像传统 的关系数据库那样构造成整齐的表格。强大的数据压缩功能:它们允许分析数据库收集和存储更大量的数据,而旦与传统数 据库相比占用更少的硬件资源。例如,具有10比1的压缩功能的数据库,可以将10 TB字 节的数据压缩到1 TB。数据编码(包括数据压缩以及相关的技术)是有效的扩展到海量数 据的关键。商用硬件:像Hadoop集群一样,大多数(肯定不是全部)大规模并行分析数据库运 行在戴尔、IBM等厂商现成的商用硬件上,这使他们能够以具有成本效益的方式向外扩展。在内存中进行数据处理:有些(肯定不是全部)大规模并行分析数据库使用动态RAM 或闪存进行实时数
8、据处理。有些(如SAPHANA)完全在内存中运行数据,而其他则采用混合 的方式,即用较便宜但低性能的磁盘内存处理冷数据,用动态RAM或闪存处理“热”数据。然而,大规模并行分析数据库确实有一些盲点。最值得注意的是,他们并非被设计用来 存储、处理和分析大量的半结构化和非结构化数据。3.4、大数据方法的互补Hadoop, NoSQL和大规模并行分析数据库不是相互排斥的。相反的这三种方法是互补 的,彼此可以而且应该共存于许多企业。Hadoop擅长处理和分析大量分布式的非结构化数 据,以分批的方式进行历史分析。NoSQL数据库擅长为基于Web的大数据应用程序提供近 实时地多结构化数据存储和处理。而大规模
9、并行分析数据库最擅氏对大容量的主流结构化数 据提供接近实时的分析。例如,Hadoop完成的历史分析可以移植到分析数据库供进一步分析,或者与传统的企 业数据仓库的结构化数据进行集成。从大数据分析得到的见解可以而且应该通过大数据应用 实现产品化。企业的目标应该是实现一个灵活的大数据架构,在该架构中,三种技术可以尽 可能无缝地共享数据和见解。很多预建的连接器可以帮助Hadoop开发者和管理员实现这种数据集成,同时也有很多 厂商提供大数据应用。这些大数据应用将Hadoop、分析数据库和预配置的硬件进行捆绑, 可以达到以最小的调整实现快速部署的目的。另外种情况,Hadapt提供了 个单-平台, 这个平台
10、在相同的集群上同时提供sql和Hadoop/MapRcducc的处理功能。Cloudcra也在 Impala和Hortonworks项目上通过开源倡议推行这一策略。但是,为了充分利用大数据,企业必须采取进一步措施。也就是说,他们必须使用高级 分析技术处理数据,并以此得出有意义的见解。数据科学家通过屈指可数的语言或方法执行 这项复杂的工作。分析的结果可以通过工具可视化,也可以通过大数据应用程序进行操作, 这些大数据应用程序包括自己开发的应用程序和现成的应用程序。3.5、大数据使用案例让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案, 而在此之前他们甚至不知道问题是
11、什么。这可能会产生引出新产品的想法,或者帮助确定改 善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌, Facebook和阿里巴巴还是更多的传统企业。它们包括:推荐引擎:网络资源和在线零售商使用Hadoop根据用户的个人资料和行为数据匹配和 推荐用户、产品和服务。Linkedln使用此方法增强其“你可能认识的人这一功能,而亚马逊 利用该方法为网上消费者推荐相关产品。情感分析:Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非 结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分 析既可以专注于宏观层面的情绪
12、,也可以细分到个人用户的情绪。风险建模:财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据, 以确定金融资产的风险,模拟市场行为为潜在的“假设方案做准备,并根据风险为潜在客户 打分。欺诈检测:金融公司、零侈商等使用大数据技术将客户行为与历史交易数据结合来检 测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。营销活动分析:各行业的营销部门长期使用技术手段监测和确定营销活动的有效性。大 数据让营销团队拥有更大量的越来越精细的数据,如点击流数据和呼叫详情记录数据,以提 高分析的准确性。客户流失分析:企业使用Hadoop和大数据技术分析客广行为数据并确定分析模型,
13、该 模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措 施挽留欲流失客户。社交图谱分析:Hadoop和下一代数据仓库相结合,通过挖掘社交网络数据,可以确定 社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要”的客户, 不总是那些购买最多产品或花最多钱的,而是那些最能够影响他人购买行为的客户。用户体验分析:面向消费者的企业使用Hadoop和其他大数据技术将之前单一客尸互 动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起,以获得对客户体验的完整 视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户 体验。网络监控:
14、Hadoop和其他大数据技术被用来获取,分析和显示来自服务器,存储设备 和其他IT硬件的数据,使管理员能够监视网络活动,诊断瓶颈等问题。这种类型的分析, 也可应用到交通网络,以提高燃料效率,当然也可以应用到其他网络。研究与发展:有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研 究,以协助新产品的开发。当然,上述这些都只是大数据用例的举例。事实上,在所有企业中大数据最引人注目的 用例可能尚未被发现。这就是大数据的希望。4、展望电力大数据时代4.1 电力大数据价值分析电力系统作为经济发展和人类生活依赖的能量供给系统,也具有大数据的典型特征。电 力系统是最复杂的人造系统之一,其具有
15、地理位置分布广泛、发电用电实时平衡、传输能量 数量庞大、电能传输光速可达、通讯调度高度可靠、实时运行从不停止、重大故障瞬间扩大 等特点,这些特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富,完全 符合大数据的所有特征,是典型的大数据,在智能电网深入推进的形势下,电力系统的数字 化、信息化、智能化不断发展,带来了更多的数据源,例如智能电表从数以亿计的家庭和企 业终端带来的数据,电力设备状态监测系统从数以万计的发电机、变压器、开关设备、架空 线路、高压电缆等设备中获取的高速增长的监测数据,光伏和风电功率预测所需的大量的历 史运行数据、气象观测数据等。因此在电力系统数据爆炸式增长的新形
16、势下,传统的数据处 理技术遇到瓶颈,不能满足电力行业从海量数据中快速获取知识与信息的分析需求,电力大 数据技木的应用是电力行业信息化、智能化发展的必然要求。中国电机工程学会信息化专委会在2013年3月发布了中国电力大数据发展白皮书, 将2013年定为“中国大数据元年”,掀起了电力大数据的研究热潮。根据白皮书描述,电 力大数据的特征可概括为3V和3E。3V为体量大(Volume)速度快(Velocity)和类型多 (Variety) ; 3E为数据即能量(Energy)、数据即交互(Exchange)和数据即共情(Empathy) 其3V的描述和其他行业的描述比较接近,3E的描述具有典型的电力行
17、业特征,体现了大 数据在电力系统应用中的巨大价值。数据即能量简而言之,就是指通过大数据分析达到节能 的目的,电力大数据应用的过程,就是电力数据能量释放的过程;数据即交互是指电力大数 据与国民经济其他领域数据进行交互融合,才能发挥其更大价值;数据即共情是指电力大数 据紧密联系千家万户、厂矿企业,只有情系用电户,满足客户需求,电力企业方能以数据取 胜。电力大数据贯穿发、输、变、配、用等电力生产及管理的各个环节,是能源变革中电力 工业技术革新的必然过程,不仅是技术上的进步,更是涉及电力系统管理体制、发展理念和 技术路线等方面的重大变革,是下一代电力系统在大数据时代下价值形态的跃升。对建设坚 强智能电
18、网而言,亟需开展大数据相关技术研究,为电力大数据时代的到来奠定理论基础和 技术积累。4.2、电力大数据应用前景发电环节输电环节变电环节薄弱点.能源结构以火电为主.可再生能源井网有待力破 .可持续性发屣思路有侍加强.电源结构需进一步优化调整.线路运行推护与装备管理较为粗 放.线路迎检、评估诊断和辅助决策 的技术手段和模型不够完善.纹路运行态势、弋象与环境监测 面不够.变电自动化系统信息共享程度有待健 高、效能综合利用还有提升空间 .设备智育毗巡检模式有待改进、加快 计划检修向智能化状态检修的过渡 .一次装备的智能水平有待提高大数据应用前景.进一步深化推广风电和太阳能 等新能源发电功能预测和运行
19、智能控fM技术.提升新能源接入和分布式储能 的科学合理利用.减少能重损失,优化发电侧运 行效率,解决能源利用率低的 问题开展分析评估诊断与决策技术研 究,实现谕电侧态势评估的实时化 和智能化.结合外部数据.开展谕电侧设施 智能防灾研究,实现线路问题元器 件的快速恢复,提高输电的自愈能 力.提升变电站的智能化管理水平,通过 全网、全区域实时信息共享和分析实现 变电侧的实时控制和智能调节,实现变 电设备信息和运行推护策略与电力遍度 的智慧互动配电环节用电环节祯度环节薄弱点.在基于配网自动化的智能配电 方面建设己经开展、在横向集 成方面工作开屣迅速,但智能 化程度尚待进一步提高.配电网命僵流、信息流
20、和业务 流的双向互动和高度整舍有待 加强.用电环节己基本实现番肖信息化 、初步完成横向集成和纵向贯通、 但数据共享机制尚未完全建立.企业同外部的信息策成共享和交 互机制尚待进一为加强.电高度技术水平、如电网在线安全 分析、控制序段需要进一埸完善提高 .对大容量凤光储等新能源、间敬性电 源的预测和调控力有待加强大数据应用前景.实现对用户负荷和用电情况的 深入了解.提高对客户用电需 求和负荷模式的认知水平.优化配网蛆划供电计划,提 高配网监测、保护和控制水 平,提高配事故的响应程序. 优化配网运行管理水平,提升 供电可靠率.建立面向经营与管理的科学会肖 决策支拜平台,实现市场运营、营 销及客户服务
21、、设备全寿命殉期管 理等各类主题的分析及预测,提高 营销阪务的绦合分析预测能力.实现容户用电管理优化、用能实 时分析和预测等高级应用,提供用 电培值服务.建设以欺据驱动的智能高度体系,实 现运行信息全景化、数据传输网塔化、 安全评估动态化、调度决策精细化、运 行控制自动化、机网协调最优化 .提升调度驾驭电网能力、黄海优化配 置能力、科学决策管理能力和灵活高效 迎控粉数据质量较低,数据管控能力不强。数据共享不畅,数据集成程度不够。防御能力不足,信息安全面临挑战。承载能力不足,基础设施函待完善。 相关人才欠缺,专业人员供应不足。5、迈向电力大数据时代5.1、电力大数据关健技术数据分析技术 数据管理
22、技术 数据处理技术 数据展现技术策划先行、加快示范 数据质量、行业共享 人才培养、生态建设 智慧电力、智慧城市6、电力大数据实践6.1 实时海量数据是坚强智能电网的重要资产信息化支捧信息化支捧_强三优 两个瞧坚强智能电网;关键需求i -安全接入! i海员存储i i 实时监研 -智龄析i;规需求i ;标频范iI 皱 1I 集约管控 | 智瞅策I-r平台决策保障I6.2、对实时数据的接入、存储与处理、监测与智能分析海量瞬信息网络覆盖范围,支持智能传感器、智能表计等设备接入多渠道互动用户入口信息双向交互的安全晰能力海量实时的曜分析能力电网状态、设备状态、用电信息采集等海量信息的存储能力经营管理的公司
23、f化数据模型,统一管资产运彳亍绩效的实时监测和分析能力电网的动态运行监测、智能报警、自动故障定位等能力用户用电行为、能效、电能质量等分析能力新能漏口分布式能源的并网控制能力 电网调度和运行1幡的协同融合能力 实时线损管理及实时费控能力储能系统控制能力需求侧管理和对用户员荷的控制能力6.3、电网实时数据调研现状(1)某省实时数据分布1(2)某省实时数据分布2部门业务系统实时数据数据量频率调控中心SCADA/EMS电流、电压、功率、档位、频率、开关动作、SOE、 保护事件、计算值、积分电量132980点13秒电能计量关口电量数据2860个表计15分钟生技(电科 院)设备在线监 测系统变压器监测SP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电力 数据处理 存储 分析 调研 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。