中国非结构化数据中台实践白皮.pdf
《中国非结构化数据中台实践白皮.pdf》由会员分享,可在线阅读,更多相关《中国非结构化数据中台实践白皮.pdf(65页珍藏版)》请在咨信网上搜索。
1、释放非结构化数据价值,助力数据驱动型组织 中国非结构化数据中台实践白皮书 V2July.2021数字化转型催生数据驱动型组织01目录非结构化数据中台助力数据驱动型组织02非结构化数据中台的应用场景03Content非结构化数据中台的建设指南04非结构化数据中台的未来趋势0501数字化转型催生数据驱动型组织中国非结构化数据中台实践白皮书V2数字化转型持续深入数字化转型催生数据驱动型组织数据中台是数据能力建设的核心支撑非结构化数据中台兴起全球经济下行,人口红利、城镇化红利、互联网红利逐渐消失,数字化转型是未来唯一的增长红利。当下,转型领军企业竞争壁垒已然显现,更多传统企业加速布局,数字原生企业快速
2、涌现,数字化转型持续深入。需求驱动数字化转型的核心是数据。数字化转型进程中,海量、多元化的数据积累,使得数据可赋能更多场景、行业。同时,云计算、大数据、人工智能、5G、物联网等技术的成熟,降低了数字化转型的门槛,使更多企业深入推进数字化转型成为可能。技术驱动数字化转型持续深入“十四五”规划对数字化战略进行重要部署,强调以数字化转型整体驱动生产方式、生活方式和治理方式变革。发展数字经济已上升到国家战略高度,数字化转型将步入深水区。政策驱动数字化转型需求技术政策数字化转型是指企业利用数字技术,通过商业模式、业务流程、组织架构等重塑,为客户创造新的价值。Page4Page5数字化转型催生数据驱动型组
3、织数字经济时代,催生以数据为代表的新型生产要素。以数据驱动业务,打造数据驱动型组织,已然成为企业数字化转型的主线。传统企业中,数据是副产物,业务人员基于行业经验和原有流程去做业务,数据主要是用于监测业务进展和洞察一些规律,由业务人员做最终决策。数据驱动型组织,强调以数据为生产要素。在业务决策中,以事实、指标和数据作为核心指导,而业务人员是以辅助角色支撑数据驱动业务。数据辅助数据驱动业务系统数据中台驱动业务人员辅助业务系统业务人员流程数据经验决策辅助6数据驱动型组织是以数据为生产要素的组织,以数据驱动业务,实现持续增长和创新发展,以重塑组织的生产力。数据驱动型组织的定义以数据为生产要素数据驱动型
4、组织将数据视为企业资产,最大程度上利用数据的价值,关注数据的完整性、关联性以及数据质量。数据驱动决策数据驱动型组织在进行关键业务决策时,以数据为基础,通过高质量的数据分析驱动业务,而不是凭借经验或将各类信息简单堆砌。数据驱动型组织数据驱动创新数据驱动型组织注重知识沉淀和传承,以保证业务的持续创新能力,并在开辟新的业务时,以知识为起点,通过认知智能实现智能化创新。PagePage7实现数据驱动业务,核心在于构建数据能力从数据生产要素到数字资产,进而以数据驱动业务,落地业务价值,核心在于构建数据能力。海量、分散、多元化数据数据驱动业务数据驱动运营数据驱动创新数据驱动决策企业经营数据客户行为数据设备
5、运转数据生态合作数据数字资产数字资产是以电子数据形式存在并且预期会给资产持有者带来经济利益或具有潜在经济价值的非货币性资产。落地业务价值构建数据能力整合、治理、洞察标准、统一、价值数据中台是数据能力建设的核心支撑Page8 随着数字化进程的持续推进,企业数据意识增强,越来越多的企业对于数据中台的价值形成共识。对于数据驱动型组织,数据能力建设涉及数据的整合、治理、洞察与安全,需要以数据中台为支撑,盘活全域数据。数据中台成为核心业务系统。数据驱动型组织,数据是关键生产要素,进行数据治理的数据中台嵌入业务流程,已然成为核心业务系统。基于数据中台,企业具备面向全域数据、面向数据全生命周期的管理、治理和
6、价值挖掘能力,进而以数据驱动业务,落地业务价值。应用场景数据中台数字资产数据源数据整合数据治理数据洞察数据采集层金融政府与公共服务消费品与零售营销IT运维财务垂直行业通用职能非结构化数据成为增长主力Page9根据Gartner分析,企业80%的数据将会由非结构化数据构成。在数据爆炸式增长的当下,蕴含可观价值信息的非结构化数据,成为数据驱动型组织数据的增长主力。数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。非结构化数据的定义非结构化数据的特点 海量数据规模,且数据存储占比
7、高 数据来源丰富,分散各个系统非结构化数据结构化数据非结构化数据知识图谱数据全域数据机器数据传统的非结构化数据管理,内容对象、元数据与索引是分离存储和独立管理,难以同时灵活横向扩展,加剧海量非结构化数据的管理复杂性。非结构化数据的特点与挑战Page 10海量多样对于非结构化数据而言,形式多样关系复杂,基于常规单一算法技术很难识别、分析。异构非结构化数据,结构形式复杂,实体和关系分离,建立非结构化数据知识图谱体系以进一步挖掘深层次价值面临巨大挑战。业务数据孤岛、知识数据孤岛、桌面数据孤岛三大数据孤岛使得文档数据分散储存,无法统一管理,难以快速准确地搜索,业务系统重建数据难以整合。分散Page 1
8、1非结构化数据管理需要革新的底层架构 非结构化数据管理需要将底层数据打通,从源头保障数据资产的复用能力,实现数字资产统一运营、全面合规、高效利用。从数据库到数据仓库、大数据平台,传统数据架构并非面向非结构化数据设计;再演进到结构化数据中台,非结构化数据处理能力仍然是瓶颈,非结构化数据需要革命性的数据架构。仅仅依靠数据分析技术难以解决问题,必须将计算机视觉、NLP、知识图谱等技术融入其中,借助深度学习等人工智能技术实现数据治理,进而实现知识复用与智能搜索。底层数据挑战数据架构挑战智能技术挑战非结构化数据中台非结构化数据中台兴起Page 12 非结构化数据中台对文档、图片等非结构化数据进行汇集,融
9、合人工智能技术,基于先进的数据架构底座,对非结构化数据进行整合、治理、洞察形成数字资产,进而赋能各行各业应用。非结构化数据中台数字资产数据整合数据治理数据洞察数据源文档、图片等非结构化数据人工智能驱动数据架构底座应用场景金融政府与公共服务消费品与零售营销IT运维财务垂直行业通用职能02非结构化数据中台助力数据驱动型组织中国非结构化数据中台实践白皮书V2数据驱动型组织面临的非结构化数据挑战非结构化数据中台解决方案Page 14数据驱动型组织的两大需求对于数据驱动型组织而言,数据已然具备生产要素的地位,实现数据的资产化、知识化,是打造数据驱动型组织的核心支撑。数据价值挖掘是数据资产化、知识化的基本
10、路径,在数据价值挖掘的同时,数据驱动型组织必然着眼数据安全问题,数据安全业务合规是数据驱动型组织实现数据驱动业务的根基。因而,对于数据驱动型组织,数据价值挖掘、数字资产安全管理都是不可忽视的需求。数据是数据能力的核心。数据量、数据的使用程度、内化数据的过程都是数据驱动型组织构建数据能力的考量因素,而能否有效地挖掘数据价值尤为关键。数据资产安全是构建数据能力的根基。落地数据驱动型组织,数据资产至关重要,而最大限度地保护数据资产安全,是数据驱动决策赋能业务的基础。数据价值挖掘数字资产安全Page 15数据价值挖掘诉求是分阶段的数据洞察阶段 3数据治理阶段 2数据整合阶段1整合不同终端数据,打破数据
11、孤岛,对数据进行统一存储管理识别捕获数据信息,并基于有序的制度和组织,实现数据的管理与应用构建知识网络,建立数据间的关系,深入挖掘数据价值对于一个企业而言,数据价值挖掘是战略层面的规划,是一项长期工作。对于整个非结构化数据中台的建设,更多的企业选择从顶层设计出发,逐级分段建设。根据企业自身的业务目标逐级建设,从底层场景领域、从优先场景领域切入,逐步纳入更多的业务模块,以达到企业数据能力的逐级进化和价值的持续叠加。面对海量非结构化数据,企业对于数据价值挖掘的诉求主要分为三个阶段:数据整合、数据治理、数据洞察三个阶段。Page 16非结构化数据价值挖掘的业务挑战挑战数据洞察数据治理数据整合 海量非
12、结构化数据的访问与查询存在巨大挑战;跨地域统一内容管理易网络拥塞,访问难;类型各异、存放在异构环境中的非结构化数据进一步加大管理难度。挑战 数据类型多样,对于数据信息识别、内容提取面临挑战;内容与业务割裂,数字化服务能力缺失,内容无法自动流转,人力投入成本高。挑战 复合内容难以有效识别与组织利用;隐性知识难以有效识别、表达及获取,精准描述关键信息难度大;非结构化数据知识体系复杂,基于知识网络洞察数据价值面临巨大挑战。Page 17数字资产安全需要立体安全企业需要搭建包括数据安全、访问安全、信息安全等在内的立体安全体系。个人信息保护法,2020 数据安全法,2020 上市公司信息披露管理办法,证
13、监会 通用数据保护条例,欧盟,2018(GDPR)个人隐私数据企业敏感信息非法内容管控信息安全 电子公文归档管理暂行办法,2003 商业银行资本管理办法,2013 金融企业业务档案管理规定,2015 药品生产质量管理规范,2010(GMP)内容边界安全内容访问审计跨网跨地域多文档域访问安全访问安全实时杀毒数据备份恢复 网络安全法,2017 信息安全等级保护管理办法,2007 涉及国家秘密的信息系统分级保护管理办法,2005数据安全Page 18数字资产安全的业务挑战 海量文件或小文件的备份和恢复性能严重不足,内容数据缺乏高效的保护方案文件备份性能不足 形态各异的病毒无孔不入,企业的数据安全面临
14、高危风险病毒攻击风险 企业在内容流转过程中没有统一的方式进行访问边界控制,机密信息识别、流转安全保护尚不完善,无法进行访问安全全面管控访问安全挑战 敏感内容、个人隐私数据、非法信息难以识别与监管,靠人工识别管控工作量大效率低,经常发生主动或被动的泄密敏感内容泄漏信息安全访问安全数据安全Page 19非结构化数据中台解决方案助力数据驱动型组织应用场景 非结构化数据中台对对象数据、元数据、索引数据进行汇集、管理,融合人工智能技术,提供先进的数据架构底座,构建非结构化数据能力。非结构化数据中台基于双路径建设,实现数据的资产化、知识化,服务于企业多业务主题场景,包括文档管理、业务赋能、知识创新等。非结
15、构化数据中台人工智能驱动数据架构底座对象数据池元数据池索引数据池知识创新文档管理内容赋能金融政府与公共服务消费品与零售营销IT运维财务垂直行业通用职能数据整合数据治理数据洞察数据价值挖掘数据安全访问安全信息安全数字资产安全Page 20非结构化数据中台基于双路径建设实现数据的资产化、知识化数字资产安全数据价值挖掘数据整合数据治理数据洞察数据资产化知识化数据安全访问安全知识安全非结构化数据Page 21整合、治理、洞察非结构化数据的中台数据价值挖掘路径,非结构化数据中台主要基于业务主题落地,实现数据的整合、治理、洞察,进而实现资产化、知识化,非结构化数据中台涉及的业务主题主要有文档管理、内容赋能
16、、知识创新。数据治理数据洞察非结构化数据中台 整合终端、业务系统、存储上的所有非结构化数据 在非结构化数据生成时即时治理文档管理体系、内容赋能体系 利用知识图谱、自然语言处理等人工智能技术洞察非结构化数据知识创新体系底层数据源数据整合Page 22立体安全的非结构化数据中台基于非结构化数据中台底层架构,集成数据安全、访问安全、信息安全不同层面的数字资产安全方案,从安全维度支撑非结构化数据中台的资产化、知识化。非结构化数据中台数据安全 高性能备份恢复 实时杀毒数据安全方案访问安全 统一的权限及安全策略 开放的防泄密集成 密级管理 访问审计访问控制及安全方案信息安全 敏感内容管控 隐私信息保护 内
17、容脱敏AI技术驱动的信息安全方案Page 23数据安全方案:数据备份恢复面向海量非结构化数据,基于对象存储的备份恢复方式面临巨大挑战,一是备份性能慢,二是恢复性能慢,而数据备份恢复性能低下的根本原因在于单位时间内磁盘的吞吐率无法提升。备份数据中心异地灾备中心OAERP数据采集PLMMobilePCIM内容采集文档上传对象数据关系数据元数据OSS网关对象聚合技术备份数据库编排调度服务灾备对象存储恢复备份恢复应用一致性任务调度爱数数据安全方案采用OSS网关对象聚合技术,并结合编排调度服务,提出高性能备份恢复方案,相比传统的NAS、对象存储备份恢复技术,性能得到数十倍的提升。关键业务系统Page 2
18、4数据安全方案:实时杀毒病毒无时无刻不威胁着企业数据安全,实时杀毒是数据安全的首要任务。OpenDoc APIClient/APP/WebManagement API内容生产WindowsMaciOSAndroid终端OAERPIMPLM业务系统消息服务杀毒引擎服务业务场景Alita引擎内容流历史版本一键恢复数据中心消息服务存储服务内容开放框架指定文档库杀毒定时/实时杀毒实时杀毒爱数基于数据备份、杀毒引擎服务、消息服务等手段,实现指定文档库杀毒、定时/实时杀毒。Page 25访问控制及安全方案非结构化数据的跨网流转大幅提升操作易用性及业务效率,而保证跨网的多文档域安全数据交换,需要建立统一、安
19、全、可控、便捷的跨网数据交换通道。跨网环境数据交换场景,即有网络设备隔离,数据被下载之后会进行打包和加密,以保障传输过程中的文档安全。支持添加多个平级域,多个平级域之间可自行确认同步数据。可以支持的网络隔离设备,包括网闸、光闸、防火墙、摆渡机、隔离器。爱数方案特性说明文档域A文档域BAnyShareAnyShare元数据服务器对象存储管理控制台部署控制台元数据服务器对象存储管理控制台部署控制台跨域文档库交换单导设备网络隔离设备下载研发区域数据处理存储节点存储节点办公区域对象存储对象存储文档集服务Page 26AI技术驱动的信息安全方案传统隐私数据识别、监控及保护主要基于人工管控,但随着非结构化
20、数据积累,基于AI技术进行隐私数据识别、隐私数据定级、隐私数据监管,成为最有效的信息安全方案。爱数信息安全方案智能识别立体监控高效保护 隐私内容自动智能识别 隐私文件风险等级自动智能评估 实时、分层、多视角 企业隐私分布及风险动态“一目了然”AS非结构化数据中台自带隐私保护功能,无感实现隐私数据识别和保护,极大节约人力管控成本 支持DPO一键式合规设置,灵活适配CCPA、GDPR、个人信息保护法等法规要求,极大降低合规体系建设成本生产系统文档应用OAERPPLM终端WindowsMacWORDExcelPDF隐私数据识别web业务数据办公数据InfoInsight业务应用主文档隐私数据定级隐私
21、状态监管文档所有者DPO查看文档隐私类别查看文档隐私详情组织隐私分布状态监控部门隐私统计信息查询组织隐私管控策略设定智能识别立体监控高效保护03非结构化数据中台的应用场景中国非结构化数据中台实践白皮书V2文档管理内容赋能知识创新Page 28基于非结构化数据中台的业务主题主要有:文档管理、内容赋能、知识创新等,不同业务主题之下包含更为具象的应用场景。在不同应用场景中,数据驱动型组织需求侧重虽有不同,但都有数据价值挖掘、数字资产安全两个维度的需求考虑,需要基于非结构化数据中台进行数据价值挖掘、数字资产安全管理,实现不同应用场景下的业务赋能、业务合规。非结构化数据中台应用场景文档管理内容赋能知识创
22、新应用场景业务主题非结构化数据中台数据价值挖掘数据整合、治理、洞察数字资产安全管理数据、访问、知识安全 定义:沉淀业务系统的内容,实现业务流程自动化。典型应用场景:表单自动采集、电子发票管理、合同管理与合规、信贷业务管理等。定义:在数据沉淀基础之上,实现数据知识化,落地知识运营管理。典型应用场景:产品咨询、员工培训、项目竞标、知识共享交流等。定义:沉淀结果性文件,提高文档搜索与部门协作效率。典型应用场景:设计文档管理、客户数字资产生命周期管理、协作办公等。案例文档管理:业务挑战文档散落存储在个人PC、文件服务器、业务系统存储、分子公司各地方,无统一检索,无统一存储机制,对日常办公管理带来极大不
23、便;缺乏有效的内容安全管控、在线杀毒、合规审计、备份容灾等机制,存在丢失与泄密风险。业务系统(OA,CRM,SAP,HR,邮箱系统等)笨重缓慢,随着业务系统附件逐渐增多,缺乏合理的文档归档机制。例:制造业/新能源某新材料集团股份有限公司是一家锂离子二次电池用正负极材料专业化生产厂家,近年来集团业务规模快速发展,传统的文档存储和管理模式面临巨大挑战。Page 29随着数字化转型的持续深入,文档数据种类多样,持续积累,成为数据资产不可忽视的重要组成部分,而传统的文档存储和管理模式已不再适应当下文档管理需求。文档管理场景业务挑战主要聚焦于文档统一管理、安全合规、数字资产沉淀三个方面。存储资源重复建设
24、,可扩展性差;文档管理脱离业务活动,无法实现文档生命周期流转,持续沉淀数字资产。挑战3:数字资产沉淀 海量非结构化数据散落于不同终端、业务系统甚至异地,无法统一管理,内容搜索效率低。挑战1:文档统一管理 缺乏有效的内容安全管控、在线杀毒、合规审计、备份容灾等机制,存在丢失与泄密风险。挑战2:业务合规文档管理:解决方案文档管理解决方案对所有结果性文档统一管理,并规定管理权责、权限以及规范,以实现文档从创建到使用流转,再到最后归档销毁的全生命周期管理。在数字资产安全方面,文档管理业务场景主要涉及数据安全、访问安全需求,需要建立内容安全管控、在线杀毒、合规审计、备份容灾等机制,满足业务合规要求。Pa
25、ge 30关键业务系统OAERP终端WindowsMac非关键业务系统项目管理扫描打印机数据采集业务合规数据应用数据安全内容总线内容数据湖数字资产管理文档统一管理非结构化数据中台访问安全智能搜索自动分类文档管理:爱数全生命周期解决方案文档管理解决方案的核心是文档全生命周期管理。全生命周期管理,是指基于与业务活动一致的流程设计,实现文档从创建到使用流转,再到最后归档销毁的管理,以爱数全生命周期管理方案为例进行说明。Page 31分类使用归档智能内容分析及检索标签摘要元数据识别搜索团队协作空间个人办公空间文档库统一管理规范归档库业务导向加持加持文档外发安全协作移动办公业务系统调用非法内容管控文档电
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 结构 数据 实践
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。