非结构化数据管理知识与实践白皮书.pdf
《非结构化数据管理知识与实践白皮书.pdf》由会员分享,可在线阅读,更多相关《非结构化数据管理知识与实践白皮书.pdf(76页珍藏版)》请在咨信网上搜索。
非结构化数据管理知识与实践(2023版)2023年4月目录1.1.前言前言.1 12.2.非结构化数据管理非结构化数据管理.3 32.1.非结构化数据定义及特征.32.2.非结构化数据管理的发展历程.42.3.OFD归档用电子文件的标准格式.73.3.非结构化数据管理体系非结构化数据管理体系.10103.1.数据管理能力成熟度模型.113.2.非结构化数据应用分级要求.133.3.非结构化数据战略与顶层设计.193.4.非结构化数据治理.213.5.非结构化数据管理.223.6.非结构化数据价值.334.4.非结构化数据管理解决方案非结构化数据管理解决方案.38384.1.非结构化数据管理与 ECM 企业内容管理.384.2.ECM 内容管理成熟度模型 CM.414.3.ECM 内容管理平台架构.434.4.ECM 内容管理核心技术.464.5.新一代 ECM 平台的发展方向.515.5.非结构化数据管理应用实践非结构化数据管理应用实践.54545.1.非结构化数据管理应用类型.545.2.非结构化数据管理应用实践.566.6.结束语结束语.7474非结构化数据管理知识与实践(2023 版)11.1.前言前言数据,是当今时代企业生产生存的命脉。企业的持续经营必将产生大量数据,而海量的数据也无时不刻地在影响着企业的经营。无论是在企业的战略层面还是执行层面,数据管理对于企业决策都具有举足轻重的作用。在战略层面,基于数据管理能够有效梳理企业数据资源,支撑企业优化战略决策,提前洞悉业务中存在的潜在问题,把握市场,拓展机遇,抢占竞争先机;而在执行层面,通过数据管理能够帮助企业解决现有业务中的数据责权不清、数据标准不明、管理流程混乱、数据质量低下等常态问题,形成标准化的数据利用流程,提升运营效率,培养企业的核心竞争力。2018 年,全国信息技术标准化技术委员会大数据标准工作组组织制定的 GB/T 36073-2018数据管理能力成熟度评估模型(以下简称 DCMM)国家标准正式发布。在推动 DCMM 国家标准落地应用过程中,当前部分企业已经逐渐形成对数据的管理意识,并陆续开展数据管理相关工作。因此,发布 DCMM是顺势而为,旨在指导国内企业的数据管理建设与数据文化培养,为企业数字化基础设施的形成与完善提供方向与建议。根据调查显示,企业数据管理工作目前侧重于结构化数据的管理,已经形成了多种针对企业业务中产生的结构化数据进行管理的专业软件,能够以体系化、动态化、甚至智能化的手段,对企业内的结构化数据进行高成熟度的管理。然而,相比之下,企业针对文档、图片、音视频等非结构化数据的管理方面仍投入不足。这些文件充斥在企业的存储系统与员工日常办公中,大部分企业却依旧处于非结构化数据的局部建设或者初步建设阶段。一方面,大部分企业尚未认识到非结构化数据管理的重要性;另一方面,缺乏成熟的非结构化数据管理知识与实践(2023 版)2非结构化数据管理体系和工具的支撑,也缺乏针对非结构化数据实践的专门标准。为此,上海鸿翼软件技术股份有限公司、中国电子技术标准化研究院联合北京中船信息科技有限公司、华迪计算机集团有限公司,以及北京数科网维技术有限责任公司、福昕鲲鹏(北京)信息科技有限公司、北京点聚信息技术有限公司、友虹(北京)科技有限公司、永中软件股份有限公司等电子文件管理推进联盟会员单位,共同开展对非结构化数据管理相关的技术、应用以及标准化的研究探索工作。作为 DCMM在非结构化数据领域的补充与细化,本白皮书立足于非结构化数据管理应用实践,结合 DCMM国家标准体系框架,提出了非结构化数据管理能力分级评价模型非结构化数据管理能力分级评价模型,并形成以内容管理成熟度模型 CM为核心的非结构化数据管理解决方案,是鸿翼及电子标准院前期累积的重要研究成果。本白皮书的发布,一方面是为了呼吁各界加强对非结构化数据管理技术、应用及标准化工作的关注,增强社会面的非结构化数据管理意识;另一方面旨在通过分享前期研究成果,支撑各行业及企业开展非结构化数据管理体系建设,实现产业数据管理能力的全面提升。而 2023 年的新版本,则是基于行业近几年的研究重点,聚焦非结构化数据相关的新举措、新实践、新里程碑,对本白皮书进行了更新、勘误、充实。希望本白皮书能够与时俱进,帮助企业精准定位自身非结构化数据管理水平,以正确的手段实现企业数字化转型的目标。本白皮书由上海鸿翼软件技术股份有限公司和中国电子技术标准化研究院共同组织编写并更新。非结构化数据管理知识与实践(2023 版)32.2.非结构化数据管理非结构化数据管理2.1.2.1.非结构化数据定义及特征非结构化数据定义及特征非结构化数据是指未通过数据模型预先定义的数据,包括关系数据和模型数据。在企业的整体数据架构中,非结构化数据往往是指不适合用数据库二维关系逻辑表来表现的数据,包括所有格式的办公文档、标准通用标记语言下的子集、各类报表、图像和音频视频文件以及工程图文档信息等,约占企业数据存储量的 80%。存储在计算机系统中的数据被分为结构化数据和非结构化数据。结构化数据与非结构化数据在数据对象、数据格式、时间维度、存储形式、增长速度、信息含量、数据价值等方面存在明显差异,具体如表 1 所示:表表 1 1 结构化数据与非结构化数据特征差异结构化数据与非结构化数据特征差异结构化数据结构化数据非结构化数据非结构化数据数据对象数据对象结构化数据以关系型或单一数据属性,如:银行卡号、日期、财务金额、电话号码、地址、产品名称等作为数据对象非结构化数据以内容或本体,如文件、图像图形、音视频、邮件、报表、网页、各种纸本等作为数据对象数据格式数据格式强调基于表格的关系型数据值格式类型,如:字符型、整型、日期型、数值型等由于非结构化数据较多体现在无模式、自描述的文件及内容,其数据格式更为多样,如:png、jpg、mp4、doc、ofd、pdf 等各种类型时间维度时间维度结构化数据的以单一数据属性为主,需要构建关联,呈现分析结果,应用时效性较短非结构化数据以文件和内容为主,信息量较大,应用时效性会更长存储占比存储占比在企业日常运营产生的数据中,结构化数据占存储数据总量的 20%在企业日常运营产生的数据中,非结构化数据占存储数据总量的 80%存储形式存储形式结构化数据通常仅存储在软件应用系统和数据仓库中非结构化数据的存储端多样,可以储存在个人电脑、服务器、应用系统、文件柜或档案室等终端以及数据湖为代表的大数据平台中非结构化数据管理知识与实践(2023 版)4增长速度增长速度通常结构化数据占业务数据增长量的 20%通常非结构化数据占业务数据增长量的80%信息含量信息含量结构化数据需要结合上下文语义呈现信息,信息量较小,着重体现在定量数据和关键的业务信息非结构化数据所包含的信息量较大,可以扩展至情感性、描述性、文档性等更为广泛的信息数据价值数据价值结构化数据的价值主要体现在假设、明确或已知的数据分析价值非结构化数据价值拥有更广泛的、探索性、数据挖掘等未知的数据洞察价值综上所述,非结构化数据与结构化数据是两种差异巨大的数据类型,随着大数据存储和计算能力的增强,非结构化数据由于其丰富的信息量,相较结构化数据拥有更大的数据资产化价值空间。组织应注重非结构化数据在数据管理中的有效管理,着重针对非结构化数据的无序性、分散性开展价值挖掘,对缺乏规则化的非结构化数据,尤其是对分散在个人电脑、服务器、各种应用程序及大数据存储中的非结构化数据开展全面的治理,进一步发挥非结构化数据的资产化价值。2.2.2.2.非结构化数据管理的发展历程非结构化数据管理的发展历程数据管理的起始可以追溯到 20 世纪 60 年代的数据库技术,当时计算机已经开始在商业环境下获得应用,文件是数据存储的主要介质。文件的存储和访问成为数据管理的核心需求,这也可以看作非结构化数据管理的最初阶段。20世纪 90年代初期,随着无纸化办公技术的发展,传统纸质文档逐步转换为电子化文档,这个时期企业开始构建电子文档库、数字图书馆、数字档案馆,非结构化数据管理体现为对这些数字化文非结构化数据管理知识与实践(2023 版)5档的管理。2000 年以后,随着互联网技术的发展,非结构化数据率先体现在以 WEB 网页为主的内容管理上,随着网站技术的发展,出现了网页内容管理(Web Content Management),这个时期电子商务、电子政务系统也随之快速发展。2005 年以后,随着企业信息化的不断深入,非结构化数据融入到业务场景中,企业业务流程系统承载了大量文档、图表、报告、音频等形式的非结构化数据。对这类数据的管理需求促进了 ECM 企业内容管理(Enterprise Content Management)的出现,随着 ECM的出现,非结构化数据开始与业务场景深度融合,发挥出了更大的价值。2010 年以后,随着云计算,物联网、移动互联网和大数据的不断发展,非结构化数据呈现形式更为多样,如:影像文件、视频文件、工程电子文档、ISO 质量电子文档等,这个阶段 ECM 企业内容管理和非结构化数据应用的发展也越来越趋于规模化。2015 年以后,随着人工智能技术的成熟与普遍化,非结构化数据开始向着内容服务自动化、文本挖掘、语义分析等方向发展,并形成了非结构化数据管理体系下的内容服务中台化和内容服务智能化。从上述非结构化数据发展历程可以收获以下几点:一、非结构化数据是随着计算机应用的发展不断丰富起来的,因此任何时代,技术发展都是动力。二、非结构化数据管理的发展历程是非结构化数据逐步从离散文件升级至内容,形成统一的内容服务平台,并进一步构建起融合业务的知识体系,其本质上大大提高了生产运营效率和业务创新能力;三、多层次的非结构化数据平台提供了更为上非结构化数据管理知识与实践(2023 版)6层的内容服务,屏蔽了下层的技术实现细节,能够更快速准确地响应业务场景化需求。因此,随着数字数据管理的成熟,一股专注于非结构化数据管理的浪潮也在悄然崛起,以非结构化数据为研究与发展的重心,掀开了非结构化数据管理的篇章。国际上,1990 年,Documentum 公司成立,成为了第一家利用标准关系型数据库技术以及面向对象方法提供企业级文档管理解决方案的公司;2000 年左右,以电子商务和电子政务为代表的门户网站的发展带来了网页内容的指数级增长,促进了网页内容管理的成熟与发展;2002 年,Documentum 公司正式发布 ECM(企业内容管理)产品;2006 年,微软发布 Sharepoint Portal Server;2010 年,OpenText发布;2010 年后,云计算、移动互联网、大数据的新技术改变了 ECM的形式与内容,ECM的内涵与外延不断更新。放眼国内,从 2002 年起,航空、核电和工程领域的国际 ECM一线厂商开始进入我国,在这些行业内,率先掀起了 ECM的潮流:2008 年,上海鸿翼软件技术股份有限公司发布国内首款完整ECM产品“鸿翼 edoc2 ECM”;2009 年,拓尔思信息技术股份有限公司针对政府和金融领域推出 WCM 产品;2010 年,信达雅系统工程股份有限公司在金融领域推出 ECM影像管理产品;非结构化数据管理知识与实践(2023 版)72016 年之后,以联想企业网盘、石墨文档等为代表的应用层的网盘和功能更全面的 ECM 出现,ECM 系统中的文档协同和服务能力不断提升;2017 年开始,人工智能(AI)逐渐开始与 ECM 系统进行融合,企业开始利用人工智能手段,赋能非结构化数据管理;2020 年开始,中国 ECM 行业产品平台化趋势显现,以鸿翼为代表的 ECM平台开始成熟,基于平台的应用开始在各行业爆发式增长,是为“中国 ECM元年”。2.3.2.3.OFDOFD归档用电子文件的标准格式归档用电子文件的标准格式图文类文档是非结构化数据的常见类型之一,因为贴近决策阅读,这类文档中蕴含着巨大的有用信息。按照是否可以编辑,可以把图文类文档分为流式文档和版式文档。流式文件支持在任意位置自由编辑,编辑后会按照流式灌排的方式进行版面重新计算与绘制,由于排版计算受操作系统、软件实现版本等影响较大,流式文档可能会出现不同的软件和操作系统平台上内容效果不一致的现象,又称“跑版”。流式文件一般包含章节、表格、段落、句及图文对象等元素,上述各个层级的对象都有其独特属性。这些内容会按照一定的层次结构进行的描述方式构成流式文件的格式。依托合适的流式文档软件(如 WPS、Office),文档拥有者可以对文件的内容进行编辑、添加、删除等操作,连接文档服务进行辅助校对和创作,并且在此过程中可与其他编辑者协作,是常用的文件类型。而为了保证文档在各种软硬件环境下的显示、打印等效果高度精准一致,版式文件应运而生。版式文件是版面呈现效果固定的电非结构化数据管理知识与实践(2023 版)8子文档,文档内容的分页、换行和图元位置都在文档中直接纪录,在各种设备上阅读、打印或印刷时,可直接读取和使用位置信息,不依赖排版计算确定,因此文档的呈现效果高度稳定。版式文档主要应用于成文后文件的发布、传播和存档,如商务文档、电子公文、电子凭证等。此前,PDF(Portable Document Format)是版式文件的代表实现,经历近了 40 年的发展,在全球范围多个行业内大量应用,已成为了国际标准(ISO 32000-1:2008)。国内对文档应用有许多独特的应用需求,例如应用国产密码、分段标密或保护、结构语义保留等,由此诞生了许多基于自定义格式或 PDF 的定制应用方案,满足局部需求的同时,也使得国内的版式文档管理更加复杂,为了在应用上兼容各方需求,在技术上统一文档格式,在管理上合理归并冗余,在产业上凝结行业共识,迫切需要出台版式文档格式方面的国家标准。2016 年 10 月 13 日,国家标准电子文件存储与交换格式版式文档(GB/T 33190-2016)正式发布,OFD(Open Fixed-layout Document)由此诞生。与 Adobe公司的 PDF 相比,OFD 是我国自主研发的文档格式国家标准,除了可以媲美国际标准的文档静态和动态特性描述能力,在安全性和易用性等方面进行了独特的技术创新。OFD 摈弃了老旧的二进制描述方式,采用 XML 描述文档内容和“ZIP+”方式聚合文档数据,真实地保持文档中原有的文字、图标、公式等版式信息,描述更简洁、信息集成度更高,形成了显著的比较优势。OFD采用了文档原始内容与附加内容分离保存的策略,有利于相关内容的区分签名及保护,在应用中作为责任区分凭证中发挥独特作用。在文档安全层面,OFD 设计了标准接口内置支持 SM2/SM3 等国产密码,对国外算法也具有很好的适配性,进而全面支持 GB/T非结构化数据管理知识与实践(2023 版)938540、GB/T 35275 等国密算法的签章和签名标准。OFD 设计了元数据、附件、自定义标引等丰富的扩展机制,鼓励在版式文档中携带业务源头的结构化数据,实现了多源异构数据融合,在支持发票、证照和公文深入利用中发挥了独特作用。最后,OFD 未引入动态表单和脚本,更加聚焦于版式文档的优势和职责,切断了病毒与木马的通过文档脚本污染数据、感染系统的路径,消除了最大的文档安全性隐患。OFD 作为一种后发技术和文档格式,针对 PDF 格式“是文档的坟墓”(意指信息进得去难出来)和对信息安全关注不足等两大痛点做了专门的重新设计和改进,是统一图文类文档格式,消除行业和系统壁垒,提升非结构化数据管理效率的“利器”。OFD 发布以来,在机关办公、政务服务、财税管理等重要领域应用,以公文、证照、发票、回单等不同业务形态,在优化业务应用、凝聚产业力量、防止技术垄断和保障数据安全方面发挥了重大作用。OFD 作为版式文档领域的新生力量,发展空间巨大,近年来先后发展了党政机关电子公文、电子证照、可入账电子凭证等应用标准,但是网购、保险、金融、企业管理等领域中仍有巨量的电子文件亟待规范化,生产制造、建筑、水利、交通、测绘等领域的专业电子文件则更加具有挑战性。在产业方面,专业技术厂商和开源社区同步发力,除了专用软件外,微信等通用平台对自主格式支持也在加大,应用方获得相关技术支持的门槛降低、服务质量却在不断提升。依托于自主可控的文档格式标准,充分发挥其对于内容管理的友好特性和数据安全特定,在关键基础技术自主、供应链韧性和网络安全得到空前重视的大背景和大环境下,在业务系统应用自主文档格式,通过其实现更懂业务、更高效率和更安全的非机构化数非结构化数据管理知识与实践(2023 版)10据管理,是大势所趋,更是时代的“必答题”。3.3.非结构化数据管理体系非结构化数据管理体系组织构建非结构化数据管理体系,需要基于顶层设计及战略开展非结构化数据治理,落实非结构化数据管理的各项职能活动,最大程度开发非结构化数据的资产价值。非结构化数据管理体系(如图 1 所示)由五大核心方面及十六个重点领域组成。其中核心领域包括:(1)非结构化数据顶层设计及战略;(2)非结构化数据管理能力成熟度;(3)非结构化数据治理,包括组织与职责、制度与流程、评估与审计和数据文化;(4)非结构化数据价值,包括非结构化数据协作、非结构化数据流转、非结构化数据服务和非结构化数据洞察;(5)非结构化数据管理,包括非结构化数据集成、非结构化数据标准、非结构化元数据管理、非结构化数据质量、非结构化数据安全和非结构化数据合规。非结构化数据管理知识与实践(2023 版)11图 1 非结构化数据管理体系框架其中非结构化数据价值体系与非结构化数据管理体系之间能够起到相互促进的作用,完善的非结构化数据价值体系能够推动企业非结构化数据管理体系的逐层建立与制度完善,而企业的非结构化数据管理体系的规划从某种程度上来说,也是对其非结构化数据价值体系的体现和落实。3.1.3.1.数据管理能力成熟度模型数据管理能力成熟度模型能力成熟度模型(Capability Maturity Model)最初源自软件开发管理程序,由美国卡耐基梅隆大学软件工程研究所于 20 世纪 80年代提出。这一模型将软件开发划分为五个成熟度级别,除了初始级(第一级)以外,每个级别都由关键的过程域组成。关键过程域能够标识组织应该关注的领域,以改进软件开发过程。每个关键过程域分为五个部分,称为共同特征。共同特征指定了关键实践,当这些关键实践被实行,就可以实现关键过程域的目标。非结构化数据管理知识与实践(2023 版)12能力成熟度模型认为软件开发并不是一蹴而就的过程,需要组织首先明确工作开展的方向以及工作的优先级顺序。因此,每个成熟度级别都对应着持续改进过程中组织达到的全新阶段。根据能力成熟度模型架构,组织可以标准化、模块化地判断软件当前的成熟度,并将其与行业内其他组织的实践状态进行横向对比。同时,组织也可以使用能力成熟度模型来制订软件开发的改进规划。因此,借鉴国内外成熟度相关理论思想,数据管理成熟度模型(DCMM)涵盖了数据战略、数据治理、数据架构、数据标准、数据生存周期、数据应用、数据质量、数据安全共 8 个方面(能力域)(如图 2 所示),并根据数据管理过程的有效性、完整性、协调性等因素,划分了各能力域及整体数据管理能力的 5 个成熟度等级,给出了不同成熟度等级的指标要求,旨在为企事业单位评估和持续改进自身数据管理能力提供科学指引。图 2 DCMM 数据管理能力成熟度模型DCMM 着眼于数据管理领域,旨在规范和引导组织的数据管理过程,遵循能力成熟度模型的基本理念和结构,再进一步细分关键非结构化数据管理知识与实践(2023 版)13过程域,以区分不同成熟度水平。此外,该模型定义了一系列指标,从而指导组织开展数据管理现状评估,组织可以在数据管理实践方面结合自身关注的领域,选取相关数据管理领域开展评估,不同的数据管理域内所包含的关键要素也不尽相同。3.2.3.2.非结构化数据应用分级要求非结构化数据应用分级要求3.2.13.2.1 DCMMDCMM 在非结构化数据领域的细化与补充在非结构化数据领域的细化与补充基于非结构化数据自身的特征与相关软件产业的发展程度,不难发现与结构化数据相比,非结构化数据的管理与应用的发展整体较为滞后。这不仅因为其每年超数据总量 80%的增长速度,更因为其蕴含着极其丰富的信息和知识,以结构化数据的常规与评估管理方式无法精准地对企业的非结构化数据应用管理能力进行评判。因此,非结构化数据应用能力分级模型基于 DCMM数据管理能力成熟度模型的五个成熟度等级构建,参照 DCMM给出的数据管理能力成熟度模型与等级,并且考虑到非结构化数据特征、组织在非结构化数据管理领域的具体实践,构建起了一套完整的非结构化数据应用能力的评判标准,而对应的非结构化数据管理能力成熟度级别体现为:“初始级”的文件零散化;“连接级”的内容协作;“可度量级”的内容统一管理;“融合级”的内容服务与“智能级”的内容智能等特征(如图 3所示)。非结构化数据管理知识与实践(2023 版)14图 3 非结构化数据管理成熟度解决方案3.2.23.2.2 非结构化数据应用分级要求非结构化数据应用分级要求非结构化数据应用分级要求中规定了非结构化数据应用的能力模型与分级要求,主要包括管理制度、管理技术、业务支持、决策支持和安全合规 5 个能力域,适用于企业与组织的非结构化数据应用能力的评估。非结构化数据管理知识与实践(2023 版)15图 4 非结构化数据应用能力模型根据该模型,能够对企业非结构化数据的管理与应用能力进行全面的分析与评估,通过判断组织的每个维度处于哪个阶段,将组织的非结构化数据应用能力分为五个等级:a)第一级初始级初始级,组织机构基本上不存在有组织的非结构化数据管理;b)第二级连接级连接级,非结构化数据管理在组织机构内初步发挥作用;c)第三级可度量级可度量级,非结构化数据管理与组织机构的业务系统深度结合;d)第四级融合级融合级,利用各类数据来辅助工作成为组织机构文化的一部分,并且这种文化沿着供应链外延到上下游合作伙伴;e)第五级智能级智能级,组织机构内业务全面实现数字化转型。每个等级都会分别对企业、组织的五大能力域进行评判,并给出相应的描述与特征,方便企业管理者对自身现阶段非结构化数据应用管理能力有一个清晰的认知,从而调整自身的非结构化数据战略,对于薄弱环节进行加固与重视,帮助企业提升其非结构化数据管理能力,平稳地过渡到非结构化数据管理建设的更高层级。非结构化数据应用分级包括的五个阶段具体描述如下:第一级:初始级第一级:初始级 非结构化数据管理和相关系统在组织机构内不存在或者未充分发挥作用,应符合如下特征:a)组织机构内非结构化数据管理的机构、制度和资源配置尚不完善;非结构化数据管理知识与实践(2023 版)16b)组织机构内各项业务离散程度较高,主要依赖传统的资料传阅等方式实现业务协同;c)非结构化数据管理工具和系统装备简单,缺乏成体系的数据管理活动;d)非结构化数据管理对组织机构内业务生产、经营和决策的支撑能力较弱;e)主要依赖物理隔离实现访问控制和安全存储。第二级:连接级第二级:连接级 非结构化数据管理和相关系统在本机构的业务经营和决策过程中发挥了作用,应符合如下特征:a)组织机构内建立了非结构化数据管理制度,并对全员进行了适当培训;b)各类文件在所属业务、主题和操作环境等维度建立了关联;c)装备了非结构化数据管理系统,内外数据和文件可在必要时以全内容形式对本机构内提供服务;d)通过非结构化数据管理系统的权限配置和集中管控来控制安全风险。第三级:可度量级第三级:可度量级 非结构化数据管理与业务系统深度结合,在本机构生产经营决策过程中发挥了基础作用,应符合如下特征:a)数据和文件作为重要资产纳入本机构发展战略,在治理结构中占据重要地位;b)大多数业务活动通过信息系统开展,数据和电子文件业务伴生、网状联络的特征明显;c)建立了机构内部的非结构化数据管理系统,部分内外数据在非结构化数据管理知识与实践(2023 版)17系统内统一管理,管理的颗粒度精细到文件以下;d)非结构化数据管理系统中数据可较为全面地反映本机构运营情况,数据和文件在经营决策中发挥重大作用;e)采用边界检测、内容安全等一系列技术手段强化非结构化数据管理系统安全。第四级:融合级第四级:融合级 组织机构内大部分业务活动实现了数字化,用数据决策、用数据监督成为组织机构文化,应符合如下特征:a)非结构化数据管理成为组织机构发展的战略性支撑,数据治理成为本机构日常工作的重要部分;b)本组织机构产出的计算机文件(如设计图纸、产品说明、报告和各类文书)和业务凭证(如合同和财务凭证等)大量实现了结构化,采用国家标准格式并实现了“视读机读双支持”,其文件类型在地区、行业或国家对应注册中心注册,可高速检索匹配文件内容,可直接接收和使用外部生成的同类数据;c)非结构化数据管理系统广泛、深入接入各业务系统,准确反映本机构运营情况和外部环境,为组织机构领导层提供决策支持;d)非结构化数据管理和业务系统均由专业人员通过运维系统进行运维保障。运维系统能实时反馈目标系统的运行情况,预警可能出现的异常和故障,发生异常或故障时记录诊断数据,及时按照应急方案恢复系统运行;e)非结构化数据管理和业务系统达到计算机信息系统安全保护三级以上。第五级:智能级第五级:智能级 组织机构内业务全面数字化转型,数据成为本机构的核心生产要素,应符合如下特征:非结构化数据管理知识与实践(2023 版)18a)数据和文件成为组织机构的核心资产,内部定期开展数据资产评估并将其资产增值作为其重要发展目标;b)通过强化非结构化数据管理促进业务的开展。组织机构内非创造性工作均具备自动处理功能,业务系统对上下游和利益相关方的带动和促进效应明显;c)在非结构化数据管理中引入自然语言处理、知识图谱和深度学习等新技术,对数据的开发利用产生可度量的效益;d)在非结构化数据管理基础上全面实现智能管理和智能决策,可基于已发生的活动和内外经验,预测未来发展趋势,各业务在组织机构内外得到显著优化。每一级的能力要求均是在上一级别基础之上递进增加,通过使用配套的非结构化数据应用能力分级测试工具,帮助企业在每个能力域的细项上进行自我评估与自我定位,依托模型逻辑,得到对应的企业非结构化数据应用能力等级,查漏补缺,从而调整自身非结构化数据管理战略,帮助组织更好地对非结构化数据进行系统、科学地管理与应用,达到降本提效的目的。非结构化数据管理知识与实践(2023 版)19图 5 非结构化数据应用能力分级测试页面3.3.3.3.非结构化数据非结构化数据战略与战略与顶层设计顶层设计非结构化数据顶层设计即企业针对非结构化数据管理与应用的战略规划,需要基于组织的业务战略和 IT 战略开展建设,应确保与业务目标和 IT 目标相一致,同步制定顶层设计及战略规划的实施策略工作。良好的非结构化数据顶层设计会为组织的安全合规、运营效率、客户满意度等多方面提供支持。顶层设计的驱动力通常来自法律遵从性要求、诉讼响应能力、电子取证请求能力和业务连续性要求。这里将从非结构化数据管理战略制定的关键步骤,即:现状评估、业务效率、洞察创新、安全合规和数据文化等方面进行介绍(如图 6 所示)。非结构化数据管理知识与实践(2023 版)20图 6 非结构化数据管理战略图(1)现状评估现状评估的重点是对组织内非结构化数据现状开展全面评估工作。通过调研,获得非结构化数据存管现状、技术现状和应用现状的具体情况,并通过能力成熟度模型进行评估,分析出组织非结构化数据管理中存在的问题及所处的级别,识别出根本原因,明确下一步工作重点,为后续非结构化数据管理规划的升级与改革指明方向。(2)数据文化数据文化则需要培养组织全体成员由上至下、从纲领到实践的非结构化数据管理意识,理解数据从资源到资产的价值化过程,提升非结构化数据管理能力,落实非结构化数据举措,实现数据资产化的目标。(3)业务效率业务运营效率的提升是组织进行非结构化数据管理关注的重点,也是实行非结构化数据管理的首要目标。为了实现业务运营效率的显著提升,组织需要在内容协作效率、内容与业务深度、广度融合与内容快速响应业务变化等方面进行深度建设与更具有针对性非结构化数据管理知识与实践(2023 版)21地提升。(4)安全合规针对安全合规的需求,则要组织考虑对法律法规、内审追溯、隐私数据保护等规定的遵从性,从构建合规的内容管理体系出发,对数据实施全生命周期的安全管理。(5)洞察创新洞察创新作为战略中层级最高的一项,需要组织基于人工智能、知识图谱等前沿技术,进行启发式、交互式的非结构化数据挖掘、数据探索和信息推送,并且关注安全分析和智能决策的场景化应用,以及实现自动化应用与知识创新。3.4.3.4.非结构化数据治理非结构化数据治理非结构化数据治理是开展非结构化数据管理工作的关键,以统筹和协调非结构化数据管理各项工作有序开展为主要内容,其核心要素体现在组织、制度、文化和考核四个方面。(1)组织企业需成立非结构化数据的专门管理部门,下设相关的职能小组,如:文件管理组、档案管理组和中台运营组等。相关职责方面,文件管理组主要负责制度文件管理、公文管理和文件管理等;档案管理组主要负责文书档案管理、会计档案管理和科技档案管理等;中台运营组主要负责内容融合管理和内容服务管理等。成立类似的部门与组织有助于企业对非结构化数据的体系化、规范化管理。(2)制度组织应制定非结构化数据管理办法、规范和细则等相关制度体非结构化数据管理知识与实践(2023 版)22系,如:电子文档管理办法、非结构化数据管理标准等。通过组织对非结构化数据的规范性管理,提高非结构化数据治理水平。(3)文化为了更好地推进组织非结构化数据治理,组织应逐步树立起非结构化数据管理的文化,提升全员的数据价值观和数据管理文化素养,培养全员的非结构化数据资产化意识。(4)考核组织应通过开展非结构化数据治理的评价与考核,贯彻落实非结构化数据管理战略及目标,跟踪执行过程中的实施情况,及时发现组织非结构化数据管理中的问题,提出优化和改进建议。3.5.3.5.非结构化数据管理非结构化数据管理非结构化数据管理作为组织的重要职能,是落实非结构化数据顶层设计及治理的关键。主要包括非结构化数据标准、元数据、数据质量、数据安全、数据合规和数据集成等六个方面内容。3.5.1.3.5.1.非结构化数据标准非结构化数据标准非结构化数据标准是组织对非结构化数据提出的规范性要求。组织应以非结构化数据标准体系构建为基础,指导和规范各类非结构化数据管理工作。非结构化标准体系构建包括了对内容模型、内容分类、编码命名、内容格式、内容本体、版本策略、元数据、内容指标和内容接口等规范的标准。(1)内容模型标准内容模型标准主要包括子域规划、活动模型规划、文件版本规划、结构化规划、元数据建设、体系合规建设、安全策略等各个方非结构化数据管理知识与实践(2023 版)23面。子域规划从业务过程出发,构建出多层级式的子域结构;活动模型规划从文件发送、共享和外发等流转活动出发,关注文件的动态业务活动;文件版本规划关注文件的主次版本、生效版本、修订版本、版本留存数量等版本规范;结构化规划关注图像类、专业类文件如何基于 OCR 识别、兼容解析等技术实现内容结构化;元数据建设从行业元数据和内容元数据两方面进行规划和建设;体系合规建设是从文件的新增、修订、权限申请以及敏感内容等方面进行规范;安全策略是从授权访问限制、共享外发安全和水印安全等方面进行规范建设。内容模型作为规范和标准,在非结构化数据管理的过程中尤为重要,内容模型是构建内容库的基础。良好的内容模型需要对各类活动模型、版本模型、权限模型、元数据模型、流程模型和安全模型等各个环节进行全面和规范化的构建。内容模型与内容库关系紧密,内容库的每个层级都对应着不同业务体系化的数据。不同业务要求不同的数据规范,这些规范的建设都是需要通过内容库的内容模型来实现的。(2)内容分类标准内容分类标准是指目录树分类、标签分类、智能分类和分类编号等方面的规则和规范。目录树分类侧重于体系化内容的分类建设,根据组织维度、业务维度、战略维度等进行内容划分。如果说目录树分类是内容的“垂直分类”,那么标签分类则侧重于内容的“横向分类”。标签分类是在“垂直分类”的基础上,支持跨业务目录的一种分类方式;同时标签分类是在用户对内容理解的基础上,对内容进非结构化数据管理知识与实践(2023 版)24行标签化标注的一种以内容为维度的分类方式。智能分类是标签分类的延伸,基于人工智能自然语言处理(NLP)技术实现对内容的智能标签分类,辅助人工标签化的过程。分类编号是通过格式化的编码自动生成分类号进行内容分类,进而延伸出的业务逻辑分类。内容分类的建设过程主要包括内容分类梳理、分类规范建设、分类执行、分类结果分析评审等关键环节。其中,内容分类梳理需要组织明确内容分类规范;分类规范建设主要遵循漏斗结构原理进行梳理,包括现状调研、现状评估、分析梳理、知识规划、展示设计、用户评价等阶段过程。内容分类规范性还体现在文档管理的分类分级,需要满足各个层级的用户内容需求,内容分类需要具有清晰的层级结构,从而为后续的多维文档提供良好的支撑。(3)编码命名标准编码命名标准是指编码分类、代码表、流水码、手动命名、自动命名等方面的规则和规范。(4)格式标准格式标准主要体现在模板库、文件格式、文档尺寸、文件大小、文档期限、文档保管格式等方面。(5)内容本体标准内容本体标准主要体现在内容分类分级、内容敏感度、敏感词过滤、内容密级、内容模板和内容审批等方面。(6)版本标准版本标准主要体现在主版本(生效版本)、次版本(修订版非结构化数据管理知识与实践(2023 版)25本)、历史版本、版本控制、版本配置、版本清理、版本策略管理等方面。(7)元数据标准元数据标准主要体现在内容属性、内容扩展属性、内容结构、内容标记、内容类别、元数据分类、元数据格式、元数据检验、元数据追踪等方面。(8)指标标准指标标准主要体现在内容指标体系、内容指数、内容维度、内容度量和内容指标项等方面。(9)接口标准内容服务接口标准主要体现在接口类型、接口引擎、接口集成、接口配置、接口策略、第三方扩展接口服务、应用程序接口等方面。3.5.2.3.5.2.非结构化元数据非结构化元数据非结构化元数据是开展非结构化数据管理的基础,组织应当基于非结构化数据战略构建具体的元数据管理战略。元数据是描述数据的数据(Data about data),主要是描述数据的上下文信息。非结构化数据的元数据,需要在非结构化数据上下文环境中构建关联,便于对非结构化数据进行发现、使用、管控和洞察。组织中的非结构化元数据管理目标体现在四个方面:(1)形成统一的信息地图与知识传承平台,有助于解决数据孤岛的问题;(2)形成整个机构或行业范围的指标库,统一指标和业务内容管理过程;非结构化数据管理知识与实践(2023 版)26(3)消除系统与内容平台或电子文件的孤立关系,为规划和设计业务提供数据间的内在联系;(4)维护业务与数据之间的一致性,如一致的数据使用方式、一致的数据服务输出和一致的企业数据流程规范等。非结构化元数据管理包括非结构化元数据定义、非结构化元数据策略、非结构化元数据权限、非结构化元数据应用和非结构化元数据分析等。其中,组织需要特别注重非结构化元数据应用、非结构化元数据安全和非结构化元数据治理工作。3.5.3.3.5.3.非结构化数据质量非结构化数据质量高质量的数据是实现数据价值的前提,非结构化数据质量管理需要从数据质量方针、数据质量策略、数据质量制度、数据质量标准等方面开展整体性的构建,且围绕数据全生命周期开展数据质量持续提升的工作,以确保数据质量满足不同业务的需求。非结构化数据质量管理需要获得业务、信息和技术的全面支撑,且需要获得相应的资源投入支持。落实非结构化数据质量管理和改进实施工作,主要涉及如下方面:(1)非结构化数据质量要求,数据中是否包含了足够丰富,容易产生价值的结构化信息,涉及非结构化数据的真实性、完整性、可用性和安全性方面;(2)非结构化数据的质量控制,反映在模板(规则)、流程、技术和人员等方面;(3)非结构化数据的质量检查,反映在数据质量审计、智能定密、- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结构 数据管理 知识 实践 白皮书
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文