数字人文视域下图像知识复用语义模型研究_陈涛.pdf
《数字人文视域下图像知识复用语义模型研究_陈涛.pdf》由会员分享,可在线阅读,更多相关《数字人文视域下图像知识复用语义模型研究_陈涛.pdf(10页珍藏版)》请在咨信网上搜索。
1、106数字人文图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)数字人文视域下图像知识复用语义模型研究陈 涛(中山大学信息管理学院)摘要 知识是人类认识的结晶,当知识转移时便产生了知识复用。数字技术高度发展的今天,图像应纳入数据流通环节,成为一种“活”的资源。论文从描述层面、组织层面和内容层面 3 部分构建了图像知识语义模型,分别对应图像的元数据复用、图像复用和内容复用。其中,内容层面的语义模型又涉及对象目标的内容、标签、方位和语义关联 4 个维度。在图像知识语义模型基础上,论文从“图像复用”“标注复用”和“混合复用”3 方面构建图像知识复用链
2、。案例分析部分从“图像复用”“研究独立”和“知识传承”3 个角度探讨了图像知识复用的优势,尽可能为图像资源的数字人文应用提供崭新的研究视角和可操作路 径。关键词 数字人文 知识复用 图像知识语义模型 关联数据DOI:10.13663/ki.lj.2023.02.013Research on Semantic Model of Image Knowledge Reuse from the Perspective of Digital HumanitiesChen Tao(School of Information Management,Sun Yat-sen University)Abstrac
3、t Knowledge is the crystallization of human cognition,and knowledge reuse occurs when knowledge is transferred.Today,with the high development of digital technologies,images should be incorporated into the data circulation link and become a“living”resource.The thesis first constructs the semantic mo
4、del of image knowledge from three parts:description level,organization level and content level,which correspond to image metadata reuse,image reuse and content reuse respectively.Among them,the semantic model at the content level involves the four dimensions of the object targets text,tag,region and
5、 semantic association.Based on the semantic model of image knowledge,the paper discusses the construction of the image knowledge reuse chain from“reuse of images”,“reuse of annotations”and“hybrid reuse”.The case analysis part explores the advantages of image knowledge reuse from the perspectives of“
6、image reuse”,“research independence”and“knowledge inheritance”,and tries to provide new research perspectives and operable paths for the digital humanities application of image resources.Keywords Digital humanities,Knowledge reuse,Image knowledge Semantic model,Linked data0 引言知识是人类认识世界的概念化表达,是人类活动的精
7、神遗产。辞海对“知识”的定义是人类认识的成果或结晶。中国大百科全书对“知识”的定义是人类认识的成果,是在实践的基础上产生,又经过实践检验的对客观实际的反映。人们在日常生活、社会活动、科学研究、生产实践中获得对事物的认识,其中可靠的成分即为知识1,知识可分为显性知识和隐性知识。通常以书面文字、图表和数学公式*本文系国家社科基金“智慧数据驱动的公共数字文化资源知识图谱构建与应用研究”(项目编号:21BTQ105)和中国图书馆学会重点项目“知识互联下的文化遗产图像多模态语义框架研究”(项目编号:2022LSCKYXM-ZZ-ZD002)的研究成果之一。陈 涛Chen Tao(图表扫码读取)陈 涛:数
8、字人文视域下图像知识复用语义模型研究Chen Tao:Research on Semantic Model of Image Knowledge Reuse from the Perspective of Digital Humanities107加以表述的知识,称为显性知识;而在行动中所蕴含的未被表述的知识,称为隐性知 识。知识复用是知识管理的重要环节之一,当知识从拥有它的人转移到使用它的人时,便产生了知识复用。“知识复用”意味着知识的转移是公开的、可重复的,并且对未来的知识使用者有益。与简单的知识共享有所不同,知识共享强调的是知识的传播,知识复用强调的是知识的再生产与重新发布。知识复用通常
9、包括知识获取、知识再加工、知识发布或传播 3 个步骤。通过复用,可以提高图像知识的利用效率,快速实现资源与知识的共 享。虽然人类社会有了文献就已经有了信息资源(Information Resources),但是图像资源作为数字人文中非文本资源的主要形式之一,蕴藏着大量的知识财富有待挖掘。信息技术发展的今天,图像不再仅仅作为某些资源的附属品,更多地是作为珍贵史料、珍稀手迹以及非物质文化遗产知识传承的重要载体。我们认为,图像知识复用不能仅仅认为是图像的复制,而应该从图像自身载体、图像元数据信息、图像蕴含知识等多方面进行考虑。本文将聚焦在图像资源的知识复用环节,试图厘清图像知识传播中的多种途径,并尝
10、试构建图像资源知识复用框架,尽可能为图像资源的数字人文研究探索新的应用方向,从而让知识得到合理、有效的传播与利 用。1 相关研究当前数字人文领域中,以图像资源为对象的相关研究正成为学术热点,目前学者对图像资源开展的研究主要集中于图像数据库、图像标注和数字人文众包等方面。其中,图像数据库主要关注知识共享与传播,图像标注和数字人文众包则聚焦于知识的生成与加 工。(1)图像数据库方面。陈亮指出图像数据库的发展与图像学研究相辅相成,高清图像库、技术图像库的建设,以及各种图像志索引和图像数据库的结合将对艺术史的发展起到重塑根基的作用2;颜佳等指出数字人文研究的兴起,引发了图档博等文化记忆机构构建图像数据
11、基础设施的需求3;杨敏等从内容描述层面、数据库建设技术层面、服务和版权层面深入分析,提出图像库建设呈现出深度融入互联网、跨学科融合以及图像的多维度语义标注趋势4。平台方面,如上海图书馆的中国近代文献图库结合先进的数字化现代技术处理手段,收录了中国近代时间跨度近 200 年的报刊图片数字资源,为人文学者开展学术研究提供了大量珍贵的图像资 源。(2)近年来,数字人文领域不少学者开展了图像标注方面的研究,陈涛等从“图像层面的元数据注入”“对象层面的内容抄录”和“语义层面的深度标注”3 个维度提出了图像资源多方位注释模型5;徐雷等结合开放标注协同框架(OAC),以情节、实体、活动、情境为核心,解决了叙
12、事型图像时空信息组织表达以及叙事模型和标注信息映射的问题6;王晓光等为了满足对文化遗产图像的细粒度标注和语义增强的新兴需求,设计了针对文化遗产图像的 DSA(深度语义标注)框架7;陈金菊等也从图像语义标注模型、图像语义标注工具、语义鸿沟问题以及解决该问题的方法出发,对图像语义标注研究进行了总结和分析8;王若宸等则针对非遗图像资源,提出了专门面向非遗图像语义信息的描述方法9;曾子明等根据用户认知特征制定图像语义结构化描述框架,提出了一种面向数字人文的图像语义描述模型10。(3)数字人文众包以聚集大众智慧为数字人文研究提供可分析资源,往往通过大众抄录实现图像的标注,因此常和人机交互相结合。伦敦大学
13、学院发起的边沁手稿抄录项目通过收录用户抄录的手稿全文数据,建设可全文搜索的边沁文集数据库11。考虑到手稿、古籍、家谱中由于书写笔记凌乱、风格迥异、形式复杂,OCR 识别正确率低,上海图书馆分别建设了元数据深度标引和全文著录的“历史文献众包平台”12。韩文婷等借助盛宣怀档案众包抄录项目,探讨了不同任务复杂度和领域知识水平下,众包抄录任务的绩效差异13。近年来,也有相关学者开展了知识复用方面的研究。如穆向阳采用模型构建和系统分析方法,对图书馆、档案馆、博物馆(LAM)的知识重用体系进行总体理论框架设计和相关具体方法探讨,构建了基于协同编辑关联表方法的 LAM 知识重用体系14;傅柱等构建面向知10
14、8数字人文图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)识重用的设计过程知识语义模型,并利用本体对语义模型进行形式化表示15;李国洋对国外关于知识重用的研究进行了简单评述,并主要介绍了用于创新的知识重用(KRI)模型16;Jianyu Zhao 等将知识重用分为知识搜索、知识评估、知识重组和知识创造 4 个阶段,并围绕这些阶段开发了知识重用机制模型17。综上所述,图像标注和数字人文众包这两种方法都可以看成是图像知识的生产过程,而非知识的复用。图像标注可以看成是知识生产者单方面的知识发布过程,目的是图像深度知识的共享和传播,当多人对图像进行协
15、同标注,则成了众包;数字人文众包中的图像可以认为是一种知识协同加工过程,本质也是一种标注。与这两者有所不同,图像知识复用追求的是图像某个状态的知识被再次利用或被多次利用的过程。在针对知识复用的研究中,也很少有针对图像资源的知识复用方面的探 索。2 图像知识语义模型数字人文研究中大量的图像级应用都会对图像资源进行描述和组织,但仍然是传统的关系型存储方式,图像知识虽然可以复用,但开放程度不够,知识的共享与交互难度较大。万物互联时代加速了数据的融合与联动,也给知识的复用提出了新的要求。图 1 从描述层面(元数据)、组织层面(框架)和内容层面(注释)3 部分组织图像语义模型,横向描述层面和纵向内容层面
16、针对图像进行元数据和内容方面的语义组织,实现内容的复用;而垂向的组织层面则在建立图像之间的相互结构关系,实现图像的复用。每个层面的数据皆采用资源描述框架(RDF)进行结构描述,并用图数据库进行存 储。2.1 描述层面语义模型描述层面的知识主要是元数据信息,语义模型见图 2,主要是从元数据层面进行一些结构化的信息描述。需要注意的是,进行元数据描述时,描述的对象并非具体的图像本身,而是由一张图像或多张图像组织而成的藏品。常用的元数据描述字段有题名、创作者、创作时间、描述、收藏机构、分类、许可声明、页码、尺寸等,这些信息大量存在于各馆藏机构中,因此在实际应用时,可以直接从馆藏信息中进行转换和导入。这
17、里的元数据描述也将使用三元组方式进行存储,以支持后续的知识检索,对应的元数据描述见表 1。除了 iiif:metadataLabels 属性外,其他的属性都比较容易理解,这里不再赘述。论文的图像语义模型使用了国际图像互操作框架(IIIF),因 此 这 里 使 用 了 iiif:metadataLabels 对 象 属性(Object Property)来连接更多的元数据信息,连接的元数据信息通常使用空节点(Blank Node)来组织。扩展的元数据信息都将使用rdfs:label 和 rdf:value 来表示元数据字段名和取值,如可将作者、创作时间、分类信息描述为:a iiif:Manife
18、st;iiif:metadataLabels(_:genid1 _:genid2 _:genid3)._:genid1 rdf:value 韩干 xsd:string;rdfs:label 作者 xsd:string._:genid2 rdf:value 唐代 xsd:string;rdfs:label 创作时间 xsd:string._:genid3 rdf:value 国画 xsd:string;rdfs:label 分类 xsd:string.组织的元数据信息属于结构化的数据,采用图数据库进行存储,可提供检索、导出,乃至实现在线的对外关联链接服务,这些应用都是元数据层面知识复用的主要形
19、式。2.2 组织层面语义模型组织层面的知识主要是图像之间的组织,类似于 PPT 或者 PDF,如何对图像进行组织,形成特定的研究专题或者图册资源。更为重要的是,组织后的研究专题中的图像如何提供快速的图像复用,是组织层面需要探索和解决的问题。IIIF 提供了很好的图像组织、交互与共享模式。然而绝大多数 IIIF 的应用都只聚焦于资源的呈现,很少涉及图像资源的复用。我们基于 IIIF 框架,从图像复用层面进行了探索和陈 涛:数字人文视域下图像知识复用语义模型研究Chen Tao:Research on Semantic Model of Image Knowledge Reuse from the
20、 Perspective of Digital Humanities109思考,组织层面语义模型见图 3,该语义模型很好地描述了图像、画布和藏品三者之间的关系1819。图像(Image):图像通过图像服务器提供对外访问地址,每幅图像都拥有唯一的 URI 地址,图像在进行复用时并不直接下载图像,而是在线引用图像的 URI 地 址。画布(Canvas):图像在使用时,并不直接组织起来,而是通过画布(Canvas)形式进行连接。画布可以理解为 PPT 中的某一页,在画布中可以放置各种图像资 源。藏品(Manifest):一个或多个画布组织成藏品,即藏品中可以含有一幅或多幅图像,并按照一定的顺序(从左
21、到右、从右到左)组 织。语义模型中藏品 A 由图像 A、B、C、D 组成;藏品 B 由图像 C、D、E 组成;藏品 C 由图像 D 组成。由此可见,图像 C 同时存在于藏品A 和藏品 B 中;图像 D 同时存在于藏品 A、藏品 B 和藏品 C 中。图像节点用了不同的颜色表示图像来源于不同的机构,它们都通过各自的唯一 URI 接入到整个知识网络,形成不同来源图像的复用。需要注意的是,这里仅列出了部分核心节点和关系,详细的可以参考 IIIF 官方文 档。藏 品 和 画 布 之 间 使 用 属 性 iiif:hasCanvases 链接,画布和图像之间通过 oa:hasBody 属性链接,组织的语义
22、模型最终同样以 RDF 进行描述,并存储于图数据库中。复用时,将会获取不同图像的发布地址(URI),进行组织20。2.3 内容层面语义模型内容层面的知识涉及面较广,从对图像内容的抄录、注释到图像对象目标的分类、语义关联等。注释的知识主要针对图像中的对象而言,对象可以理解为图像中的具体目标,一匹马、一棵树、一个地名、一个人名,甚至一段文本、一个文字,只要是可描述的区域,都可以称之为对象。对象知识涉及“内容”和“分类”两种类型信息,内容方面知识可以包括对象的内容、色泽、纹理、形状等可见部分的阐述;分类方面知识为目标对象的分类和标签信息。对象的知识如果是对整个图像的描述,如质地,建议在描述层面(元数
23、据)中进行描 述。内容层面语义模型采用 W3C 推荐的 Web注释数据模型(WADM:Web Annotation Data Model),该模型见图 4。WADM 模型提供了一个可扩展的和互操作的框架,用于描述标注信息,同时可方便地在平台之间轻松共享批注。这样既可以有足够的丰富表达方式来满足复杂的标注需求,同时又能使结构保持足够简单。在实际实施中,为了实现图像知识的快速获取和更多知识的融入,在 WADM 模型基础上集成了语义知识关联模型和目标检测算法。WADM将注释目标(Target)和标注主体(Body)分离,分 别 用 oa:hasBody 和 oa:hasTarget 属 性进行组织,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 人文 视域 下图 知识 用语 模型 研究 陈涛
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。