基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现.pdf
《基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现.pdf》由会员分享,可在线阅读,更多相关《基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现.pdf(6页珍藏版)》请在咨信网上搜索。
1、139基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现Exploration of Landscape Elements in Tang Poetry and Scene Representation of Qiantang River Poetry Road Based on Natural Language Processing摘 要:在4条诗路文化带推进诗画浙江大花园建设的背景下,借助自然语言处理技术,创新一种以景观名词单字为参数的古诗词异化词条归一化路径,通过Python编程代码、Gephi共现语义网络、词云分析与GIS核密度分析,实现钱塘江诗路唐诗的景观要素挖掘、场景画面提炼与
2、空间意象分布特征分析。结果表明:1)日月星光、水岸景观、浪潮、鸟类、舟船、行客、隐士逸人是唐代钱塘江诗意画卷的核心构景要素,同时,上、中、下游在人居环境风貌上分别侧重于乡土田园、山林幽居、滨江城郭等特质;2)按照影响力强弱,钱塘江流域唐诗所描绘的诗意场景可依次排列为缘江行舟、坐城观涛、江村田居、林泉渔隐4类意象;3)在自然地理、社会经济、历史文化等多元因素的影响下,缘江行舟在空间格局上呈现全域分布的特征,林泉渔隐、江村田居在中游高度集聚,坐城观涛与下游滨江城郭的整体风貌相契合。从而为诗意栖居营建智慧的科学认知与在地传承提供参考。关 键 词:风景园林;数字人文;自然语言处理;唐诗景观;空间意象;
3、钱塘江流域Abstract:Under the background of promoting the construction of the Great Garden of Poetic Zhejiang in the four poetic roads cultural belt,this paper explores the landscape elements,represents scene pictures and analyzes spatial imagery distribution of the Tang poems of Qiantang River poetic roa
4、d with the employment of natural language processing technology,a single word-based dissimilar entry normalization method of Chinese ancient poetry,Python programming code,Gephi co-occurrence semantic network,Word cloud analysis and GIS kernel density analysis.The results are that 1)Sun,moon and sta
5、rs,waterfront,waves,birds,boats,travelers,hermits are the core landscape elements of the poetic picture of Qiantang River in the Tang Dynasty.And the upper,middle and lower reaches focusing on the characteristics of rural pastoral,seclusion in mountains and forests,and riverside residence respective
6、ly in terms of the style of human settlements.2)According to the strength of influence,the poetic scenes depicted in Tang poems on the Qiantang River basin can be successively summarized into four types of images:boating along the river,watching the waves from the tower,farming in a riverside villag
7、e,and residing and fishing in the seclusive forest.3)Under the influence of multiple factors such as physical geography,social economy,history and culture,boating along the river appears in all reaches,forest seclusion and riverside residence dominates the middle reach,while watching the waves from
8、the tower accords with features of the lower reach where many towns stood by.This provides a reference for the scientific research and thinking over the construction of smart poetic dwelling.Keywords:landscape architecture;digital humanities;natural language processing;Tang poetry landscape;spatial
9、imagery;Qiantang River basin徐 涛徐 斌*张亚平李佳艳XU TaoXU BinZHANG YapingLI Jiayan文章编号:1000-6664(2023)07-0139-06DOI:10.19775/j.cla.2023.07.0139中图分类号:TU 986 文献标志码:A收稿日期:2022-05-29修回日期:2022-09-14基金项目:浙江省重点研发计划“乡村生态景观营造技术研发浙江省乡村生态景观营造技术研发与推广示范”(编号2019C02023)资助 1 研究背景1.1 传承“诗意栖居”营建智慧诗是“文学中的文学”,是具有中国古典文化特色的地理认知表
10、达方式1。既往研究表明,诗词文本是还原社会生活图景、传达理想景观认知、阐述在地文化内涵的基础资料2。对诗词文本语义的挖掘为知悉古人景观审美、洞见古代城乡风貌、传承诗意栖居营建智慧提供支撑。此外,文本信息的空间属性逐渐成为历史文本语义表达的热点。相关研究3-4便体现了古诗词系地研究对区域环境风貌优化的重要价值。然而,一些地方的建设实际与诗意栖居的内涵、特征存在差距5。尤其在广袤的乡村,营造“望得见山,看得见水,记得住乡愁”的诗画风貌任重道远6。这一现状从侧面反映出诗词文化价值的识别意义重大,诗词景观空间的解译与诗意栖居营建智慧的探索亟待深入。浙江省人民政府在2019年10月发布了浙江省诗路文化带
11、发展规划,决策部署浙东唐诗之路、大运河诗路、钱塘江诗路、瓯江山水诗路四大诗路文化带。其中,钱塘江诗路范围最广、跨度最大,自隋唐运河南北贯通后被往来文人盛赞为“东南财赋地,江浙人文薮”。而唐代是钱塘江诗路奠定雏形的发生发展期,唐诗是探源诗路文化内涵的一手材料。因此,以钱塘江诗路唐诗为研究对象,挖掘诗情画意的景观要素与空间意象,解析如诗如画的自然风貌与人文情境。*通信作者(Author for correspondence)E-mail:徐涛,徐斌*,张亚平,李佳艳.基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现.中国园林,2023,39(7):139-144.140中国园林/2023年/
12、第39卷/第7期1.2 “自然语言处理”进阶文本挖掘能力“数字人文”(Digital Humanities)是全球人文学者瞩目的新兴跨学科领域。得益于数据库的建设、数字平台的开发与研究范式的创新7-9,“数字人文”延展了众多学科领域的对象范畴与思维理路。其中,自然语言处理(Natural Language Processing,NLP)作为“数字人文”的关键技术,以统计代替文法规则,完成了人类语言与计算机符号之间的双向转译10,进而被广泛应用于摘要生成、文本聚类、机器翻译等多种文本挖掘场景11。在技术层面,近年来多数研究都将重点聚焦于新模型的开发与优化组合上。例如在卷积神经网络(CNN)12、
13、循环神经网络(RNN)13等语言建模模型的基础上,为应对计算能力有限导致信息超载、语料资源缺乏导致数据不足等问题,一系列基于预训练模型(MASS)的改进模型14为文本挖掘带来了革命性进步。同时,NLPIR-ICTCLAS汉语分词系统15为中文语料的自然语言处理提供了强大支撑,成为中文世界“数字人文”研究的奠基之作。在应用层面,国内外研究主要涉及社交媒体、电子商务、医疗健康、专利分析等。例如,Wang等16基于深度学习的混合NLP方法,从CLAMP工具中快速构建了性能更优的COVID-19症状系统;Yang等17通过关联关键词fear的相关文本数据分析,更好地反映了投资者情绪。可见,NLP作为计
14、算机科学与语言学的融合焦点10,为不同语言形式的文本挖掘与不同行业领域的知识发现开辟了广阔前景。1.3 古诗词文本挖掘的关键参数创新借助对某一景点相关诗文的要素抽取、意境解析与意象探讨,传统的古诗词景观研究对深入探究典型样本的诗意内涵具有重要价值,尤其是对文字背后深藏的个性审美与情思隐喻具有深入理解2,18。然而,过于精细化的研读导致其缺乏处理大量样本的能力。在这一方面,更侧重场所空间集体认知与景观审美普遍经验19的NLP研究范式恰恰能与其互补。虽然某些单词在个案中的隐喻偏向及语境不同所产生的语义流变难以被精细识别,但NLP技术能够快速挖掘并充分利用海量数据背后的集体潜意识,为古诗词的批量处理
15、创造可能20。因此,基于NLP的古诗词文本挖掘与传统的古诗词景观研究在效率与细节、广度与深度上各有侧重、相辅相成。然而,诗句中同种景观语义的符号往往因修辞、语境的不同而异化为形式多样的词条,这种语言特征成为NLP研究中“强化共性,提取主流”5的巨大阻挠。因此,将非结构化、异化的源词条按照“同(近)义词”归并为标准词条成为常见做法4-5。但这种方式需要遍览整体古诗词样本,人工逐一判断并登录词条的对照关系,耗费大量人力,且难以在新的研究对象中沿用推广。因此,一种自动化效率更高、复用性更强的异化符号归一化路径亟待探索。古诗词是高度凝练的语言艺术,古汉语是以“单音节”(单字)为主的语言21。同时,符号
16、意指系统认为,在词条中语义源主要来自名词,而色彩、数量、方位等限定词仅充当辅助语22。由此,本研究创造性地以“景观名词单字”代替、归并形式多样的景观要素词条,作为古诗词文本挖掘的关键参数。这种“以字代词,归并差异”的思路仅通过对核心参数的调整,便使全过程大部分环节都能凭借机器分词、命名实体识别等自动化处理步骤来实现,进而更快速地构建了古诗词景观语义系统,弥补了既往研究在数据预处理时操作烦琐、人力投入大、复用性不佳的缺憾。综上,本研究以钱塘江诗路唐诗为对象,创新了一种以景观名词单字为文本挖掘关键参数的思路,充分发挥了NLP技术在批量处理上的强大效能。同时,结合共现语义网络、核密度分析等手段,提炼
17、景观要素与空间意象,呈现诗词文学地图,为区域城乡风貌的差异化建设、诗意栖居营建智慧的在地性传承提供参考。2 研究方法2.1 文本数据来源与异化词条归一化处理以钱塘江诗词选中收录的89位诗人的262首唐诗(总计15 069字)为研究材料。首先,为自动筛除不可切分的专名,借助Jieba模块,完成分词、命名实体识别等步骤,得到钱塘江诗路唐诗历史典故。之后,为批量清洗低频单字及语义辅助单字,调用Collections、Posseg等函数,实现字频统计、词性标注等工作。最后,从获取的名词单字集合中识别景观名词单字,得到钱塘江诗路唐诗景观要素单字。2.2 景观要素单字与历史典故词汇的分类统计借鉴章政23、
18、李源4等的做法,将103个历史人物专名与198个景观要素单字划分为天景、地景、水景、生景、人物、建构与典故7个类别。依托Collections模块,统计比较各类别要素的出现频率,探究钱塘江诗路唐诗的典型自然景源要素与人文景源要素。2.3 诗词共现语义网络呈现与文本聚类根据每2个景观要素单字在同首诗中的共现频次,构建198198的共现矩阵。之后,将其导入Gephi 0.9.3软件,借助社区探测算法,依据要素间的关联性将诗词景观要素自动聚类。利用平均度统计功能,过滤影响力较弱的单字。在此基础上,将各聚类中的景观要素细分,重组为“天景-地景-水景-生景-建构筑-人物”的景观组合序列。2.4 空间意象
19、分布特征的核密度分析结合“唐宋文学编年地图”24推导研究材料中160首唐诗的地名线索。借助Requests模块,在百度地图API中爬取诗词写作地点坐标,构建各类别诗词文本空间信息一体化数据集。最后,利用GIS核密度分析工具,分类呈现钱塘江诗路唐诗场景意象的分布结果。3 钱塘江诗路唐诗景观要素挖掘钱塘江诗路唐诗所蕴含的景观要素可分为两大类、7个中类、47个小类。大类方面,自然景源要素(2 075次)比人文景源要素(711次)的提及频数更高,一定程度上反映出古人对自然景物的偏爱;中类方面,水景(590次)和建构设施(349次)分别为自然、人文景源中最易被古人感知的类别,这一结论在契合钱塘江地理属性
20、的同时,也彰显了古人的环境审美意趣;小类方面,日月星光、水岸景观、浪潮、鸟类、舟船、行客、隐士逸人等是钱塘江流域唐诗画卷的基本构景要素。3.1 自然景源要素由 图 1 可 知:在 地 景 和 水 景 方 面,“嶂”“崖”等仅见于上游,“洄”“濑”等仅见于中游,体现出上中游区段“山峻水急”的特质25;而在下游,“皋”“浦”等特征单字强调了滨水平地的位置属性。在植物景观方面,上游的“荷”“杉”等体现了“荷香坐久著衣巾”的乡土风情;中游的“萝”“枫”等体现了“翠萝深处遍青苔”的山野逸趣;下游的“荻”“苹”等体现了“荻花寒渡思萋萋”的滨水景观。在动141中国园林/2023年/第39卷/第7期物景观方面
21、,“鸡”“蝶”等乡村的代名词集中于上游;啸聚山林的“猿”在中游数量最多;而下游主要为“鲸”“鳌”等海洋生物。可见,山川地貌、花草树木、鸟兽虫鱼是诗人游赏行为的重要诱因与地域特色的鲜明标志。因此,尊重区域山水格局、摸排当地生物资源,做到“显山露水,知花知鸟”,对推进钱塘江流域地方生态名片的个性化打造具有重要意义。值得注意的是,通过“坳如开玉穴”等诗句发现,“岫”“穴”等并非现实景物,而是诗人对波涛、浓云等的形象比拟。这类用字虽然出现频率极低,但却对厚植场所人文内涵、抒发空间艺术魅力具有增益效果,需在更精细的景观要素挖掘中得到充分关注。3.2 人文景源要素由 图 2 可 知:在 建 构 筑 方 面
22、,从“帆”“津”“桥”等水运设施中能窥见唐代钱塘江流域因水而兴的生活画卷;“寺”的反复出现映射了江南地区“东南佛国”的重要地位;此外,从“府”“阙”“驿”等众多建筑形制中能够推测下游城镇化水平在当时显著高于其他区段26186。在人物方面,“客”在全流域的高频出现反映钱塘江自江南运河开凿以来的交通繁忙26165;“渔”是当地水乡泽国环境下的经济产业代表;“隐”“僧”“仙”是当时三教并存背景下的文化信仰使者。可见,人造设施、建构筑、人物对认知区域城乡风貌、产业结构、文化信仰具有显著标识作用。因此,对历史遗存建筑的保护、传统建构符号的转译、“画中人”形象的挖掘是诗意栖居营建智慧传承的有效途径。历史典
23、故是在地文化挖掘与场所精神塑造的重要支撑。纵观整个流域,上游中陶渊明被高频提及,说明此处的乡村风光不亚于“世外桃源”;中游,严子陵“羊裘垂钓”的高风亮节令后世诗人竞相吊怀;而下游作为吴越争雄的用武之地27,伍子胥、范蠡等名臣良相成为脍炙人口的地域文学话题。可见,典故作为古诗中历久弥新的“文化偶像”,更应予以活化利用,成为提升钱塘江流域文化归属与精神认同的重要依托。3.3 景观要素挖掘的可信度检验研究随机抽取了45个景观名词单字,采用“单字-词条”语义对照的方式展开景观要素挖掘的可信度验证。结果表明,45个景观名词单字在诗句中共构成了1 087个景观要素词条,其中,与单字语义相符的词条占比达85
24、.6%,说明“以字代词,归并差异”的异化词条标准化方法具有较高的准确度。4 钱塘江诗路唐诗场景画面提取在由4 335组共现关系组成的图3中,圆点与文字的大小对应景观要素单字的节点度,即该要素在文本中的重要性。而连线的粗细表征源要素与目标要素之间的边权重,即某对要素之间关联的紧密程度28。通过比较,发现聚类一的平均节点度与平均边权重最高,说明聚类一在钱塘江诗路唐诗中的认知度最为广泛,其次是聚类二、聚类四和聚类三。4.1 类簇一:缘江行舟泛江漫游,孤舟怅行类簇一(图4)的主要要素有“孤舟征帆”“夹岸云山”“鸟飞猿啼”“江流洲滩”等(图5)。同时,“新安江上孤帆远,却令猿鸟向人悲”等诗句也描绘了“沧
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 自然语言 处理 钱塘江 唐诗 景观 要素 挖掘 场景 呈现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。