交通相关学科研究生学位论文主题挖掘与演化分析.pdf
《交通相关学科研究生学位论文主题挖掘与演化分析.pdf》由会员分享,可在线阅读,更多相关《交通相关学科研究生学位论文主题挖掘与演化分析.pdf(7页珍藏版)》请在咨信网上搜索。
1、 63 TRAFFIC&TRANSPORTATION2023 年 11 月 第 39 卷第 6 期(总第 230 期)Nov.2023,Volume 39No.6(Serial No.230)收稿日期:2023-08-22基金项目:国家自然科学基金创新研究群体项目(72021002)第一作者简介:周心悦(2000-),女,汉族,湖北黄石人,硕士研究生,主要研究方向:城市交通。交通相关学科研究生学位论文主题挖掘与演化分析周心悦1,许项东1,2(1.同济大学 城市交通研究院,上海 200092;2.同济大学 道路与交通工程教育部重点实验室,上海 201804)摘 要:交通相关学科的交叉性日益增多。
2、以中国知网和万方数据库中近 20 年交通相关学科的硕博学位论文为数据源,对交通相关学科的研究生学位论文进行主题挖掘并对比热点主题变化趋势的异同,结果表明:交通相关学科研究生学位论文的主要研究对象为陆路交通且最多关注的研究主题为列车运行组织,对航空交通的研究较少。整体而言,交通相关学科硕士学位论文中列车运行组织、交通流预测等 4个主题增长明显,交通运输政策、交通项目管理等 4 个主题下降明显;博士学位论文中列车运行组织、目标检测等 4 个主题增长明显,物流系统优化、交叉口评估等主题下降明显。硕士与博士学位论文的研究主题都逐渐从传统、宏观层面的交通问题转为更加具象化的问题,并趋向于与信息技术相结合
3、。关键词:交通运输工程;研究生学位论文;主题挖掘;LDA;学科热点与趋势中图分类号:U491文献标志码:A文章编号:1671-3400(2023)06-0063-07A Study on the Topic Mining and Evolution Analysis of Postgraduate Dissertations in Transportation DisciplinesZHOU Xinyue1,XU Xiangdong1,2(1.Urban Mobility Institute,Tongji University,Shanghai 200092,China;2.Key Labor
4、atory of Road and Traffic Engineering of the Ministry of Education,Tongji University,Shanghai 201804,China)Abstract:Transportation-related interdisciplinary research is increasing.In this paper,the master and doctoral dissertations of transportation-related disciplines in the past 20 years obtained
5、from the China Knowledge Network and Wanfang database were used as data sources to mine their main topics and evolutions and uncover the similarities and differences in the changing trends of hot topics.The results show that:there are fewer postgraduate dissertations on air traffic,the mainstream re
6、search object is road traffic,and the most concerned research theme is train operation organization;overall four themes such as train operation organization and traffic flow prediction have increased significantly,and four themes such as transportation policy and transportation project management ha
7、ve decreased significantly in masters dissertations;four themes such as train operation organization and target detection have increased significantly,and four themes such as logistics system optimization and intersection evaluation have decreased significantly in doctoral dissertations;the research
8、 themes of both masters and doctoral dissertations have gradually changed from traditional and macroscopic-level problems to more specific problems,and tend to be integrated with information technology.Keyword:Transportation engineering;Postgraduate dissertation;Topic mining;LDA;Disciplinary focus a
9、nd trend的先行官。随着交通行业关联技术的发展,相关学科的研究范围变得更加多样化,本文定义的交通相关学科包括了以“交通运输工程学科”为主、以“管理科学与工程”学科和“计算机科学与技术”学科下交通方向为辅的学科总和。硕士和博士学位论文作为最能反映学科研究热点文献之一,对其进行研究能探究一个时段内硕士和博士研究的重点,这些研究重点通常与当时该学科的研究重点有关。130 引言 交通运输是我国经济的基础命脉,是我国经济发展2023 年第 6 期 64 本研究试图回答以下几个问题:硕士与博士学位论文近 20 年来的研究主题分别是什么?硕士与博士学位论文近 20 年的研究主题可以分为哪几种变化趋势?
10、硕士与博士学位论文的研究热点在各个时段有何异同?1 文献综述1.1 主题提取方法 主题提取的常见方法可分为 3 类:基于统计特征、语义网络和主题模型的主题提取方法1。基于统计特征的提取方法通常根据关键词的出现频率,常见方法是借助词频倒排文档频次算法(Term Frequency-inverse Document Frequency,TF-IDF)获 得词项的权重,将高权重词列为特征选项。例如,Luhn2利用词频统计思想对文本数据进行自动分类。基于语义网络的方法,由 Girvan 等3提出,注重词汇之间的语义相关性。基于网络关系识别出的关键词可信度高,但会将识别出的关键词等同化处理,无权重区分导
11、致无法表征主题强度使得主题内容难以明确划分。相较于前 2 类方法,主题模型着眼于从文本语料中发现隐藏在词汇下的潜在语义关系,并将文档向量从高维的词项空间映射到低维的主题空间。主题模型领域中最热门与经典的模型是隐含狄利克雷分布主题模型(Latent Dirichlet Allocation,LDA)。LDA 模 型 最 早 由Blei 等4提出,对包含多主题的文本进行分类提取主题有着较好的效果。LDA 模 型 也 可 以 与 词 嵌 入 模 型(Topic Word Embedding)相结合,词嵌入模型已广泛运用于各大主题模型中,Moody 5提出 Lda2Vec 模型。LDA 和词向量(Wo
12、rd2Vec)的组合还可用于文本映射、文本提取、文档特征提取和字段关键词提取等。随着自然语言处理领域相关方法的快速发展,相关词语表示学习模型与传统自然语言模型结合的融合模型相继被提出。宁建飞等6提出将 Word2Vec 模型与网页排名(PageRank)算法相结合实现关键词提取。综上,LDA 模型结合 Word2Vec词嵌入模型以及 PageRank 算法进行主题提取,相比于单一 LDA 主题模型有着更好的效果。1.2 主题演化趋势把控方法 主题演化趋势常通过一些可视化文献管理软件来展示,如科学文献管理软件 CiteSpace 和 VOSViewer。王剑辉等7利用 CiteSpace 对中国
13、知网内有关空中交通管理的核心期刊主题演化进行可视化,探究该领域的热点与前沿。可视化文献管理软件可展现主题的时间演化趋势,但不能很好地展示主题演化趋势结果的主题词关系以及内部各个主题的权重。为了得到更加准确的主题演化趋势,需要以 LDA 模型的结果为基础,利用主题强度相关指标进一步挖掘主题演化趋势。2 技术路线与相关指标2.1 技术路线 以交通相关学科的硕士与博士学位论文为研究数据、LDA 模型为主题,对其分别进行主题抽取,同时融合 Word2Vec 模型和 PageRank 算法以确保主题挖掘结果的准确性。基于研究生学位论文的主题挖掘结果,从时间维度与学位层次类型两方面对比,得到交通相关学科研
14、究主题随时间变化规律以及硕士与博士学位论文的主题差异等。2.2 主题强度相关指标 LDA 挖掘结果主要分为两类:一类是文档主题分布,主要用于主题强度计算与主题重要程度展示;另一类是主题词汇分布,包括主题(由相关性最大的词汇构成)以及这些关键词对应的概率。基于 LDA 的文档主题分布挖掘结果,进行主题强度的计算。具体而言,采用基于语料库主题概率的方法8如下:zt=zd(1)Dt式中:zt为时间片 t 下主题 z 的强度大小;Dt为时间片t 下的文档数目;zd为文档 d 生成主题 z 的概率。基于主题强度结果,可以结合主题强度阈值,挖掘热点主题。若某个主题的强度高于主题阈值,则认为该主题为热点主题
15、。为了更加科学严谨,从数据的角度出发,根据式(2)确定主题强度阈值8:T=zd=1 =zd(2)Dt K K Dt K式中:T 为主题强度阈值;参数 K 为主题个数;D 为数据集中文档个数。3 数据来源与预处理3.1 数据来源 以交通相关学科的研究生学位论文为研究数据,即以交通运输工程学科研究生学位论文为主,增加计算机科学与技术以及管理科学与工程两大学科下交通方向的硕士和博士学位论文。筛选内容为论文的标题、摘要以及关键词,以中国知网、万方数据库为两大筛选平台,筛选时间范围为 20002021 年,筛选关键词为交通。具体而言,从中国知网中主要筛选“交通运输规划与管理”“交通信息工程及控制”“交通
16、运输工程”“交通运输”“管理科学与工程”“计算机科学与技术”6 类学科范围的硕士和博士学位论文;从万方数据库中主要筛选“交通运输”分类下上述 6 类学科范围内的所有硕士和博士学位论文,最后经过人工筛选剔除明显与主题不相关的论文,得到51 092篇硕士和5 937篇博士学位论文文档。Dtd=1Dtd=1Dd=1Kz=1Kz=1周心悦,许项东:交通相关学科研究生学位论文主题挖掘与演化分析2023 年第 6 期 65 3.2 数据预处理 为便于后续自然语言处理,在得到上述文档后进行一系列的清洗,包括标准化、缺失值处理等。文本清洗后需要进行中文分词,本文采用的工具为 Python 环境下的 jieba
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交通 相关 学科 研究生 学位 论文 主题 挖掘 演化 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。