基于文本挖掘的共性技术政策文本量化及政策组合特征研究.pdf
《基于文本挖掘的共性技术政策文本量化及政策组合特征研究.pdf》由会员分享,可在线阅读,更多相关《基于文本挖掘的共性技术政策文本量化及政策组合特征研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、Scienceand TechementResearchO12023No.152023年第15期科技管理研究doi:10.3969/j.issn.1000-7695.2023.15.005基于文本挖掘的共性技术政策文本量化及政策组合特征研究孔令凯1,杨晓萌,林超然3,李保祥3(1.昆明理工大学管理与经济学院,云南昆明650504;2.江苏科技大学经济与管理学院,江苏镇江215699;3.哈尔滨工程大学经济管理学院,黑龙江哈尔滨150001)摘要:针对当前研究对共性技术政策认识不足的问题,利用共性技术政策文件结合LDA主题模型挖掘共性技术政策主题,剖析政策干预领域及政策工具,量化政策主题强度,利
2、用主题共现关系,分析共性技术政策组合,从综合性、一致性及均衡性探究政策组合特征。结果表明,共性技术政策已经在多个行业或领域使用,政策工具日益丰富;部分法律文件已经开始强调基础性共性技术研发;共性技术政策相互作用形成两种政策组合,其政策组合目标旨在解决共性技术组织失灵以及鼓励关键共性技术研发,两种政策组合的应用广度不断拓宽,但政策间协同关系不强且发展不均衡,影响共性技术政策组合的支持作用。关键词:共性技术政策;文本挖掘;政策组合中图分类号:C934;G 30 1文献标志码:A文章编号:10 0 0-7 6 95(2 0 2 3)15-0 0 35-11Research on Text Quant
3、ification of Common Technology Policies and the Characteristics ofPolicy Combination Based on Text MiningKong Lingkai,Yang Xiaomeng,Lin Chaoran,Li Baoxiang3(1.Faculty of Management and Economics,Kunming University of Science and Technology,Kunming 650504,China;2.School of Economics and Management,Ji
4、angsu University of Science and Technology,Zhenjiang 215699,China;3.School of Economics and Management,Harbin Engineering University,Harbin 150001,China)Abstract:Aiming at the lack of understanding of common technology policies in current research,this paper usescommon technology policy documents co
5、mbined with the LDA theme model to mine common technology policythemes,analyzes policy intervention areas and policy tools,and quantifies the intensity of policy themes.Using the co-occurrence relationship of themes,the common technology policy combination is analyzed,and the characteristics ofthe p
6、olicy combination is explored from the aspects of comprehensiveness,consistency and balance.The results showthat common technology policies have been used in multiple industries or fields,and policy tools are increasinglyabundant;some legal documents have begun to emphasize basic common technology r
7、esearch and development;common technology policies interact to form two policy combinations,the policy combination aims to solve commontechnical organizational failures and encourage key common technology research and development,the applicationbreadth of the two policy combinations continues to exp
8、and,but the synergistic relationship between the policiesis not strong and the development is uneven,which affects the supporting role of the common technology policycombination.Key words:common technology policy;text mining;policy combination共性技术具有显著的知识外溢性,能在多个行业、领域或地区内使用,对经济发展、产业结构转型升级意义重大,但共性技术却面
9、临市场失灵及组织失灵问题,技术供给主体缺失,技术研发投人不足,急需政府发挥社会公共事务管理者角色,引导共性技术研发及扩散,配置共性技术创新资源,营收稿日期:2 0 2 2-12-13,修回日期:2 0 2 3-0 3-19基金项目:国家自然科学基金项目“区域创新系统网络结构与产业关键共性技术创新涌现的构效关系与作用机理研究”(7 18 7 40 40),“基于专利数据挖掘的我国芯片产业关键技术研发路径选择研究”(7 2 10 40 6 4)36孔令凯等:基于文本挖掘的共性技术政策文本量化及政策组合特征研究造共性技术创新环境,解决共性技术创新“市场失灵”及“组织失灵”问题。政策法规是政府干预共性
10、技术研发的主要手段,我国已经颁布国家中长期科学和技术发展规划纲要(2 0 0 6 一2 0 2 0 年)以及“十四五”国家高新技术产业开发区发展规划等一系列政策,然而政府政策对共性技术的支持与期望目标相差甚远,共性技术供给不足问题仍没有解决,关键原因之一在于我国共性技术政策体系尚未真正建立,政策定位不清晰。因此,深入共性技术政策本身,挖掘共性技术政策情报信息,探究共性技术政策体系间的相互作用,对于构建完善的共性技术政策体系意义重大。1文献综述针对共性技术政策,国内外学者Trojer等 1、Pilinkien2】、周源【3】先后从市场失灵、组织失灵视角探讨共性技术政策的正当性和合理性,并对共性技
11、术政策干预力度,政策干预形式,政策设计原则等内容展开研究。如何构建完善的共性技术政策体系已经成为学者研究的焦点。如马名杰【4 基于政府与市场作用差别,提出共性技术政策设计应平衡政府政策干预与市场调节;李慧等【5则提出明晰政府与市场边界,准确定位政府角色,科学合理地引导政策制定;韩元建等【6 则认为政府干预应坚持产业界主导的原则。也有学者从共性技术准公共物品属性视角,提出共性技术政策制定应强调产学研、官产学研、技术研发平台、国家研究院所建设等内容,例如:朱桂龙等【7 基于案例分析,提出共性技术政策应指导产学研协同创新模式构建;薛捷等【8 基于国外共性技术研发模式,提出“官产学研”的合作组织形式;
12、李晓桃等9 认为市场失灵严重的关键共性技术,只能由国家研究所供给。针对共性技术政策干预的形式,陈朝月等10 、Zuo等【1、郑月龙等 12 分别提出政策制定应包含税收优惠、政策补贴、政策性贷款、引导社会资本等经济支持手段;李冬冬等【13 则提出知识产权保护的非经济干预手段。上述研究均是基于静态视角探讨共性技术的政策设计,尚未考虑共性技术的动态变化。因此,王敏等 14盛永祥等 15 基于动态变化视角,结合生命周期理论,探究共性技术不同阶段所具有的特征,提出对于不同阶段的共性技术,政策引导的创新主体以及创新方式应有所不同;袁野等【16 提出需要动态调整共性技术政策支持方式,发掘政策靶点,推动长效治
13、理体系构建。此外,李纪珍【17】、樊霞等【18】、冯云昊等 19针对共性技术政策体系存在的问题展开研究,指出共性技术政策存在概念和评价标准不明确、组织方式不合理、政策导向不足、侧重应用研究以及研发资金支持退出过快等问题。共性技术政策研究已颇具规模,大多从共性技术政策制定原则、政策干预形式、政策引导组织形式开展研究。然后,现有共性技术政策研究鲜有深人共性技术政策本身,梳理共性技术政策干预领域、政策工具以及政策间作用关系,导致共性技术政策认识不足,阻碍共性技术政策理论研究,影响共性技术政策体系构建及完善,制约共性技术创新。基于此,本文深人共性技术政策本身,收集共性技术政策文本,引人文本挖掘技术,提
14、取共性技术政策主题以及主题特征词,量化共性技术政策,剖析共性技术政策组合及其特征,探讨共性技术政策间协同作用。研究对于深化共性技术政策认识,丰富共性技术政策研究,完善共性技术政策体系具有理论意义和实践参考。2研究设计2.1数据收集及预处理(1)共性技术政策文本收集。共性技术是一类与产业发展紧密结合,应用领域广泛,对我国经济发展具有较大促进作用的技术【2 0 。根据重要性的差别可将共性技术分为一般共性技术、基础共性技术以及关键共性技术,部分文献将关键共性技术称为共性关键技术【19。因此,政策文件检索过程中,本文确定检索关键词为“共性技术”和“共性关键技术”,利用北大法宝数据库收集政策文件,检索时
15、间跨度为198 4年至2 0 2 2 年,共收集1441条相关政策,删除尚未生效政策,剩余1319条政策,逐一排查1319条共性技术政策,借鉴张国兴等【2 1-2】团队对政策量化标准的研究成果,从人事措施、行政措施、财政税收措施、金融措施、引导措施和其他措施6 个方面筛选与共性技术创新、共性技术成果转化、共性技术研发、共性技术扩散相关的政策文件,保障数据可靠性、准确性,筛选后有2 7 1条政策与共性技术关联性不强,剩余10 48 条政策,其中部门规章8 50 条、行政法规10 4条、团体规定16 条、党内规章39条、法律30 条、行业规定9条,部门规章占据共性技术政策总量的6 4%。共性技术政
16、策发布部门或机构有国务院、党中央部门机构、全国人民代表大会、全国人大常委会等。文中收集的政策文件不包含地方性政策。(2)共性技术政策文本预处理。人工筛选共性技术政策后,为准确理解共性技术政策文本,本文将实施政策文本预处理,提取政策文本主题。由于Viterbi算法具有良好的切分歧义处理能力,并且能37孔令凯等:基于文本挖掘的共性技术政策文本量化及政策组合特征研究够识别新词,深入挖掘共性技术政策核心信息,最大程度减少信息损失,因此,采用Viterbi算法进行文本分词。为降低无效噪声词语的影响,基于分词结果以及哈工大停用词词库,反复调整停用词库,进而删除噪声词语,挖掘共性技术政策核心信息。除过滤停用
17、词外,如式(1)采用TF-IDF算法提取特征项2 3,降低信息噪声的影响。政策文本预处理后,抽检政策文本预处理结果,得到:创新、科研、技术标准、产学研、项目、课题、财政等词语,分词结果能够反映分词前后字串信息构成规则,具有实际意义,不存在歧义,表明政策文本预处理操作有效。TF-IDF单词在文章中出现次数xlg出现单词文档合集文章总词数文档总数(1)2.2研究方法(1)政策主题提取模型。由于LDA(la t e n tdirichletallocation)主题模型能够挖掘文本文档中隐藏的语义信息,处理海量的文本文档,实现文本文档的高效聚类,因此,采用LDA模型提取共性技术政策主题。LDA主题模
18、型利用狄利克雷分布寻找主题在数据集中的分布以及主题词在主题中的分布(如图1所示),为避免LDA主题模型过度拟合,需设定模型主题数量,其中Biel等【2 4 提出使用困惑度(p e r p l e x i t y)确定主题数量。NM图1LDA模型贝叶斯网络文本数据集中,假设主题乙产生的概率服从Dirichlet()分布,为狄利克雷先验分布超参数,从多项式分布Qa中抽样Zi,得到主题概率P(zil),如式(2)所示。kk立Dir(0,I)=k=1(2)KdkZr(%)k=1k=1从多项式分布z;中抽样wi,得到特征词分布概率P(wilzj,),表示储存特征词生成概率的矩阵。模型主题参数设定直接影响
19、主题提取结果,Blei利用困惑度估计模型最优参数,计算如式(3)至(5)所示。mZlog(p(wa)d1perplexity(Dtest)=exp(3)md=1p(wa)=Ep(z|d)p(wa/z)(4)Nap(wa/z)=Ip(w;/z)(5)(2)政策组合及特征分析。政策组合是指相互作用影响的政策工具的组合。为了探究共性技术政策组合模式,本文基于主题共现探究不同政策主题间的作用关系,主题共现能够将各种信息载体进行量化分析,揭示不同信息在内容上的关联作用关系,进而抽取有价值的信息【2 5。为了降低共现频次较低的政策主题对于后续研究的影响,本文通过测算不同政策主题共现的支持度,设定阈值筛选有
20、价值的政策组合,既满足:sup(S)Smin,S表示不同政策主题组成的项集。其中政策主题X和Y同时出现的概率,即支持度的计算如式(6)所示。X和Y所共现的文本数总和sup(X Y)=P(XUY)=100%总的文本数量(6)基于共性技术政策组合研究,为探究产业关键共性技术政策组合特征,掌握共性技术政策建设现状。本文借鉴徐喆等 2 6 、Costantini等 2 7 的研究成果,从一致性、综合性和均衡性3个维度分析不同共性技术政策组合的特征,深度挖掘共性技术政策信息,为完善我国共性技术政策体系提供参考。政策组合一致性指共性技术政策组合内部各政策间的相互作用,可用于分析政策间是否存在冲突;政策组合
21、综合性能够有效衡量政策运用的广度;政策组合均衡性则能够衡量政策工具与政策目标的强度是否均衡。具体而言,一致性、综合性以及均衡性计算如式(7)至(11)所示。kkcos(XI,X)1j-1((7)k(k-1)/2r=lcos(Xi,X/)=(8)2(X)2(X)式(7)中POLDisperset,表示共性技术政策组合的一致性,t表示时间,x、X 分别表示第j项和第i项政策主题特征词向量,cos(Xi,xl)为政策向量夹角余弦值。NPOLCompre,.-ZTS,(9)j138孔令凯等:基于文本挖掘的共性技术政策文本量化及政组合特征研究式(9)中POLcompre,表示共性技术政策组合的综合性,j
22、表示第j项政策,N为政策总数,TSt为共性技术政策主题强度。POLBa,ITSmt-TSmVm#n(10)+TS-1(POLsal)(11)TotPOLBal,n(POLd=1/nBal,d=1n式(11)中TotPOLBal,表示政策组合的均衡性,n*表示两两政策组合总数。POLBal,表示政策相关性指数,t表示时间,d表示政策组合。得到共性技术政策主题相关性指数后,测算共性技术政策相关性指数标准差,最终得到共性技术政策组合的均衡性。2.3研究框架基于以上分析,构建论文研究框架,结果如图2所示。研究框架可分为3个模块:(1)共性技术政策法规采集,清洗无效数据,构建共性技术政策文本数据集,采用
23、Viterbi算法实现文本分词,并利用TF-IDF算法实现文本向量化;(2)构建LDA主题模型,提取政策主题及特征词,测算各政策主题强度,绘制特征词词云;(3)基于技术主题共现关系,挖掘共性技术政策组合,探究政策组合的综合性、一致性以及均衡性特征。1北大法宝数据库综合性一致性均衡性11政策组合特征1检索式主题相似度政策组合模式文本数据下载4支持度1数据收集文本数据清洗共现关系文本数据集主题强度迁移主题词统计时间维度政策文本量化Viterbi分词文档-主题主题-特征词停用词TF-IDF文本向量LDA建模主题参数图2研究框架3共性技术政策主题提取及量化3.1共性技术政策主题提取本文采用LDA模型提
24、取政策文本主题,LDA模型提取效果与主题参数设置直接相关,为保障共性技术政策主题提取的准确性和可靠性,采用困惑度以及Python可视化方法确定模型最优主题参数。计算主题数分别为149时模型困惑度,若当前主题与前一主题困惑度差值最大,与后一个主题困惑度差值最小,则主题对应的点为曲线肘形【2 8 ,曲线肘形对应主题数为模型最优主题数。当主题数为2 8 时,困惑度曲线出现肘形,模型可能存在最优主题数,为保障主题提取效果,可视化主题数为2 8 时LDA模型内各主题的分布如图3(a)所示,并随机设置主题数为47,再次可视化LDA模型的主题分布如图3(b)所示,对比两种不同主题参数下模型可视化结果,可知当
25、主题参数为2 8 时,各政策主题分布于4个象限,特征词重叠度下降,主题区分明显,因此设定LDA模型主题参数为2 8。此外,LDA模型其余参数,借鉴Heinrich2 9】研究,设定a=50/k,=0.1。39孔令凯等:基于文本挖掘的共性技术政策文本量化及政策组合特征研究IrsbertopicMapismticooinghtog3oMost SolierneTermetmtetopkChiaceMapMdifolidosincorialscaeglTop-krMotSaieitleimst(a)Z=2 8 时LDA主题模型可视化(b)Z=47 时LDA主题模型可视化1.547困惑度1.531.5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 挖掘 共性 技术 政策 量化 组合 特征 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。