基于文本技术距离的企业知识溢出研究.pdf
《基于文本技术距离的企业知识溢出研究.pdf》由会员分享,可在线阅读,更多相关《基于文本技术距离的企业知识溢出研究.pdf(18页珍藏版)》请在咨信网上搜索。
1、数量经济研究The Journal of Quantitative Economics第 14 卷 第 3 期Vol.14 No.32023 年2023基于文本技术距离的企业知识溢出研究*于云云1 冯树辉2 廖 辉3 朱平芳1*(1.上海社会科学院 数量经济研究中心,上海 200235;2.上海财经大学 经济学院,上海 200433;3.上海交通大学 安泰经济与管理学院,上海 200030)摘要:技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-I
2、DF)方法和文本动态网络分类(TNIC)方法提取微观企业技术特征,构造两种基于文本技术距离的空间权重矩阵 WTF-IDF和 WTNIC;以长三角、珠三角、京津冀三大城市群科技型中小企业知识溢出为例进行实证研究,证实该方法在实际应用中的使用价值;并将其与传统技术距离构建方法进行比较,实证结果表明基于文本方法构造的技术距离在微观知识溢出实证研究中具有更好的效果。此外,实证研究也发现:三大城市群内科技型中小企业间存在正向的显性知识溢出,相比之下,京津冀的科技型中小企业显性知识溢出并不明显;三大城市群均出现了研发资本投入的挤占效应;京津冀地区技术壁垒较高的技术领域存在“隐性知识过度向中心集中”现象。关
3、键词:文本技术距离 企业技术相似性矩阵 知识溢出 城市群中图分类号:F272 文献标识码:A*基金项目 本文受到国家自然科学基金项目“偏线性分位数样本截取和选择模型的估计与应用 基于非参数筛分法(Sieve Method)”(72273091)、“非线性动态因子模型和函数型时间序列的前沿理论及其应用”(71773078)和中国博士后科学基金第 73 批面上资助项目“政策评价中适用于高维数据的非参数模型估计与应用研究”(2023M732268)的联合资助。作者简介 于云云(1992-),女,上海社会科学院数量经济中心博士研究生,研究方向为计量经济学、文本挖掘与机器学习。冯树辉(1992-)(通讯
4、作者),男,上海财经大学经济学院博士后,研究方向为科技统计评价、空间计量。廖辉(1995-),男,上海交通大学安泰经济与管理学院博士后,研究方向为科技统计评价、非参政策评价理论。朱平芳(1961-),男,上海社会科学院数量经济中心研究员,研究方向为计量经济学、宏观经济预测分析与政策评价。Technology Distance Measurement Based onText Method and its Application in EnterpriseKnowledge Spillover ResearchYu Yunyun1 Feng Shuhui2 Liao Hui3 Zhu Pingf
5、ang1(1.Research Center of Econometrics,Shanghai Academy of Social Sciences,Shanghai 200235,China;2.School of Economics,Shanghai University of Finance and Economics,Shanghai 200433,China;3.Antai School of Economics and Management,Shanghai Jiaotong University,Shanghai 200030,China)Abstract:Technology
6、distance is an important tool to measure technological differences andknowledge spillovers between firms,industries or regions.This paper proposes a text analysismethod to measure technology distance,and uses it to construct enterprise technology similaritymatrix,which is applied to micro enterprise
7、 knowledge spillover research.Based on the enter-prise description information,this paper uses the Term Frequency-Inverse Document Frequency(TF-IDF)method and the Text Dynamic Network Classification(TNIC)method to extract thetechnical features of micro enterprises,and constructs two spatial weight m
8、atrices WTF-IDFandWTNICbased on the text technology distance.Taking the Yangtze River Delta,Pearl River Del-ta,and Beijing-Tianjin-Hebei metropolitan area as an example,the empirical study is carriedout to confirm the practical application value of this method.This paper conducts an empiricalstudy o
9、n the knowledge spillovers of S&T SMEs,and compares it with the traditional technolo-gy distance construction method.The results show that the technology distance constructedbased on text method has a good effect in the study of micro knowledge spillovers.In addition,the empirical study found that t
10、here is a positive explicit knowledge spillover among S&T SMEsin the three metropolitan areas,while,the spillover effect is not obvious in Beijing-Tianjin-He-bei metropolitan area as that in Yangtze River Delta and Pearl River Delta,and the crowding-out effect of R&D capital investment occurs in all
11、 of them.The phenomenon of“over-centraliza-tion of tacit knowledge”exists in the technical fields with high technical barriers in the Beijing-Tianjin-Hebei region.Keywords:Text-Based Technical Distance Technology Similarity Matrix between EnterprisesKnowledge Spillover Metropolitan Areas471数量经济研究 引
12、言创新不仅是经济发展的第一动力,更是我国突破发展困境实现经济高质量发展的关键。随着国家对于科技的战略性发展以及对区域协同创新的战略部署,技术攻坚和知识传播成为创新发展的核心。关于知识传播过程中的知识溢出研究虽然由来已久,但随着互联网的广泛应用及技术进步和数据可得性的提升,知识溢出的传播速度和传播过程都发生了变化,如何更科学、更准确地进行知识溢出的测度和研究是值得重新探讨的问题。作为内生增长理论的基础和创新研究的关键,近些年学者们对知识溢出的研究从未中断。内生经济增长理论注重知识的创造和溢出,主题思想为科研机构是创造知识并实现知识溢出的主体(宋洋和逄亚男,2021)。早期的研究对于空间关系的测度
13、主要是通过构建地理邻接矩阵进行的。然而,单纯以地理空间范式研究知识溢出无法合理解释文化、制度、技术等一些隐性要素影响知识溢出的空间根植性(王腾飞等,2020),尤其是随着互联网和计算机技术的发展以及交通便捷性的大大提高,企业的研发活动可以轻松突破地理距离的限制。已有研究表明,基于技术距离的测度能够更好地描述空间约束放宽背景下知识溢出的技术特征(Jaffe,1986;Li et al.,2022)。传统的基于技术距离的测度主要依赖技术分类手段,且主要使用专利引用数据及投入产出数据。现有文献对于技术分类的方法仍然较为粗糙,并且,由于技术特征信息通常难以体现和提取,技术距离测度方法的应用也有一定的局
14、限性。基于此,本文基于文本分析方法计算企业技术相似性从而测度技术距离,改进了传统的技术距离测度方法。通过文本信息测度的技术距离不仅可以提取直接技术特征信息,在微观知识溢出研究中非常实用且更加合理,同时,该方法也能提取行业技术特征信息,对行业知识溢出研究及宏观知识溢出研究提供了有益的借鉴和参考。本文同时以中国三大城市群的科技型中小企业间的知识溢出为例,证实这种基于文本技术距离测度知识溢出的方法在实证研究中是可行的,并且与传统方法进行了对比研究,该方法在实证中具有较好的研究效果。本文的边际贡献有:第一,本文使用了文本数据测度技术距离,在一定程度上拓宽了知识溢出领域的数据信息范围,同时在一定程度上拓
15、展了知识溢出的测度方法;第二,通过本文提出的方法对京津冀、长三角和珠三角三大城市群的科技型中小企业间的知识溢出进行实证研究,对比分析了三大城市群显性知识溢出和隐性知识溢出的不同特征,证实用文本技术距离测度知识溢出具备可行性的同时也发现了三大城市群科技型中小企业知识溢出的一些实际现象。本文发现,通过文本技术距离进行微观知识溢出研究更加便利,且在行业知识溢出研究中也能有效提取信息。本文的结构安排如下:第二部分为文献回顾;第三部分介绍两种基于文本分析方法构建知识溢出空间权重矩阵的方法;第四部分使用此方法对京津冀、长三角、珠三角三大城市群科技型中小企业的知识溢出情况进行实证研究,并与传统方法进行对比分
16、析;最后是本文的结论。571基于文本技术距离的企业知识溢出研究 1 文献回顾早期关于知识溢出的研究大多聚焦于知识溢出的机制分析及其在经济增长中的作用,并未引入地理空间相关性的概念对其进行定量测度。随着空间计量经济学的兴起,空间距离关系逐渐被引入知识溢出问题的研究中,对不同地区间知识溢出的定量测度逐渐成为研究热点。空间计量方法主要基于不同经济体之间的地理空间关系构建空间权重矩阵并将其引入计量模型。目前构建空间权重矩阵的方法主要有三种,分别为地理距离、经济距离和技术距离。其中,基于地理距离和经济距离的研究是早期空间计量研究的主流。地理距离方法基于不同个体间的邻接关系或距离长度构建权重矩阵(Fisc
17、her and Varga,2003;朱平芳和徐伟民,2003;Autant-Bernard and Lesage,2011;徐秋艳等,2019;李婧等,2010)。经济距离方法则是在地理距离的基础上将经济指标纳入计算范畴,考虑了地区间的经济差异对知识溢出的影响(张涵,2019;Amidi andMajidi,2020)。尽管基于地理距离和经济距离方法构建的空间权重矩阵能够反映不同地区间的地理和经济关系,但忽视了技术差异性对于知识溢出过程的影响。技术距离方法从技术相似性的视角出发构建权重矩阵,在弥补了上述缺陷的同时,也能够更好地适应互联网技术普及带来的时空距离压缩效应。Jaffe(1986)最
18、早提出基于技术分类的技术距离测度方法,并在之后被广泛应用于知识溢出的研究中。后继学者大多使用专利分类向量占比测算技术距离,主要从不同区域的专利向量占比(Rodriguez,2014;Caragliuand Nijkamp,2016;Li et al.,2022)和不同行业的专利向量占比(叶静怡等,2019)两个方面进行研究。最近的研究中,有学者使用微观企业层面的产品分类数据衡量技术邻近关系(Zhou et al.,2019),也有学者使用高校和企业的已授权专利数据测算企业和高校间的技术距离,研究高校知识溢出对企业创新的影响(易巍等,2021)。部分研究意识到仅使用单一的专利类别或行业类别构造技
19、术距离的局限,尝试通过不同空间距离的组合来改进对于知识溢出的识别效果。有学者将地理距离和技术距离相结合构建了能够同时反映空间和技术关系的权重矩阵(Klaus,2005)。杨蕙馨和刘春玉(2005)采用 Klaus 模型利用产业集聚研究的思想构造空间权重矩阵。另有一些学者采用构建复合权重矩阵的方法,将地理距离权重(张征宇和朱平芳,2010;朱丰毅和桂文林,2022)、人力资本权重(赵增耀,2015)等因素与技术权重矩阵结合起来,改进了空间权重矩阵的构建方法。例如,王鹏和吴思霖(2020)利用专利申请数量测算技术邻近度以后,使用地理距离的倒数进行加权,得到标准化的技术距离权重矩阵。以上研究大多基于
20、行业或企业的专利数据测算技术距离,然而专利数据仅能代表被固化为知识产权的显性技术水平,难以衡量大多数服务型企业的技术和知识储备,因此很难对地区间的实际技术距离进行准确测度。由于微观企业层面的专利数据可得性较差,且专利主体信息的获取难度较大,为进一步研究微观企业间的知识溢出机制,许多学者转而采用其他类型的数据与方法测671数量经济研究 度技术距离,如周华和韩伯棠(2009)采用不同技术类别的咨询顾问数量等数据表示咨询企业的知识存量,并基于此测算咨询企业间的技术距离。朱平芳等(2016)基于投入产出理论构建空间权重矩阵,从而对上下游企业间的“垂直知识溢出效应”进行测度。这些研究通过能够代理知识传播
21、的相关变量测算知识溢出,但此类数据往往具有鲜明的行业特点,难以推广到其他行业和领域,因此方法的推广面临一定的局限性。综上所述,现有的技术距离测度方法在应用于微观企业间的溢出分析时仍有局限性,具体表现为:一是应用专利数据进行技术分类时有可能出现技术相似却分属不同行业类别的情况,从而引起误差;二是专利数据仅代表一小部分被固化为知识产权的显性知识,难以真正衡量不同行业或企业间的实际技术差异;三是除专利外其他用于测度行业技术邻近度的数据往往具有鲜明的行业特点,大多难以推广应用。本文使用的微观企业描述信息的文本特征提取方法能够较好地规避以上问题,并为微观企业间的知识溢出效应分析提供便利且易推广的分析工具
22、。2 基于文本技术距离构建空间权重矩阵的方法近些年随着大数据技术的推广,文本非结构化数据被广泛使用,文本数据开始在金融和经济学领域发挥重要作用(沈艳等,2019),也有学者开始使用文本数据进行科技创新相关的研究(陈强远等,2020;张杰和郑文平,2018)。本文借鉴 Hoberg 和Phillips(2016)使用上市公司年报数据进行行业动态分类的思想,将企业相似度用于知识溢出的研究,基于公司的企业描述信息,使用文本分析方法计算企业技术相似性,测度企业间的技术距离,并依此构建空间权重矩阵,用微观数据衡量企业间的知识溢出情况。本文将企业描述信息引入技术距离的测度中,该信息在公司年报及许多企业注册
23、管理网站都可获取。由于企业描述信息中一般会包含企业的经营范围、产品信息、主要技术领域等,因而可从该文本数据中提取相关信息,通过计算企业描述信息之间的文本相似度来揭示企业间的技术距离。当两企业描述信息的文本相似度很高时,说明两企业间的技术领域或经营范围很接近,由此可以认为两企业间的技术距离较为接近,且通常来看两个企业属于同一个行业的概率也比较大。使用这种方法测度技术距离的好处有:一是可直接从文本中提取技术特征信息;二是该距离信息既包含企业本身的信息,也涵盖了行业之间的信息;三是通常构建的空间权重矩阵多是 0/1 的二元离散稀疏矩阵,而这种基于文本的技术距离矩阵是 0,1 区间的连续型稠密矩阵,涵
24、盖的信息会更多。为保证此种思路的可行性,本文使用两种文本方法测度技术距离并构建空间权重矩阵,其一是使用基础的 TF-IDF 算法进行企业技术距离的计算,其二则借鉴 Hoberg 和Phillips(2016)进行文本网络行业分类时的测算方法(Textual Network Industry Classifi-cations,后文简称 TNIC 算法)。771基于文本技术距离的企业知识溢出研究 2.1 基于 TF-IDF 算法的空间权重矩阵 WTF-IDF构建TF-IDF(词频-逆文档频率)算法是文本挖掘中常用的加权方法,先使用该传统文本挖掘方法提取关键信息,并进行企业间技术相似性计算,用于衡量
25、企业间技术距离,进而构建空间权重矩阵,具体步骤如下。第一步:根据 TF-IDF 算法对每个企业的描述信息进行分词、计算词频、提取关键词,得到每个企业的词向量。需要说明的是,第一,在分词时使用哈工大的 HanLP 分词方法对所有企业的描述信息进行分词,剔除常用词和停用词等,得到词向量。第二,计算词频时考虑到企业的描述信息词向量长短不一,进行“词频”标准化,公式如下:tfij=nijknkj(1)式(1)中 tfij表示第 j 个企业中第 i 个词语标准化之后的词频。nij表示第 j 个企业中第 i个词语的词频,分母表示第 j 个企业的描述信息中所有词语的词频之和,即词语总量。第三,计算逆文档频率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 技术 距离 企业 知识 溢出 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。