计算扎根:定量研究的理论生产方法.pdf
《计算扎根:定量研究的理论生产方法.pdf》由会员分享,可在线阅读,更多相关《计算扎根:定量研究的理论生产方法.pdf(3页珍藏版)》请在咨信网上搜索。
1、N社会科学文摘SA106社陈苗陈云松/计算扎根:定量研究的理论生产方法计算扎根:定量研究的理论生产方法文/陈苗陈云松引言依托于客观数据和模型的社会学定量研究对长期根植于逻辑思辨和历史情境的社会学传统研究方法形成了极为重要的补充,伴随着大型社会调查的开展和数据模型的普及,已成为社会学研究的重要范式。定量研究原本只是对数字数据进行分析研究的统称,但伴随着范式的固化,特别是定性和定量研究的二元分立,学术界逐渐将量化研究自我限定在以演绎法为逻辑、以理论验证为目的、以统计推论为手段的单一面向,不觉中忽视了数据和模型对于直接启发理论的价值、归纳逻辑对于定量研究的应用可能性。有没有一种新的逻辑路径和模型,能
2、让定量学者不仅能进行“后置”的科学检验,也能利用数据资料直接助产理论假说?随着大规模社会调查数据的日益丰富和机器学习等方法在社会学中的应用,我们已经发现了这种可能。在本文里,我们将提出一种基于大量数据和机器学习模型的量化理论生产方法:对于既定的Y和大量的解释变量X,通过监督学习方法对一系列X对于Y的预测能力进行量化分析。利用因果关系和可预测性之间的逻辑关联,我们可以对具有强大预测力的诸多X进行挖掘和筛选,从而直接助产理论假说,为Y寻找到潜在的具有理论价值的新X,进而帮助社会学家生成、发展和修正理论。这一方法虽然是典型的计算社会科学方法,但其逻辑起点和扎根理论的核心原则有异曲同工之妙:打破理论的
3、先人为主,在不做任何理论假说前提的条件下扎根于数据本身,从而打破“演绎一验证”的逻辑,打通经验研究到理论研究的生成路径。因此,我们将其命名为“计算扎根”。证伪的限度:传统定量研究的理论生产瓶颈近四十年来,定量社会学研究的基本模式是基于调查问卷数据,采用多元模型回归的方法,对解释变量是否和被解释变量存在关联或因果进行统计推断。彭玉生曾形象地把定量研究比作“洋八股文”,也即国内外主流社会科学刊物,都采用了比较标准化的“模板式”格式,按照问题、文献、假设、测量、数据、方法、分析、结论八个部分各司其职,环环相扣。尽管相关的环节可以合并或细化,但其基本思路就是对所提出的零假说进行证伪。但检验理论并非科学
4、研究的全部工作。华莱士在社会学中的科学逻辑中提出“科学环”概念,指出社会学研究是包括理论建构和理论检验的循环往复、螺旋上升、永无止境的过程。很明显,假设检验的定量范式都集中在科学环的右半部分。从理论建构到理论检验本是一项科学研究的完整路径,但伴随着定量和定性的分野,理论建构似乎成了定性研究的专属使命,而定量研究日益将理论验证奉为圭桌。这导致了定量研究在科学发现之旅中的后置化甚至缺席:量化研究使得现有理论更为精致化了,但却很少产生新的理论建构。不得不承认,量化学者在实际的研究过程中都曾经得到过数据本身带来的启发,只不过很多研究者在从数据中得到新发现后并不会按照真实的研究过程来表述自己的研究,而是
5、通过文献梳理的方式把自已的发现“装扮”成已有的理论假设,然后再按照假设检验的逻辑来证明它。实际上,正如默顿所说,经验研究远远超出检验理论的被动功能,它不仅仅是证实或反驳假设,在塑造理论的发展上至少执行着四个功能:创立、修订、转变和澄清理论。计算扎根:用机器学习助产理论计算扎根的思路是打通从数据到理论的“逆向”路径,借助机器学习的预测能力和可解释的归因算法,基于因果是可预测性的充分不必要条件这一规律,实现用数据来直接生成关于既定因变量的机制理论。计算扎根的基本步骤可以由以下六个环节组成:第一步,制定研究问题。根据社会调查问卷数据指标,结合研究兴趣和需要来确定研究对象Y。第二步,准备高维数据。社会
6、调查数据往往是高维的,变量有上百个甚至更多。这些大量的指标,每一个都可能是潜在的Y的因,也即蕴含107社陈云松|计算扎根:定量研究的理论生产方法陈苗了扎根结果的可能性。第三步,开展社会预测。使用监督学习的方法训练Y的预测模型。只要能达到相对较好的预测效果,不必拘泥于算法是否复杂以及是否可解释。第四步,比较预测能力。依赖机器学习模型的可解释性算法,对预测生成的黑盒模型进行归因分析,根据X对Y的预测力排序寻找可能的因。其基本思路是:打乱某些特征X是否影响模型预测的准确率,改变特征将如何影响预测结果,第五步,寻找潜在理论。根据一组按照预测力排序的X,寻找以往研究未曾涉及的社会关联。可以依据潜在关系模
7、式将它们与既有研究比照验证或澄清理论;亦可以对相似的解释项进行归类,抽象出概念或归纳理论命题。第六步,补充交叉验证。验证计算扎根结果的稳健性和理论假说的适用性。尝试使用不同数据、其他机器学习和归因算法对同一个因变量进行计算扎根,也可以对生成理论推导出的其他假说进行再检验,相互验证完成科学环闭环。计算扎根的逻辑基础作为理论生产方法的计算扎根理论,有着清晰的逻辑基础。对于计算扎根理论而言,其逻辑前提主要是两个方面:1.扎根理论的归纳逻辑。扎根理论主张以逐级归纳的方法从经验材料中直接创造出理论,再将其与现有理论和研究相比照。避免在研究开始前就有先人为主的观念或猜想是确保“扎根”有效的重要原则。值得一
8、提的是,创立者格拉泽强调扎根理论是一种普适的方法论,既适用于质性资料,也适用于定量数据,两者对理论的产生和验证都是有帮助的。但随着扎根理论的实际发展,人们发现它似乎还是更适合做质性研究。其原因不难理解:质性资料的深度和可解读性往往更有利于运用社会学想象力直接提出理论假说,而定量数据作为一种数值指标具有高度简化的抽象特征,其内在的数理统计关联难以通过直观的方式加以发现。2.因果关系的可预测逻辑。社会现象之间的可预测性和因果机制是两个不同但又高度关联的范畴。计算扎根方法的逻辑基础之一就是充分地运用预测和因果之间的重要关系,也即因果是预测的充分而非必要条件。这意味着,如果一个X可以很好地预测Y,那么
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 扎根 定量 研究 理论 生产 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。