统计学在社会学中的应用.doc
《统计学在社会学中的应用.doc》由会员分享,可在线阅读,更多相关《统计学在社会学中的应用.doc(32页珍藏版)》请在咨信网上搜索。
1、 . 统计学在社会学中的应用1950-2000:一个简要的回顾Adrian. E. Raftery Adrian. E. Raftery,华盛顿大学统计学和社会学教授,统计学和社会科学研究中心主任。Email: rafterystat.washington.edu, Web: www.stat.washington.edu/raftery。 作者感谢Mark Becker, Mark Handcock, Don Rubin, Michael Sobel, Tom Snijders, Rob Warren, Yu Xie以及Kazuo Yamaguchi给予本文的宝贵评价,这些评价对与本文的改进
2、起到了极大的帮助作用。2001年2月15日概 要统计学方法在社会学中的运用已经成功地走过了半个世纪,它对提高社会学这门学科的科学研究水平做出了巨大的贡献。根据研究者所使用的数据类型的不同,我将战后统计学方法在社会学中的应用过程分为三个层叠的时期。第一代统计方法起于1940年代晚期,研究者主要运用交互表(cross-tabulations)的方法,同时对关联测量 (measures of association)和对数线性模型(log-linear models)倾注了许多心血,可以说这是社会学对统计学贡献最大的一个领域。第二代统计方法始现于1960年代,这一时期的研究者主要面对的是个体层次的调
3、查数据,同时他们将注意力集中在具有线性结构关系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代统计方法在1980年代晚期就已经初现端倪,研究者所处理的数据已经不能简单地归入上文所述的任何一个范畴。一方面是因为这些数据都具有与众不同的形式,比如文本和口述,另一方面是因为在与空间的和社会网的数据联系时,依赖性已经成为一个至关重要的方面。尽管有许多新的挑战,但用统计学方法研究这一领域的条件已经成熟,最近,几个主要的研究机构已经开始在统计学和社会科学领域展开新的探索。目 录1 引言42 第一代统计方法:交互表(Cross-Tabulations)62.1
4、 分类数据的分析(Categorical Data Analysis)62.2 潜在类别模型(Latent Class Model)82.3 假设检验和模型选择(Hypothesis Testing and Model Selection)83 第二代统计方法:个体层次的调查数据(Unit-Level Survey Data)93.1 对职业地位的测量(Measuring Occupational Status)93.2 结构方程模型的诸多应用(The Many Uses of Structural Equation Models)103.3 事件史分析(Event History Analy
5、sis)123.4 二分因变量(Binary Dependent Variables)133.5 其他有限因变量(Other Limited Dependent Variables)143.6 多层次模型(Multilevel Models)153.7 缺省数据(Missing Data)163.8 因果关系(Causality)174 第三代统计方法:新数据,新挑战,新方法(New Data, New Challenges, New Methods)194.1 社会网络和空间数据(Social Networks and Spatial Data)194.2 文本和定性数据(Textual a
6、nd Qualitative Data)204.3 叙述和序列分析(Narrative and Sequence Analysis)214.4 仿真模型(Simulation Models)214.5 宏观社会学(Macro-sociology)225 讨论22参考文献241 引言为了纪念千禧年的来临,美国统计学会月刊(Journal of the American Statistical Association)刊登了一个由大约50篇短文组成的连载,每篇短文都着力概括统计学中的某一领域在即将过去的一个世纪所取得的进展。这一计划的初衷在于将统计学中一些最优秀的成果做一总结,并且突出未来研究中的
7、具有潜力的领域。我写作了有关统计学在社会学中应用的那篇论文(Raftery,2000)。其他几篇相关的论文或许会对那些对社会学方法论感兴趣的读者有帮助,这些文章涵盖了列联表(contingency table),对数线性模型(Fienberg,2000),因果推理在社会科学中的应用(Sobel,2000),人口学(Xie,2000),政治学方法论(Beck,2000),计量心理学(Browne,2000),经验方法在法律科学中的应用(Eisenberg,2000)等诸多领域。在我这篇论文的初稿问世后,许多同事都对我的文章发表了评论,其中有许多评论正确地指出了我在文章中不慎遗漏的该领域的一些重要
8、发展。然而,由于美国统计学会月刊给我的篇幅有限,我不可能将这些遗漏的部分全部补充进来。幸运的是,社会学方法论(Sociological Methodology)编辑Michael Sobel和Mark Becker请我撰写一篇在此基础上有所扩展的专题论文,或许这篇论文能够为这一不断发展的研究领域提供一个更为合适的概括。社会学起源于十九世纪中期,孔德(他首先引进了“社会学”一词),马克思,韦伯和涂尔干围绕着工业革命后新出现的社会,写下了一系列具有奠基意义的著作。社会学从一开始就使用了定量的研究方法。孔德,这位学科的奠基人,清晰的意识到这门学科应该以统计数据为基础。而涂尔干的自杀论更是成为了广泛运
9、用统计数据的典范。然而,在二战以前,可供研究的数据都显得支离破碎,统计方法也比较简单,仅仅停留在描述性统计的层次上。经过仔细的考证Camic和Wilson(1994)认为,Franklin H. Giddings是美国定量社会学之父。Giddings于1894年在哥伦比亚获得社会学教授职务,1931年逝世,他将社会学界定为研究集体层面社会现象的一门学科。他认为在很大程度上社会学中的统计分析是将诸多的个体分成不同的类别,同时发现每一类别的平均特征。从现代统计学角度来看,缺乏对变化的考察是他著作的一个最为显著的特征。从那以后,研究用的数据变得越来越复杂,同时统计方法也在不断发展,以适应数据分析的需
10、要。这时期的统计学方法的发展,有许多是要归因于社会学家而非统计学家的努力。Clogg(1992)以及他文章的评论者们有力的论证并且记述了这一点。这种情况部分反映了一个事实,即致力于研究社会学问题的统计学家的数量相对较少。更多的统计学家倾向于关注药物学,工程技术以及生物科学方面的问题。这或许反映了在二十世纪后半期不同学科间研究资金分布的不平衡状况。然而,最近有迹象表明这一情况正在发生变化,我将在本文的结尾论述这个问题。在过去的五十年中,社会学总的趋势是向更为严格、清晰的假设;更大更详细的数据集合发展;为了拟合数据,统计模型变得越来越复杂;主要社会学期刊所发表文献的统计分析水平也在不断提高。统计方
11、法在社会学领域成功地走过了半个世纪,使得该学科研究的科学水平有了极大的提高。社会学中广泛的使用了各种各样的统计学方法和统计模型。在这里,我将集中考察那些由社会学家发展的,直接由社会学问题所引致的,或者首先在社会学期刊上发表的那些统计学成就。许多其它的方法,比如逻辑斯蒂回归等适用于有限数量的因变量的方法,虽然也广泛的应用于社会学研究,但是他们是首先在其他的学科中为解决其学科自身的问题而发展出来的。有鉴于此,尽管这些方法很重要,但我们在这里也仅对他们做一简要介绍。对于从计量经济学而不是从统计学中引入到社会学研究中的统计方法,本文省略了与其相关的讨论。这或许对从另一个角度来讨论这一问题有所帮助。计量
12、经济学对社会学方法论产生了非常重要的影响,甚至有些人说这种影响比来自统计学本身的影响更为强大,但是在这里除了个别情况,我将不对这种重要的影响发表评论。为了避免引起争论,我将根据社会学中不同的统计方法所针对的数据类型,而不是根据这些方法本身对他们加以分类。我将区分出战后统计学在社会学中应用的三个不同的阶段。每一阶段的划分都是根据他们通常所适用的数据类型做出的:交互表,单位水平的统计数据,以及种种新的数据形式。就像现实中的代际一样,这三代统计方法前后层叠,而且它们之间的界限也并非十分明晰。虽然这些方法代表着不同的成熟水平,甚至关于他们的起点也并没有一个统一的界定,但是今天这些方法都依然保持着活力。
13、在二战后开始的这一时期,社会学家们所使用的许多数据都是在调查和普查的基础上以交互表的形式呈现的。我在文中所要讨论的第一代统计方法就是以这种方式处理数据的。通常说来,这类交互表都只包含很少的变量,例如性别,年龄组以及职业分类。社会流动表可以称得上是这种方法中的经典之作。这一领域或许是社会学家对统计学贡献最大的地方。实际上,我们可以说是社会学家们主导了这一分支领域,他们发展出来的这些方法已经超出了社会学领域渗透到其他的学科的研究工作当中。Schuessler(1980)所作的调查在很大程度上反映了第一代方法所取得的成就。1960年代早期,社会学家已经不必再依赖于计数的交互表了,来自含有多个变量调查
14、的个体层次的数据越来越容易获得。计算能力也已经发展到能够轻而易举地处理这些数据的水平。第二代的统计方法正是针对处理这类数据而发展出来的。Blau和Duncan的有广泛影响力的著作美国的职业结构(The American Occupational Structure),为这一代的统计方法披上了金色的外衣,而1969年社会学方法论(Sociological Methodology)以及1972年社会学方法与研究(Sociological Methods and Research)等发表窗口的建立,更为这一方法增光添色。Edgar Borgatta一手创立了这两份刊物,当他创立第二份刊物时,社会学方
15、法论已经远不能满足日益增多的投稿和发表的需要了。这些发展标志了社会学定量研究方法的新时代的到来。1980年代晚期,社会学家们勾画了一个雄心勃勃的计划,就是对那些难以符合标准交互表和数据矩阵要求的数据类型进行统计分析(尽管在有些情况下,这些数据也可以被强行归入这些类别中)。这些数据包含了文本(text)或叙述(narrative),以及依赖性很强的数据,比如社会网的数据和具有空间参照特性的数据。这其中还包含了一些含有多类型变量的数据集,比如卫星图片,人种学的纪录和其他一些定量测量数据。第三代的统计方法正是为了处理诸如此类的数据而发展出来的。或许是每一个新事物的优点,迄今为止,这一代方法保持着它们
16、的活力,包含了大量的令人激动的想法和进展,但是他们还未形成前两代统计方法所具有的成熟、完备的形式。我对社会学中所应用的统计学方法的分类是根据不同方法所处理的数据类型做出的,而不是以方法本身的类型为标准,但这并不意味着目前研究生课程的编排有什么问题。或许为了训练的方便和有效,社会学的主要方法倾向于按照不同的类别组织在一起,比如回归模型(regression model),有限因变量模型(limited dependent variable model),对数线性模型(log-linear model),结构方程模型(structural equation model),事件史分析等等。然而,我发
17、现要分辨统计学方法以往的发展趋势以及构想未来的发展,从最初引致这些方法产生的数据的类型入手或许是一条捷径。过去的五十年间,我们已经走过了一条漫长的道路。今天,许多社会学研究都是以巨大的高质量的调查样本为基础进行再分析的。他们较多的利用在公共基金资助下收集的或者是对研究者公开的数据库,这些数据库通常都有着5000到20000,甚至更大的样本规模。这为复证结果提供了一条简便的道路,同时也有助于社会学建立起可以与自然科学或医药科学相媲美甚至高于这些学科的科学标准。或许受以上因素的影响,社会统计学在最近成为了一个迅速扩展的研究领域,许多重要的研究机构也都在最近几年开始了他们对这一领域的探索。2 第一代
18、统计方法:交互表(Cross-Tabulations)2.1 分类数据的分析(Categorical Data Analysis)定量社会学家们分析的许多数据最初都是以交互分类表的形式出现的,所以毫不奇怪这一领域成为了社会学家对统计学贡献最大的地方。交互表分析中的经典的例子是社会流动表,这类表格通常具有两个维度,即应答者的职业类别与应答者父亲的职业类别,而职业类别的数量通常在5个到17个之间。最初的研究焦点是关联程度的测量,在社会流动领域他们称之为流动指数(Glass, 1954; Rogoff, 1953),然而这些指数不能对结构流动与交互(或称为循环)流动进行区分。为了解决流动表分析中的这
19、一关键问题,研究者需要为这些交互表建立一个清晰的概率模型。为此,Birch针对观察值xij提出了一个对数线性模型, (1)其中,i代表行,j代表列,u1(i)和u2(j)分别代表行和列的主效应,u12(ij)是交互项,用来测量对独立性的偏离。这一模型为所有需要对社会流动表和相似表格进行严格的分析的研究提供了一个总体的框架。然而,模型(1)的原型在分析社会流动和其他相似的交互表时遇到的困难是参数的数量过大,以至于不能进行推论和解释。比如美国的数据库通常使用的分类有17个,因此交互项中就包含了16=256个参数。要改进这一模型,就要使模型的交互项尽量简约(即含有较少的参数),同时又使模型能够拟合数
20、据。在这方面,Duncan(1979)和Goodman(1979)提出了一个成功的解决方案,即关联模型(association model):, (2)其中,若i=j,则(i,j)=1;若ij,则(i,j)=0。在模型(2)中,i(m)是第i行在第k个维度上的取值,j(m)是在第j列的对应值。这些值既可以事先具体化,也可以从数据中估计出来。最后一项允许在对角线方向上有不同的关联强度。(模型(2)是未经确认的书写形式,可能还有各种各样的确认条件)这个模型常被称为RC(M)模型。目前的应用中大多数情况下都是M为1,而在社会学实际应用中最早在模型中取M1的是Clogg, Eliason和Wahl(1
21、990)进行的对劳动市场经历和劳动力成果的研究。Goodman(1979)最初发展这一模型时,是将其作为用本地优比(Local Odds Ratio)描述关联程度的一种方法。Goodman(1985)表明这一模型与规范的相关和对应分析有紧密的联系,并且为这些方法提供了一个颇具发展潜力的框架。在对类别进行排序时,在i=i=I的条件下,这个标准的关联模型是一个有用的分析起点(Haberman,1979)。在这个模型中,所有的22子表的优比都相等,因此当=k时,这可以被看作二元正态分布的一个非连续的近似。表1:观察频次来源于美国社会流动最大规模的研究,期望频次来源于自由度为4的Goodman关联模型
22、。样本规模19,912。来源:Hout(1983)。子代职业 高级非体力劳动低级非体力劳动高级体力劳动低级体力劳动农业劳动父代职业Obs.Exp.Obs.Exp.Obs.Exp.Obs.Exp.Obs.Exp.高级非体力劳动141414145215343022786436524042低级非体力劳动7247165245242542727036984843高级体力劳动79879064866285685616761666108112低级体力劳动75679491483577181333253325237236农业劳动4093863574094414051611161718321832表1展示了一个简化
23、后的美国社会流动研究的真实案例,拟合数据都是通过关联模型得到的,该模型解释了表中99.6%关联性,因此它的成功是显而易见的。Hout(1984)扩展了这一模型的适用范围,在职业类别的性质等问题上,他使用模型(2)把取值(score)和对角项(diagonal terms)转换成取值的和或者协变量的积。这是对Birch(1965)的线性交互模型(linear-by-linear interaction model)的一个扩展。这种方法也将研究者的以简洁和可解读的方式,模拟相对更高维度和类别更多的交互表的愿望变成可能。并且它还成就了许多重要的发现,其中包括Hout(1988)得到的美国社会的流动性
24、近年来在不断增加的发现。这一个细致的发现是在具有复杂性质的数据基础上做出的,如果没有使用关联模型的方法这一成果将是很难获得的。Ganzeboom、Luijkx和Treiman的研究进一步证实和推进了这一实质性的成果,这一研究依据的是从同一时点的不同国家收集的几百个社会流动表,研究者发现,在二十世纪后半期工业化国家的社会流动性在以每年1%的速度增加。Biblarz和Raftery(1993)以及Biblarz,Raftery和Bucur(1997)将这一模型应用到更高维度的流动表中,用以研究不完整家庭的社会流动性。他们所用的流动表包含有父亲职业、子代职业、性别、种族、年代等5个维度,共计约700
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 社会学 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。