文献信息中的离散分布规律优秀PPT.ppt
《文献信息中的离散分布规律优秀PPT.ppt》由会员分享,可在线阅读,更多相关《文献信息中的离散分布规律优秀PPT.ppt(42页珍藏版)》请在咨信网上搜索。
,2,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,一,.,布拉德福定律,二,.,齐普夫定律,三,.,洛特卡定律,四,.,布,-,洛,-,齐分布系,文献信息中的离散分布规律,1,2,一、布拉德福定律,布拉德福定律的产生背景,布拉德福定律的形成,布拉德福定律的基本原理,布拉德福定律的理论发展,2,2024/12/3 周二,1.,布拉德福定律,的产生背景,布拉德福,Samuel Clement Bradford,,,1878-1948,著名的文献学家和化学家,创立了布拉德福文献分散经验法则,是文献计量学的主要奠基人,多产作家,著有大量关于分类理论与实践,编目理论的著作,1948,年,完成巨作,文献学,文献分散规律的系统概述,3,2024/12/3 周二,1.,布拉德福定律,的产生背景,文献分散是普遍的客观现象,一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。如何找出其分散的规律性是关键所在。,科学统一性原则,每一门学科都或多或少与其他任何一门学科相关联,对一个专家有用的论文,不仅出现在这个专家所在学科的专业期刊上,也可以出现在“其他学科”的期刊上。,4,2024/12/3 周二,1.,布拉德福定律,的产生背景,现象:,300,种文摘和索引期刊每年摘登的,750000,篇文章,由于漏摘、漏标和同时存在的无意义重复,致使仅载有,250000,篇不同的文章,而两倍于此数量的,500000,篇文章则全部漏摘、漏标而与读者绝缘。,猜测:,专业文献除密集地登载于相应的专业期刊,(,约,1/3),,还登载于大量的专业边缘,(,相关的,),期刊,(,约,1/3),和更一般化的期刊,(,约,1/3),,后两者过于分散而难以查找等原因导致文献大量丢失。,假设:,任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊之中,其散布的态势则与该学科研究范围的大小有关。,5,2024/12/3 周二,2.,布拉德福定律,的形成,1933,年,科学博物馆,样本:期刊,应用地球物理学,润滑学领域,6,2024/12/3 周二,2.,布拉德福定律,的形成,右表为科技期刊按其载文量,递减顺序排列的表格统计结果,A,为期刊数量,B,为相应期刊所载的论文,数量,C,为,A,项的累积和,A,D,为,B,项的累积和,B,E,为期刊累积量的对数,即,lgC=lgA,。,7,2024/12/3 周二,8,2024/12/3 周二,3.,布拉德福定律,的基本原理,布拉德福的两种处理方法:,区域表示法,(,文字表述法,),图形表示法,(,经验法,),9,2024/12/3 周二,3.,布拉德福定律 的基本原理,区域表示法,(,文字表述法,),布拉德福根据专业论文载于三类不同期刊的设想将表中的数据经加和后按载文累积量划分为,a,、,b,、,c,大致相等的三个区域,即每一区域所包含的相关论文数量相等。,两个领域的期刊分区表,分区,期刊载文数数量(篇,/,年),应用地球物理学,润滑作用,期刊数量,论文数量,期刊数量,论文数量,a,9,429,8,110,b,59,499,29,133,c,258,404,127,152,10,2024/12/3 周二,3.,布拉德福定律 的基本原理,发现,相应期刊的累积量,(C),之比近似构成等比数列;即:,第一区(核心区):数量不多但效率最高的 种期刊,第二区(相关区):数量较大、效率中等的,种期刊,第三区(边缘区):数量最大而效率最低的,种期刊,三个区域中的期刊数量关系,a,为布氏系数,11,2024/12/3 周二,3.,布拉德福定律 的基本原理,布氏定律的表示,发现:,各区的期刊数,逐区上升,每种期刊的载文量逐区下降,核心区信息密度最高,每种期刊平均刊载,27.5,篇论文,相关区次之,每种期刊平均载文,5.5,篇论文,边缘区最低,每种期刊平均刊载,1,篇论文,分区,期刊数,论文量,1,(核心区),8,220,2,(相关区),40=8,5,220,3,(边缘区),220,12,2024/12/3 周二,3.,布拉德福定律 的基本原理,布氏定律的文字描述,如果将科技期刊按其刊载某专业论文数量多少,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量呈,的关系,13,2024/12/3 周二,3.,布拉德福定律 的基本原理,图形表示法,取期刊累积量的对数为横坐标,以相应论文的积累量为纵坐标,得到了图中的,A,B,两条曲线。,通过观察,布拉德福认为这两条曲线除下弯部分外,上半部分可以认为是一条直线。,14,2024/12/3 周二,3.,布拉德福定律 的基本原理,设,P,1,为该曲线的直线部分与曲线部分的分界点;,且令,则,,因为横轴为对数坐标,所以有:,15,2024/12/3 周二,3.,布拉德福定律 的基本原理,结论,如果将某专业刊载文献按载文量的递减顺序排列,并将其划分为三个载文量相等的区域,则相应的期刊累积数量呈等比关系。显然第一区,即,P,1,以下的下弯部分,其载文密度最大,布拉德福将其称为核心区域。,16,2024/12/3 周二,3.,布拉德福定律 的基本原理,布拉德福认为造成这种文献离散分布势态的根本原因在于:,科学的整体性原则,科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系,文献的增长与老化是前者的体现,而专业文献散布于相关专业期刊中的事实却是后者的反映,学科专业之间联系的紧密程度不一,整体性原则还认为科学中各个学科专业之间联系的紧密程度不一。此在文献中的表现就是刊载文献在相应期刊中的不均匀分布,17,2024/12/3 周二,3.,布拉德福定律 的基本原理,格鲁斯下垂:,格鲁斯(,Q.V.Groos,)认为布氏定律的图形应该为三个部分。,上升的曲线部分,直线部分,弯曲下垂部分,下垂部分称为布鲁斯下垂,加拿大的波普(,Adrew Pope,)进行统计分析也证明了图形由三部分组成,反映理论值与实际值的差异,期刊数和文献量统计不足,未能代表全部文献,18,2024/12/3 周二,3.,布拉德福定律 的基本原理,区域描述与图形描述的比较,经过数学证明布氏定律的两种形式存在着不能统一的矛盾,从数学和实际观察来看,图像描述更接近于文献的实际分布情况,就文献计量学的规律说明,不论是区域描述还是图像描述,都只能近似的揭示文献分布的规律,无法精确的符合统计数据,19,2024/12/3 周二,4.,布拉德福定律的理论发展,创立阶段,1934,年,布拉德福的论文,特定主题的信息源,(,Sources of Information on Specific Subject,),1934-1948,年,无人问津,1948,年,,文献学,的出版,使其理论开始传播,理论研究阶段(,60,年代),“布拉德福热”:相关研究空前活跃,形成两个学派:区域派和图像派,全面发展阶段(,60,年代以后),由纯粹的理论研究向应用领域渗透,理论与应用并列的全面发展情形,20,2024/12/3 周二,4.,布拉德福定律的理论发展,维克立的两个推论,布氏定律不只局限于划分三个区域,其证明可将等级排列的期刊划分为任意多个区域,图像表达式的推论(维氏公式),为第一区到第,k,区的期刊累积数量,m,为划分的区域数,v,为分散系数,布氏公式的推广形式(布氏公式),21,2024/12/3 周二,4.,布拉德福定律的理论发展,莱姆库勒对布氏定律的描述,发展了区域描述方法,从布氏定律的文字描述(区域描述)出发,推导出按等级排列的期刊中论文分布的规范式公式,莱姆库勒累积分布函数的推导,F(x),表示在,x,的比例下,期刊论文数与期刊论文总数的比例。,例如,如果要得到比例为,80%,的论文,将,F(x)=0.8,和相应的 的值代入,反求出,x,,即所需期刊的最少数量,,,a,是布拉德福系数,,=b-1,x,表示用来定义全部期刊中含有某一指定数量相关论文的最少期刊与期刊总数之比,22,2024/12/3 周二,4.,布拉德福定律的理论发展,布鲁克斯对布氏定律的描述,1969,年,英国著名情报学家布鲁克斯利用数学公式描述了布氏定律,R(n):,对应于,n,的相关论文累积数,n:,期刊等级排列的序号,a:,第一级期刊中相关论文数,R,(,1,),c:,核心区的期刊数,N:,等级排列的期刊总数,k:,参数,分散曲线中直线部分的斜率,,当,n,足够大时,,k=N,s:,参数,其数值等于图形直线部分反,向延长线与横轴交叉点的,n,值,23,2024/12/3 周二,4.,布拉德福定律的理论发展,例子,右表为所收集的有关维生素学论文,在相应在期刊中分布的统计数据和,以布鲁克斯公式为数学模型的计算,值。表中,n,为按载文量递减顺序排列,的期刊序号,,R(n),为前,n,种期刊的论,文累积量。,预期的全检数量,24,2024/12/3 周二,4.,布拉德福定律的理论发展,验证实际统计数据是否符合布拉德福定律,:,由布鲁克斯公式可得:,查表知,R(5)=269,,若满足布拉德福定律,则,查表可知,R(25)=537,,,R(5,2,)R(25),因此可初步认定上述数据符合布拉德福定律,。,25,2024/12/3 周二,4.,布拉德福定律的理论发展,验证查验该项统计的完整性:,经统计已知,有关维生素论文在相应期刊中分布的,s,值为,1,,在表中,,选,n=25,为参考点,则有:,R(25)=Nln25/1=537,所以,N=537/ln25=167(,种,),则有论文的理论值总量为:,R(167)=167ln167/1=853(,篇,),与表中的实际查到值比较,实际查到期刊总量为,146,种,实际查到文献,总量为,730,篇,则统计结果的完整性是值怀疑的。,26,2024/12/3 周二,4.,布拉德福定律的理论发展,布氏分布理论的发展趋势,主要的研究工作,进行具体分析,验证布氏经验法则,并实际应用,寻求普遍而精确的经验分布公式和理论解释,并取得了较大的发展,当前研究方向和有待解决的问题,运用大量的统计数据、严密的数学方法,确立或寻求更为精确的规范化的数学模型,深入研究布氏分布的机制,寻求科学统一的理论解释,努力结合实际,开展应用研究,提高图书情报服务的效率,27,2024/12/3 周二,二、文献信息词频分布规律,齐普夫定律,齐氏定律形成的基础,频率词典(词表),每一个词在一定长度的文件中出现的频率,两个最基本的数量指标(词的出现频率、词的序号,),艾斯杜(,J.Estoup,,速记员),1916,发现,较长的文章中,词频分布的定量化形式,N,r,r=C(,常数,),词的序号:,1,,,2,,,,,r,,,,,D,(,1,:绝对频率最大的词,,D,:绝对频率最小的词),词的绝对频率:,n,1,n,2,n,r,n,D,28,2024/12/3 周二,二、文献信息词频分布规律,齐普夫定律,齐氏定律的内容,齐普夫定律,f,r,r=c,f,r,:频次,,r,:等级序号,齐普夫定律的“最省力法则”的解释,任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。,29,2024/12/3 周二,二、文献信息词频分布规律,齐普夫定律,齐氏定律的图像描述,横坐标:等级序号,r,纵坐标:相应的频率,f,等级,r,与频率,f,均取对数,虚线:,ln,r,+ln,f,=lnc,实线:,b,ln,r,+ln,f,=lnc,斜率为,b,30,2024/12/3 周二,二、文献信息词频分布规律,齐普夫定律,齐氏定律的应用,文献标引和词表编制,信息检索,在图书情报管理中的应用,31,2024/12/3 周二,三、文献信息作者分布规律,洛特卡定律,洛特卡定律,概述,诞生,1926,年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造性地提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量。,在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用,化学文摘,与,物理学史一览表,来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有,x,篇论文的作者频率与,x,的平方呈反比。,32,2024/12/3 周二,频数,频率,33,2024/12/3 周二,三、文献信息作者分布规律,洛特卡定律,洛特卡定律,公式表述,设,f(x),为写,x,篇论文的作者数占作者总数的比例,,c,为某主题领域的特性常数,洛特卡统计的指数,a,大约为,2,,对于倒幂法则的这个特例式变为,这就是科学生产率的“平方反比定律”的表达式,34,2024/12/3 周二,三、文献信息作者分布规律,洛特卡定律,洛特卡定律,理论意义,1926,年洛特卡,(Darka),定律创立至今已整整,80,年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基础,其创立是值得纪念的。,洛特卡定律的命运,由于多种原因,洛特卡定律沉睡了,30,多年,后来由于普赖斯等人的发掘,自,60,年代起引起人们的重视。,今天,洛特卡定律仍然经常被科学学家、情报学家等引证和研究。,引自,科学的计量研究,35,2024/12/3 周二,三、文献信息作者分布规律,洛特卡定律,洛特卡定律的基本应用,反映科技劳动成果状况,可从统计或估算著者数量来预测文献数量的增长速度和文献流向,科学估计劳动规模,预测科学家数量的增长和科学家发展的规模及趋势,掌握科学论文的作者队伍,研究科学家的活动规律,研究人才的著述特征,合理编制著者索引,规划检索刊物体系,36,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,布拉德福定律、齐普夫定律和洛特卡定律是三个最基本的定律,被人们喻之为文献计量学的“三巨头”,多年来一直受到图书情报工作者的高度重视。值得指出的是,这三个定律之间有很多相似之处,存在着一定的联系。,研究对象,期刊上刊载的论文,文章中每个词的出现频次,科学工作者的著述,分析单元,期刊数,单词量,著者群,计量方法,都是通过对文献的调查和统计,取得数据并进行分析归纳来定量地认识文献情报流。,37,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,数学表达式同一类型,布拉德福定律:,R,(,n,),=klog(n/s),齐普夫定律,f(x)=k/r,及其修正式,f=k/r,n,洛特卡定律,f(x)=k/x,2,如果把数学式中的主体看作箱,把某一特定量看作投入箱中的球,那么对于布拉德福分布、齐普夫分布、洛特卡分布来说,箱好比杂志、词汇、著者,;,球好比相关论文、单词、著者所写的论文。,38,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,布拉德福分布是积累分布,,R,(,n,)表示,n,以前的累积数,对,R,(,n,),=klog(n/s),微分,dR,(,n,),/dn=k/n,与齐普夫公式一致,齐普夫修正式,f=k/r,n,作变换,r=(k/f),1/a,微分得,dr/df=(k,1/a,/a)f,-(1+1/a),取绝对值,若,a=1,即狭义的齐普夫形式与洛特卡定律一致。因此,这种类型的分布可统一用下式来表示:,f(n)=k/n,n,式中,k,a,为常数,一般来说,,1a2,;,f(n),为含有,n,个具体事项的主体来源数的分布密度。,由此可知,布拉德福分布、齐普夫分布、洛特卡分布的一致性是显而易见的,39,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,情报分布模型相似:,由上述三定律的数学表达式可以看出,每一定律都是一个变量随另一个变量的变化而变化,布拉德福定律中:,这两个变量是期刊数和其刊载的相关论文数。在期刊等级,n,和累积论文数,R(n),之间,便可得出,R(n),与,logn,相对应的累积频率,等级的对数分布,齐普夫定律中:,这两个变量是文章中不同词汇的数量及其出现频率。若将较长文章中的所有不同的词按其出现频率排列后,对与特定等级的词的出现频次来说,便可得到,f(r),与,r,相对应的频率,等级分布,洛特卡定律中:,这两个变量是作者数和其论文数。若将作者按其文献生产率增加的顺序排列,对于发表某一定值论文的每一作者数来说,便得到一个,f(x),与,x,相对应的频率,大小分布,可见,这三个定律都有两个重要特征,:,40,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,特征一:每一定律都研究两组数据中的某一具体排列,观测值和等级,布拉德福定律与观测值,(,论文,),和按累积频率,等级对数方法排列的等级,(,一种期刊,),相关。,齐普夫定律与观测值,(,词的出现,),和按频率,等级方法排列的等级,(,一个词,),相关。,洛特卡定律与观测值,(,论文,),和按频率,大小方法排列的等级,(,一个作者,),相关。,特征二:每一定律都对其观测值,等级的具体排列提出了一个相应的简单模型。,布拉德福定律中:就是要找出,R(n),与,logn,相关的函数关系,;,在齐普夫定律中:则是要找出,f(r),与,r,相关的函数关系,;,在洛特卡定律中:是要找出,f(x),与,x,相关的函数关系。,41,2024/12/3 周二,四,.,布,-,洛,-,齐分布系,以上是三定律相通的地方,此外,三定律也有各自的特点,这主要体现在它们在实际中的具体应用方面,即每个定律都有它们自己适用的主要领域,42,2024/12/3 周二,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文献 信息 中的 离散 分布 规律 优秀 PPT
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文