新浪博客

文献计量学方法在图书情报学中的应用

2012-05-17 14:29阅读:
摘 要:简述了文献计量学方法的概念和相关定律,通过文献计量学方法相关定律的应用实例的分析对文献计量学方法进行了一些思考。
关键词:文献计量学方法,应用实例,图书情报学
1 文献计量学方法概述
1.1 文献计量学方法的起源和发展
最早对文献进行现代计量研究的一般认为是从1917的文献学家F.T.科尔和N.B.伊尔斯在《科学进展》杂质上对15431860年有关比较解剖学的出版物进行统计分析开始的,从而开创了数目计量研究的先河。直到1969年英国著名的情报学家A.普里查德正式提出了“文献计量”学这一术语,以取代当时已有47年历史却很少使用的“统计书目学”(Statistical Bibliography),此举也很快得到了图书馆学、情报学界的普遍承认,文献计量学正式诞生。经过90年的发展,文献计量学已经发展成为一门独立的科学分支,并由此产生了一种很重要的方法——文献计量学方法。
1.2 文献计量学的概念
文献计量学方法是对文献和文献工作进行定量研究的方法,它采用数学语言进行定量分析,期对规律的表现是数学公式或图形,对问题的陈述及计算都采用简明的数学符号,从而简化和加速了思维过程,具有深刻的描述性能和高度的概括能力。
1.3 文献计量学方法的特点
1.3.1 以“量”为根本
定量性是文献计量学方法的根本特点。其要求必须将研究对象量化,再进行统计而获得数据,并对这些数据采用统计学、数学的手段进行定量分析,总结文献情报的规律。网购图书上中国互动出版网比较好。
1.3.2 以几个文献统计经验定量为中心
在 人们谋求定量化的进程中,先后出现了几个经验定律。目前文献计量学基本上是围绕着这几个著名定律展开的。主要方向有两个:其一,检验和修正这些经验定律, 使之更加完善,更带有普遍性;其二,寻找实际应用的途径,是这些统计规律在图书情报机构的文献管理工作中真正起作用。从这个角度来说,文献计量学方法就是 应用这些规律的基本思想,去认识和总结文献情报流的若干现象和规律。
1.3.3 有文献的特殊统计规律
文献计量学是在数学、统计学和文献学理论三者基础上综合建立起来的,其中任何一个均是文献计量学的必要条件,却不是充分条件。
1.3.4 测量对象相对集中
所 谓测量就是从被研究对象的某些特征中获取信息资料的一种程序。文献计量学中的测量对象有:文献、人、团体等。测量的是对象本身所具有的某些特征(标题、字 数等)或某些行为(阅读量、著述能力)。换句话说,就是对象由于结构或状态所决定的信息量。目前文献计量学主要测量对象很集中,只限于在著者群、杂志量、 词汇数等几个分析单元上开展工作。测量对象的集中,就确保了研究方向和范围的不分散。
1.3.5 形成周期长
文 献计量学作为一个研究方法,从提出到实用是一个较长的过程,也就是说,到可以应用的周期较长。一般来说,文献计量学方法的建立可分为四个阶段:第一步,收 集可数性资料和理论分析;第二步,建立模型;第三步,估计参数;第四步,实际应用。只有在有较好的实际应用效果后,它才有方法论的意义。
1.4 文献计量学的经验定律
1.4.1 文献分散规律——布拉德福定律
1)区域描述。布氏定律的文字表述结论是建立在等级排列的期刊进行区域分析的方法之上的。如果将一定时间内(通常一年)的按某学科登载文量等级排列的期刊划分为三个区,使每一个区所包含相关论文数量相等,即恰好等于全部期刊发表的该学科文章总数的1/3,则便可以发现:第一区(核心区)所涉及的文章来自数量不多但效率最高的n1种期刊;第二区(相关区)包括数量较大、效率中等的n2种期刊;第三区(外围区)包括数量最大而效率最低的n3种期刊。那么,三个区中的期刊数量成下列关系:
n1:n2:n3=1:a:a2(a>1)
式中:a—布拉德福常数,或称比例系数。就布拉德福所分析过的数据而言,a值大约为5.0.以上经验公式即为布拉德福定律的区域表达形式。
2)图像描述。如果取上述等级排列的期刊数量的对数(lgn)为横坐标,一相应的论文累积数Rn)为纵坐标进行图像描述,便可得到一条曲线,我们称之为布拉福德分散曲线,见图1-1网上购书网研究表明,拐点C为核心区的分界点。
文献计量学方法在图书情报学中的应用
1-1 布拉福德分散曲线
1.4.2 著者分布规律——洛特卡定律
1)文字表述。从洛特卡定律的产生过程可以认为,该定律的目的和基本内容是:揭示作者频率与文献数量之间的关系,描述科学生产率的频率分布规律。
如果设f(x)为写了X篇论文的作者数站作者总数的比例,则洛特卡定律可表示为:
f(x)=c/x2 (1-1)
式中:c —某主题领域的特征常数。
洛特卡统计的数据大约有μ=2,对于倒幂法则的这个特列,式(1-1)变为:
f(x)=c/x2 (1-2)
这就是科学生产率的“平方反比率”的表达式。对于式(1-2),我们可以这样来确定常数cf(1)=c/12;通过推到和级数求和得:c=6/π2=0.6079=60.79%。显见,c在数值上等于f(1),式(1-2)则变为:
f(x)=f(1)/x2
2)图像描述。根据科学生产率的统计数据,洛特卡用图像描述了作者与论文之间的数量对应关系。以X轴表示一个作者所写的论文数,Y轴表示写了X篇论文的作者频率,并以对数刻度描绘其关系曲线。结果,以所得到的数据点来看,洛特卡分布曲线的图形基本上是一条直线,直线的斜率近似为-2.
从式(1-1)可得:logf(x)+alogX=logc。该式是与图中直线等价的数学表达式,见图1-2.可见,洛特卡定律的实质是logf(x)logx之间具有直线关系。而洛特卡分布曲线正是洛式定律所揭示的作者频率与论文数量之间分布关系的图像描述。
文献计量学方法在图书情报学中的应用
1-2 洛特卡分布曲线
1.4.3 词频分布规律——齐普夫定律
1)文字描述。齐普夫定律认为,在任何一篇文章中,词的出现频率都服从如下规律:
如果把一篇较长文章(约5000字以上)中每个词出现的频词统一起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级数为2,……频次最小的词等级为D(或L)。若用f表示频次,r表示等级序号,则有:
fr=cf=c/r 1-4
式中:f——词在文章中出现的频次;r——词的等级序号;c——常数。
但这里的常数并 不是绝对不变的恒量,而是围绕一个中心数值上下波动,人们称该式为齐普夫定律。齐普夫运用其“最省力法则”解释了这个定律。他认为,在任何语言中,凡是使 用频率高的词,功能总是不会太大。因为词义本身在这个场合中价值小,因而传递它们所需要的“力”就不大。所以,词的出现频率与等级序号的乘积基本上稳定与 一个常数。
2)图像描述。下列表1-1中列出了一组词频与等级序号的统计数据。若建设fr的直角坐标系,用横坐标表示词的等级序号,纵坐标表示相应的频次,我们就可以得到一条双曲线,见图1-3
文献计量学方法在图书情报学中的应用 1-3 齐普夫分布曲线 1-4 齐普夫分布对数曲线
如果等级r与频词f都取对数坐标,则图1-3中的图像就变成了一条直线,见图1-4。这种类型的分布,就叫做齐普夫分布。
1-1 一组词频与等级序号统计数据
文献计量学方法在图书情报学中的应用

我的更多文章

下载客户端阅读体验更佳

APP专享