新浪博客

四 计算机文献检索基础知识(原理、结构和功能)

2012-06-05 09:33阅读:
四 <wbr>计算机文献检索基础知识(原理、结构和功能)

1.计算机检索原理
计算机一方面接受用户的检索提问,一方面从数据库中读取文献记录,然后把两者进行比较,即检索提问标识与文献记录标识进行匹配运算,如果比较的结果一致,那么这篇文献就会作为命中文献在检索结果中显示,否则就是未命中文献。
四 <wbr>计算机文献检索基础知识(原理、结构和功能)


2.文献数据库的结构
1)文献数据库(Database):作为以某种方式将众多的文献信息存贮在计算机存贮设备上(如磁盘、光盘等)的数据结合,由于往往包含数以万计的文献记录,为便于选择检索,常被划分为若干个文档。如dialog联机检索的MEDLINE数据库被划分为若干个回溯文档(MED66MED75MED80MED85MED90)和现期文档 MED93.
2)文档(File):是数据库一部分记录的集合,是由按一定方式排列的文献记录构成。
3)记录(Record):是构成文献数据库的基本信息单元,每条记录描述一种(篇)文献的外表和内容特征,如文献篇名、作者、主题等。
4)字段(Field):是构成记录中的数据项,如文献的篇名、作者、主题词等,分别成为篇名字段、作者字段、主题词字段等。字段可作为一个检索入口,所以又称之为可检字段。
3.计算机检索功能
3.1布尔逻辑检索功能 Booleans
   布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑组配符表示两个检索词之间的逻辑关系,常用的组配符有:“ AND ”(和)、“ OR ”(或)、“ NOT ”(非)三种,其优先级依次为“ NOT ”“ AND ”“ OR ”;改变优先级的方法是使用括号( ),括号内的逻辑式优先执行。为缩短检索式和醒目起见, Dialog 检索系统中“ AND ”“ OR ”“ NOT ”算符可分别用“ * ”“+ ”“ – ”代替。
四 <wbr>计算机文献检索基础知识(原理、结构和功能)
   逻辑与: 逻辑与也称逻辑乘,用关系词“ and ”“ * ”表示。 A and B (或 A*B )表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息,见下图,阴影部分即为命中信息。使用逻辑与组配技术,将会缩小检索范围,增强检索的专指性,能够提高检索信息的查准率。
逻辑或: 逻辑或也称逻辑和,用关系词“ or ”“ + ” 表示。 A or B (或 A+B )表示两个概念的并列关系,记录中只要含有任何一个概念就算命中信息,即凡单独含有概念 A 或单独含有概念 B 或者同时含有 AB 两个概念的信息均为命中信息,可用下图表示,阴影部分为命中信息。使用逻辑或组配技术,可扩大检索范围,能够提高检索信息的查全率。在检索中,可对与检索概念有关的同义词、近义词、相关词等用逻辑或来连接,以避免漏检。
  逻辑非: 逻辑非也称逻辑差,用关系词“ not ” 表示。 A not B (或 AB )表示两个概念的排除关系,指记录中含有概念 A 而不含概念 B 的记录为命中信息,可用下图表示,阴影部分为命中信息。使用逻辑非组配技术,则剔除了不需要的概念,可提高检索信息的查准率,但这种方式也会排除掉相关信息,影响检索信息的查全率。
复合检索: 使用布尔逻辑组配检索词构成的检索式,逻辑算符 ANDORNOT 的运算次序在不同的检索系统中有不同的规定,往往在检索系统的帮助菜单中会有说明。布尔算符的优先执行顺序一般是:逻辑非、逻辑与、逻辑或,但用括号可以规定或改变其执行顺序,如下图所示,三个概念的信息集合中,阴影部分是逻辑表达式( A and Bnot C 的命中信息。三个逻辑算符和括号的配合使用,可将检索词组配成较为复杂的逻辑提问式,以满足复杂概念信息检索的需要。
3.2词位限定检索功能 (Proximity)
   该技术主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。布尔算符检索时,只对检索词进行逻辑组配,未限定检索词之间的位置及检索词在记录中的位置关系。在某些情况下,若不限制检索词之间的位置关系则会造成误检,影响查准率。例如检索生物防治的文献,若用检索式“biological*control”检索,则会将抑制生物control biological)的文献也查出来,这显然不是所需文献。因此,在大部分检索系统中设置了位置限定运算符号以确定检索词之间的位置关系,常用的相邻位置算符有(W)、(nW)、(N)、(nN),句子位置算符(S),字段算符(F)、(L)等。但在不同的检索系统所采用的位置运算符是不一样的,功能也有差异,使用时应具体对待。
   下表为 Dialog 联机检索系统供的词位限定算符及相应功能

算符
用法
表示的检索含义
W
A(nW)B
A B 两词相隔 n 个单词且前后次序不变; n=0 时格式为 A()BA(W)B
N
A(nN)B
A B 两词相隔 n 个单词且前后次序不限; n=0 时,格式为 A(N)B
L
A(L)B
A B 两词在同一主题词字段中, A 为主题词, B 为其副主题词
S
A(S)B
A B 两词在同一子字段中,即同一语句或同一短语中,词序不限
F
A(F)B
A B 两词在同一字段中,字段不限,词序不限
3.3截词检索功能 (Wildcard)
   在英语等西方语言中,常常有词语单、复数表示形式不同,英美拼写方式不同,词根相同、含义相近而词尾形式不同等情况,为使检索时不遗漏相关词,提高检索效率,一般信息检索系统都发展了截词技术,利用截词符来屏蔽未输入的字符。截词符根据检索系统的不同而不同,常用截词符有“ * ”

我的更多文章

下载客户端阅读体验更佳

APP专享