新浪博客

语料库对语言学发展的重大贡献——语料库语言学

2011-11-11 17:10阅读:
(注:同上篇,这也是近十年前上学时的作业)

一、什么是语料库
(一)语料库的定义
语料库(corpus)通俗说就是存放语言材料的仓库。作为计算机信息处理的一个术语,严格意义上的语料库指以电子形式保存的语言材料,“它是大规模真实文本的有序集合”(张普)。
(二)语料库的发展
1、国外语料库建设
国外早在20世纪50年代就已经开始了语料库的研究,陆续建成了一批颇有影响的语料库,如,1959 年伦敦大学夸克组织的“英语用法调查”(The Survey of English Usage,简称SEU),是语料库历史上第一个大型的计算机语料库。20世纪
60年代,FrancisKucera在美国布朗大学建立了研究当代美国英语的“布朗语料库”。20世纪70年代,由英国兰开斯特(Lancaster)大学的里奇倡议,由挪威奥斯陆(Oslo)大学的S.Johansson主持完成,最终装备在卑尔根(Bergen)大学的“LOB语料库”,它是布朗语料库的姊妹库,其建库目的是用以研究当代英国英语。为了能同美国英语进行比较研究,其规模与分布方案和布朗语料库类似。上述三个语料库的建立确定了语料库语言学在语言研究中无可争议的地位。1981年完成的“伦敦—隆德口语语料库”(LondonLund Corpus of English ,简称LLC)是很有价值的英语口语研究资源。20世纪80年代,由英国柯林斯出版社和伯明翰大学联合建设的COBUILD(Collins Berminhan University International Language Database)语料库,其研究目的是在语料库支持下开展词典学研究。20世纪90年代建成的朗文语料库(Longman Corpus 是以构造多用途语料库为目的建成的,是一个全新的英语语料库,可用以编纂词典,也可为学术研究服务。1991—1995年间建成的英语国家语料库(The National British Corpus,简称BNC),收入了可为教育、学术和商业普遍使用的语言资源。20世纪90年代建成的国际英语语料库(The International Corpus of English ,简称ICE)包含20个平行的子语料库,这些语料库既包括以英语作为第一语言或主要语言的国家,也包括以英语作为官方语言之一或大多数人口讲英语的国家。既可以利用该语料库的子语料库对各国进行语言研究,也可以利用子语料库语料之间的对比进行英语的比较研究。
2、我国的语料库建设
我国的语料库建设始于二十世纪八十年代初。当时的语料库实际上是语言资料库,建设目的在于为字、词典的编纂提供例句或给语言学家提供材料。与此同时,信息处理专家出于信息处理的需要,也开始语料库的建设,目的在于进行计量研究。从九十年代开始,国际自然语言信息处理领域发生了重大变化,转向对大规模真实文本的研究和处理,因此以大规模真实文本为基础的语料库及语言研究和知识自动获取受到高度重视,语料库研究越来越走向深入和实用(张普)。九十年代汉语语料库建设和研究得到了蓬勃发展,出现了一批重大成果,包括:北京语言文化大学的“现代汉语词频统计语料库”(1985年)、“当代北京口语语料库”(1992年)、“现代汉语语法研究语料库”(1995年)、“汉语中介语语料库”(1995年)、“现代汉语句型语料库”(1995年),北京语言文化大学与香港理工大学联合建设的“现代汉语语料库”(1998年)、北京语言文化大学与清华大学合作完成的“现代汉语语料库”(1998年)。
二、语料库带给语言学的根本性变化——语料库语言学
(一)关于语料库语言学
语料库语言学有两个含义:一是指以现实中人们运用语言的实例为基础进行的语言研究。
一是指以语料为语言描写的起点,或以语料为验证有关语言假说的方法(黄昌宁、李涓子《语料库语言学》商务印书馆2002)。概括这两者,我们可以说语料库语言学是一种以语料库为基础的语言研究方法。其宗旨是通过大规模真实语料的调查来发现和总结自然语言的各种语言事实和语言规律。
(二) 语料库语言学发展的历史
语料库语言学可以以乔姆斯基转换生成语法理论的提出为分界点分为以下几个时期。
1、语料库语言学发展的早期
指的是20世纪50年代中期以前。在这个时期,哲学上占主流的是实证主义和行为主
义。在语言学上重视材料的经验主义占据着主导地位。
这一时期语料库语言学的运用主要体现在:1)语言习得。20世纪30年代,基于对儿童自然话语的大量观察材料,语言学家和心理语言学家建成了儿童在不同年龄段的语言发展模式。2)方言学。3)语言教学。20世纪前50年中,语料库与外语教学联系密切,外语教学使用的词汇表往往是从语料库统计得出的。语料库对于外语教学过程的控制具有积极意义。4)句法和语义。语言学家将语料库用于语言描写,如Fries1952)建立的英语描写语法。5)音系研究。利用自然语料开展音系研究在西方首推结构主义语言学家,如F.BoasE.Sapir等人,他们强调语料获取的自然性和语料分析的客观性。
2、乔姆斯基转换生成语法时期
1957年乔姆斯基《句法理论》等论著的发表根本上改变了语言研究的状况。在哲学上笛卡儿的理性主义占据了主导地位,语言学的研究方法也从重视材料的经验主义转向理性主义,语料库研究方法遭到理性主义者的批判。
乔姆斯基区分了语言能力(language competence)和语言使用(language performance)两个概念。认为只有语言能力才能对人的语言知识做出解释和描述,语言运用只是语言能力的外在表现,它往往会因一些非语言因素的影响而发生变化,因此认为语言运用不能准确地反映语言能力。乔姆斯基认为,语料只是外在话语的汇集,它充其量只能对语言能力做出部分解释。因而,语言学家不应把语料看作得力工具。
乔姆斯基发现语言具有递归性,它表明自然语言的句子数量是无限量的,语料库再大也只是包含了自然语句的一部分,因此对于语言来说它永远是不充分的。
转换生成语法从根本上改变了20世纪50年代结构主义语言学的方向,之后的近20年里语料库语言学研究陷入了低谷。令人欣慰的是,在此形势下尚有一些语言学家凭着非凡的学术勇气,顶着压力,不懈地进行着语料库语言学研究并取得了较大的成就,如1959年夸克建立的《英语用法语料库》(Survey of English Usage, Francis Kucera开始着手建立后来在语言学届非常著名的布朗语料库,1975年,Jan Svartvik在前两项研究的基础上开始研制《伦敦—隆德语料库》(LondonLund Corpus)。作为现代意义上的语料库,它们的建立为后来20世纪80年代语料库语言的复兴奠定了基础。
3、语料库语言学发展的兴盛繁荣
随着计算机技术的不断提高,大规模语料库的建设成为现实。据Edwards 1993年的不完全统计80年代以来世界范围建成投入使用的各类语料库达50多个,其中较为著名的可用于研究的语料库有:1)英语库(The Bank of English)。它是目前最大的英语语料库,由各种类型的书面语材料和口语材料组成。收词两亿五千多万条。2)英语国家语料库(British National Corpus,简称BNC)。3)英语用法调查(The Survey of English Usage,简称SEU)。4 ) 国际英语语料库(The International Corpus of English简称ICE)。5)布朗语料库(The Brown Corpus)。6)伦敦—伦特语料库(The London--- Lund Corpus)。主要收集英语口语。7)兰卡斯特—奥斯陆卑尔根语料库(The Lancaster---Oslo bergen Corpus ,简称LOB)。可以用它比较不同英语文体。 8)法语语料库(Tresor de la langue Francaise,简称TLF)。语料包括从17世纪到20世纪书面法语各种文体的两千个语篇。10)玛喀里语料库(The Macquarie Corpus)。收入了1986年起的澳大利亚书面语。
(三) 语料库的发展与语言研究
1、语料库的使用促进了语言研究的发展
传统的语言研究大多是在个人的经验积累到一定程度的基础上,产生对于语言规律的感悟。
需要长时间的知识积累和材料搜集,费时耗力。但因为个人时间精力和思维方式的限制,仍然常常不免有挂一漏万的缺憾。语料库的发展为人们进行语言研究提供了得力的手段和工具,它的存储容量和处理语言材料的能力是任何个人头脑所无法比拟的。利用语料库所提供的语料,语言研究者可以进行分析,从而概括语言运用规律;可以运用语料库验证已有各语言规则的合理性和客观性,匡谬正误。从而使得语言研究得出的结论越来越接近语言事实本身。
2、语料库的发展有待于语言研究的进一步深入
要想使语料库更好地发挥其在语言研究中的作用,有待于进一步对语料库进行开发,赋予它更多的属性,只有如此才能利用它作相关研究。赋予语料库相关属性要基于语言研究的相关成果,依赖于人们对于语言的认识程度。语言交际是一个极为复杂的活动过程,其中交织着生理、心理、物理、社会的

我的更多文章

下载客户端阅读体验更佳

APP专享