新浪博客

国外部分英语语料库简介及访问网址

2016-04-27 09:39阅读:
(一)国际英语语料库( ICE)
分别由英国英语分库、美国英语分库、新加坡英语分库、澳大利亚英语分库等组成。每个分库都由300篇口语、120篇独白、200篇书面语、150篇印刷语组成。其可提供对英语系国家不同英语的比较。用户可以通过http: / /www.ucl.ac.uk /english - usage / ice /htm访问该库。

(二) 美国英语语料库
1990 年由美国布朗大学的Nelson Francis 和HenryKucera开发,容量为100万词次。它包含的主要是书面英语,包括了15种文体的500个文本,这些文本分为标注文本( tagged text)和未标准文本( un2tagged text) 。其MARC版本可以支持两种检索方式:从语料库检索完整的句子和关键词、上下文生成索引行。该语料库的主要特征是能反映语言的共时性。该语料库可以通过http: / /www.lextutor.ca/concordancers/concord_e. html访问。

(三)英国英语语料库
SEU语料库( Survey of English Usage) 1959年由英国伦敦大学教授Quirk建立,书面语和口语各占一半,每篇约为500字。其贡献在于它是第一个大型电脑语料库。用户可以通过http:/ /www.ucl.ac.uk/english - usage /访问。
此外还有: LOB语料库(Lancaster/Oslo - Bergen Corpus) ,词库容量为100万词次。其贡献在于该语料库采用了TAGIT标注系统,以统计的方式建立换算机率矩阵,把标注正确率提高到了96%。用户可以通过http:/ /www.edict.com. hk/con2cordance /WWWConcappE.htm进行在线检索。

LLC口语语料库(London - Lund Corpus of Spoken English) ,其内容为500, 000词次的口语,内容分为五大类:面对面谈话、电话、讨论、即席演讲、专题演讲。它是第一个英语口语语料库。用户可以通过http:/ /khnt.hit.uib.no/icame /man2uals/访问。

COBU ILD语料库( Collins Berminhan University International Language Database)由John Sinclair在1980 s建立。其贡献在于它是第一个动态语料库,用户可以通过http:/ /www.collins.co.uk /Corpus/CorpusSearch. aspx进行在线检索。
Longman语料库(Langman Corpus) ,该库从地域上讲,跨越了英国、美国及其他国家。用户可通过http: / /www. longman. com /dictionaries/ corpus/ index. html了解该库的情况。

(四)澳大利亚英语语料库
澳大利亚语料库(Australian Corpus of English) 容量为100万词次,以LOB语料库和BROWN语料库为蓝本,收集了书面和口头英语。该库没有进行标注。用户可以通过http: / /khnt. hit. uib. no / icame /manuals/ 访问。
(五)东非英语语料库
国际英语语料库东非分库( ICE - EA, International Corpus of English, EastAfrican Component)容量为100万词次。该库收集的是肯尼亚和坦桑尼亚两个国家的书面和口头英语,可以通过http: / /www. ucl. ac. uk / english - usage / ice / avail. htm访问。

(六)印第安英语语料库
国际语料库印第安英语分库( ICE - IC, International Corpus of English, Indian Component)容量为100万词次,收集书面和口头印第安英语。该库进行了文本组成、话语、词性和句法标注。用户可以通过http: / /www. ucl. ac. uk / english - usage / ice / index. htm访问。
Kolhapur语料库(Kolhapur Corpus)容量为100万词次,以BROWN和LOB语料库为蓝本收集的书面英语,大约有500各文本。可以通过http: / /khnt. hit. uib. no / icame /manuals/访问。
(七)新西兰英语语料库
国际英语语料库新西兰分库( ICE - NZC, International Corpus of English, New Zealand Component)容量为100 万词次,收集的是新西兰书面和口头英语。该库进行了文本、话语、词性和句法标注,用户可以通过http: / /www. ucl. ac. uk /english - usage / ice / index. htm访问该库。
Wellington语料库(Wellington Corpus) 容量为100 万词次,总共有500个没有标注的文本,以BROWN和LOB语料库为蓝本收集的书面英语。用户可以同过http: / /khnt. hit. uib.no / icame /manuals/ 访问。
Wellington新西兰口语语料库(Wellington Corpus of Spoken New Zealand English)容量为100万词次,有500个文本。收集的是正式、半正式和非正式口语语料,并进行了话语标注。用
户可通过http: / /khnt. hit. uib. no / icame /manuals/访问。

(八)菲律宾英语语料库
国际英语语料库菲律宾分库( ICE - PC International Corpus of English, Philipp ine Component)容量为100万词次,收集的是菲律宾书面和口头英语。该库进行了文本、话语、词性和
句法标注,用户可以通过http: / /www. ucl. ac. uk / english - usage / ice / index. htm访问。

(九)新加坡英语语料库
国际英语语料库新加坡分库( ICE - IP, International Corpus of English, Indian Component)容量为100万词次,收集的是新加坡书面和口头英语。该库进行了文本、话语、词性和句法标注,用户可以通过http: / /www. ucl. ac. uk / english - usage /ice / index. htm访问。

(十)英语混合语语料库
VO ICE语料库(Vienna Oxford International Corpus of English)容量为25万词次,并且正在扩充中收集的是英语口语、英语作为混合语的交流、大量没有文本的英语学习者之间的交流。用户可通过http: / /www. univie. ac. at/Anglistik /voice /访问。

ELFA语料库(English as a L ingua Franca in Academic Settings) ,容量为50 万词次。内容为口头学术英语。http: / /www. uta. fi/ laitokset/kielet /engf / research / elfa /可访问。

(十一)英语历史语料库
ARCHER 语料库(A Rep resentative Corpus of Historical English Registers)容量为170万词次。该库有1, 037个文本,涉及10个领域,包括英国英语和美国英语,并进行了词性标注。用户可通过http: / /www. cal. nau. edu / english /degree_programs. asp访问。
CEECS语料库( Corpus of Early English Correspondence Sampler)容量为45万词次。内容为个人书信。用户可通过http: / /www. eng. helsinki. fi/varieng/main / corpora1. htm访问。

Lampeter早期现代英语语料库(Lampeter Corpus of Early Modern English Tracts)容量为110万词次。该库收集的是非文学散文文本,并进行了文本标注。用户可通过http: / /www.tu - chemnitz. de /phil/ english / chairs/ linguist/ real/ independent/lampeter/manual/pages/manual. html访问。

语料库标注和解标注软件有AnnoTool, GoTagger,DeTagging, 语料库检索软件有WordSmith4. 0, PowerFREP, MicroConcord,ParaConc, ConcappV4, 文件格式转换工具有SoundScriber, Vwalker2, 基于数据驱动学习的工具有Dropper, WordPilot, Xcloze, 搭配工具有CNgramtool, CollocExtract, kfNgram2005。

我的更多文章

下载客户端阅读体验更佳

APP专享