舍得这里所讲的语料库,通俗点讲就是句库,把平时看到的中英对照句子收集在一起,便于查询。
对于这类语料库来说,关键是要有一个查询速度够快的搜索引擎,其次是操作足够方便,用雪人CAT来做语料库的平台,正好符合这两点要求。
一、语料库的用途
语料库主要用途是:
1.查询英文句子,作为范例参考,或用于英文翻译;
2.通过中文查询英文的表达方法;
二、为何选择雪人CAT作为语料库平台
雪人CAT是一个翻译软件,从严格意义上讲,这算不得什么语料库的正统工具。但用雪人CAT有以下几点好处:
1.对语料素材格式要求较低,只要将英汉句子用特定分隔符分开就行(比如说TAB空格),雪人CAT中还带有一个非常不错的双语对齐工具,可用于素材整理;
2.导入语料操作非常方便;
3.查询速度非常快,一个拥有38万条语料的库,查询时通常不超过3秒;
4.查询非常方便,可用空格将关键词隔开,就像使用搜索引擎一样;
三、语料的收集
这里所谓的语料,就是中英对照的句子,只要有网络,我们可以很容易收集到这类素材,比较常用的途径有: 1.现成的辞典数据库,当然前提是你能用数据库工具打开;
2.其他人整理好的文本;
3.提供双语例句的在线辞典(比如有道)或其它类似网站(比如句酷);
4.中英对照的文章,不过这类文章需要经过处理后方可导入;
语料素材的格式很简单,推荐使用TXT(文本)文件,每一行存放一句英文和一句对应的中文,两个句子之间用TAB空格隔开。这样的文件就可以在雪人CAT中导入。
四、语料库导入方法
语料库只是我们通俗的叫法,由于雪人CAT是个翻译软件,在其内部对应的叫法是 “记忆库”。 具体的记忆库导入方法如下:
1.打开雪人CAT;
2.打开菜单“文件->新建->英译中项目”;
对于这类语料库来说,关键是要有一个查询速度够快的搜索引擎,其次是操作足够方便,用雪人CAT来做语料库的平台,正好符合这两点要求。
一、语料库的用途
语料库主要用途是:
1.查询英文句子,作为范例参考,或用于英文翻译;
2.通过中文查询英文的表达方法;
二、为何选择雪人CAT作为语料库平台
雪人CAT是一个翻译软件,从严格意义上讲,这算不得什么语料库的正统工具。但用雪人CAT有以下几点好处:
1.对语料素材格式要求较低,只要将英汉句子用特定分隔符分开就行(比如说TAB空格),雪人CAT中还带有一个非常不错的双语对齐工具,可用于素材整理;
2.导入语料操作非常方便;
3.查询速度非常快,一个拥有38万条语料的库,查询时通常不超过3秒;
4.查询非常方便,可用空格将关键词隔开,就像使用搜索引擎一样;
三、语料的收集
这里所谓的语料,就是中英对照的句子,只要有网络,我们可以很容易收集到这类素材,比较常用的途径有: 1.现成的辞典数据库,当然前提是你能用数据库工具打开;
2.其他人整理好的文本;
3.提供双语例句的在线辞典(比如有道)或其它类似网站(比如句酷);
4.中英对照的文章,不过这类文章需要经过处理后方可导入;
语料素材的格式很简单,推荐使用TXT(文本)文件,每一行存放一句英文和一句对应的中文,两个句子之间用TAB空格隔开。这样的文件就可以在雪人CAT中导入。
四、语料库导入方法
语料库只是我们通俗的叫法,由于雪人CAT是个翻译软件,在其内部对应的叫法是 “记忆库”。 具体的记忆库导入方法如下:
1.打开雪人CAT;
2.打开菜单“文件->新建->英译中项目”;
