查询地址:http://www.dwhyyjzx.com/cgi-bin/yuliao/
引用请标注以下文献:
孙宏林、孙德金、黄建平、李德钧、邢红兵(1997),“现代汉语研究语料库系统”概述,《第五届国际汉语教学讨论会论文选》,胡明扬主编,北京大学出版社,1997年10月。
语料库的介绍
“现代汉语研究语料库系统”研制成功
中国国家教委“八五”人文、社会科学规划项目、北京语言学院“八五”重点科研项目——“现代汉语研究语料库系统”于1996年1月29口在北京语言学院通过了专家鉴定。“现代汉语研究语料库系统”于1993年初立项,1993年5月开始实施。课题组成员有:孙宏林、黄建平、孙德金、李德钧、邢红兵。课题组还聘请了常宝儒、胡明扬、黄昌宁、陆俭明、吕必松、张普等六位语言学、对外汉语教学和汉语信息处理界的知名学者作为学术顾问。
“现代汉语研究语料库系统”包括两个层级的语料库。第一级是一个从约6000万字的原始材料中抽取出来的2000万字规模的粗语料,其大致构成情况是:《人民日报》语料1000万字,《中国新闻》语料500万字,经济、科普、知识等类书籍250万字,录入的样本语料250万字。录入的样本语料中包括文学作品150万字(其中小说100万字、散文30万字、报告文学20万字)和准口语材料100万中(矣中对话部分60万字,全部是话剧的脚本,独白部分40万字,包括单口相声、评书、演讲词、讲话、故事等)。这些语料中除了录入的样本中有一部分是80年代的出版物外,其他绝大部分是90年代的出版物。在这2000万字粗语料库的基础上建立了一个文本属性库,属性库中除了有宇数、作者、标题、出版单位等信息外,还登录了每一篇语料文本的题材类别和体裁类别。这2000万字的粗语料库目前采用电子部计算机与微电子发展研究中心(CCID)开发的 TIR全文检索系统建成了四个分库,可以进行基于宇串的检索。
该语料库的第二级是一个200万字规模的精语料。这200万字语料是在第一级的2000万字语料中按照设定的比例由程序随机捆取出来的。其中包括书面语语料160万字和准口语语料40万
引用请标注以下文献:
孙宏林、孙德金、黄建平、李德钧、邢红兵(1997),“现代汉语研究语料库系统”概述,《第五届国际汉语教学讨论会论文选》,胡明扬主编,北京大学出版社,1997年10月。
语料库的介绍
“现代汉语研究语料库系统”研制成功
中国国家教委“八五”人文、社会科学规划项目、北京语言学院“八五”重点科研项目——“现代汉语研究语料库系统”于1996年1月29口在北京语言学院通过了专家鉴定。“现代汉语研究语料库系统”于1993年初立项,1993年5月开始实施。课题组成员有:孙宏林、黄建平、孙德金、李德钧、邢红兵。课题组还聘请了常宝儒、胡明扬、黄昌宁、陆俭明、吕必松、张普等六位语言学、对外汉语教学和汉语信息处理界的知名学者作为学术顾问。
“现代汉语研究语料库系统”包括两个层级的语料库。第一级是一个从约6000万字的原始材料中抽取出来的2000万字规模的粗语料,其大致构成情况是:《人民日报》语料1000万字,《中国新闻》语料500万字,经济、科普、知识等类书籍250万字,录入的样本语料250万字。录入的样本语料中包括文学作品150万字(其中小说100万字、散文30万字、报告文学20万字)和准口语材料100万中(矣中对话部分60万字,全部是话剧的脚本,独白部分40万字,包括单口相声、评书、演讲词、讲话、故事等)。这些语料中除了录入的样本中有一部分是80年代的出版物外,其他绝大部分是90年代的出版物。在这2000万字粗语料库的基础上建立了一个文本属性库,属性库中除了有宇数、作者、标题、出版单位等信息外,还登录了每一篇语料文本的题材类别和体裁类别。这2000万字的粗语料库目前采用电子部计算机与微电子发展研究中心(CCID)开发的 TIR全文检索系统建成了四个分库,可以进行基于宇串的检索。
该语料库的第二级是一个200万字规模的精语料。这200万字语料是在第一级的2000万字语料中按照设定的比例由程序随机捆取出来的。其中包括书面语语料160万字和准口语语料40万
