现代汉语词频、词性频度查询

2011-08-20 00:10阅读：

http://blog.sina.cn/dpool/blog/u/1427628891

查询地址：http://www.dwhyyjzx.com/cgi-bin/yuliao/
引用请标注以下文献：
孙宏林、孙德金、黄建平、李德钧、邢红兵（1997），“现代汉语研究语料库系统”概述，《第五届国际汉语教学讨论会论文选》，胡明扬主编，北京大学出版社，1997年10月。

语料库的介绍
“现代汉语研究语料库系统”研制成功
中国国家教委“八五”人文、社会科学规划项目、北京语言学院“八五”重点科研项目——“现代汉语研究语料库系统”于1996年1月29口在北京语言学院通过了专家鉴定。“现代汉语研究语料库系统”于1993年初立项，1993年5月开始实施。课题组成员有：孙宏林、黄建平、孙德金、李德钧、邢红兵。课题组还聘请了常宝儒、胡明扬、黄昌宁、陆俭明、吕必松、张普等六位语言学、对外汉语教学和汉语信息处理界的知名学者作为学术顾问。
“现代汉语研究语料库系统”包括两个层级的语料库。第一级是一个从约6000万字的原始材料中抽取出来的2000万字规模的粗语料，其大致构成情况是：《人民日报》语料1000万字，《中国新闻》语料500万字，经济、科普、知识等类书籍250万字，录入的样本语料250万字。录入的样本语料中包括文学作品150万字(其中小说100万字、散文30万字、报告文学20万字)和准口语材料100万中(矣中对话部分60万字，全部是话剧的脚本，独白部分40万字，包括单口相声、评书、演讲词、讲话、故事等)。这些语料中除了录入的样本中有一部分是80年代的出版物外，其他绝大部分是90年代的出版物。在这2000万字粗语料库的基础上建立了一个文本属性库，属性库中除了有宇数、作者、标题、出版单位等信息外，还登录了每一篇语料文本的题材类别和体裁类别。这2000万字的粗语料库目前采用电子部计算机与微电子发展研究中心(CCID)开发的 TIR全文检索系统建成了四个分库，可以进行基于宇串的检索。
该语料库的第二级是一个200万字规模的精语料。这200万字语料是在第一级的2000万字语料中按照设定的比例由程序随机捆取出来的。其中包括书面语语料160万字和准口语语料40万

新浪博客

现代汉语词频、词性频度查询

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼