新浪博客

词汇难度分级

2017-04-14 00:04阅读:
在我维护的一个技术传播微信群里,有人提问如何对词汇难度分级,将回答转录至此,供更多人参考。
对词汇分级的工具有几个,例如Range和AntWordProfile,不过背后的原理都类似,WP的分级也是参照的Range的。
Paul Nation教授对词汇分级分两个阶段
早期共分三级
Level 1 (1000个词族,来自1953年General Service List of English Words)
Level 2 (1000个词族,来自1953年General Service List of English Words)
Level 3 (570个词族,来自Coxhead的 Academic Word List)
Level 0(未登录词)
一篇文章送进去,即可给出在不同级别的分布情况。
词汇难度分级
一般认为,在Level1 和 Level2分布的越多文章越容易。不过这个词汇表,年代久远,很多人认为在现代社会的使用情况存疑。后来Paul教授做了改进,基于BNC语料做了词汇的分级,共分10级。
词汇难度分级

词汇表下载地址:Headwords of the first 10,000 words
基于语料库的方法更为科学根据Francis等人对Brown语料库的分析发现按照语料库中出现的频次从高到低排序2000个词汇覆盖语料库79.7%的词汇3000个词汇覆盖84%的词汇5000词覆盖88.7%,15851词覆盖88.7%。按照这个研究结论掌握了排名前2000的词汇即可看懂79.7的词汇。根据zipf-law,使用频率越高的词汇越简单。
据此一篇技术文档送入AWP,可以看出其在10个级别的分布如果大部分词汇都分布在前几个level的话则不必担心了。
另外,Flesch Grade Level Readability Formula可以估算出文章适合美国几年级的人阅读。美国国防部已将将其作为标准测试。
更多可以参考这里:http://www.readabilityformulas.com/flesch-grade-level-readability-formula.php
Range下载:http://www.victoria.ac.nz/lals/resources/range
AWP下载:http://www.laurenceanthony.net/software/antwordprofiler/

我的更多文章

下载客户端阅读体验更佳

APP专享