漢字數量知多少
2014-07-02 20:34阅读:
【漢字正義】
漢字數量知多少
劉昌海
漢字產生以後,走过了一個四五千年的不間斷的發展演變歷程。在這個漫長的歷史過程中,歷朝歷代產生的新字不計其數。時至今日,漢字的數量究竟有多少?或說兩三萬,或說三四萬,或說四五萬,甚至有說七八萬的,竟然沒有人那怕能大致地說清楚。那麼,漢字的數量真的就沒有一個相對確定的量級嗎?
讓我們先來看看歷代字書(及韻書)的收字情況:
商(公元前1600~前1046年):甲骨文:已發現單字4378個(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,20
12
年)。其中已識2000餘字,公認1000餘字。
西周:《史籀篇》(周宣王期間,前827~前781):共十五篇,字數不詳。估計在1500~3000字之間。
秦(公元前221年):《倉頡篇》(李斯作)、《博學篇》(趙高作)、《爰歷篇》(胡毋敬作):共計3300餘字。
漢:《訓纂編》(楊雄,公元前53~公元18年):5340字(已佚)。
漢:《說文解字》(公元100年,許慎著):9353字;加上重文(異體字),共10,516字。
晉:《字林》(公元514年,呂忱著):12,824字(已佚)。
南朝·梁:《玉篇》(公元534年,著顧野王):16,917字(後增補至22561字)。
宋:《廣韻》(1008年,陳彭年等編著):26,194字。
宋:《集韻》(1039年,丁度等編著):53,525字。
宋:《類篇》(1066年,司馬光等編著):31,319字
明:《字彙》(1615年,梅膺祚等編著):33,179字。
明:《正字通》(崇禎末年,張自烈著):33,549字。
清·《康熙字典》(1716年,張玉書等編著):47,043字;
1915年,《中華大字典》(歐陽博存主編):48,000餘字。
1971年,《中文大辭典》(張其昀主編):49,888餘字。
1993年,《漢語大字典》(徐中舒主編):56,000餘字。
1994年,《中華字海》(冷玉龍主編):85,000餘字。
2004年,臺灣網路版第5版《異體字字典》:106,230字(其中正字29892個,異體字76338個)。
可是,漢字的數量,真的有這麼多嗎?
其實,當我們明白了漢字造字的原理與方法,清楚了漢字發展演變的來龍去脈,對於漢字的數量的問題,就會有一個基本的判斷。
在《漢字的造字理念與原則》一文中我們談到:漢字的具體構字方法是“六書”(其中的“假借”與“轉注”,是後起的二法)。也就是說,真正的漢字,得符合“六書”才算數。一個人隨便寫一個“字”,其構造不符合“六書”的要求,使人無從解讀,那就不能算是一個真正的漢字。而歷史上,這樣的“字”很多,有些是俗字,有些是錯別字。所以,“有效漢字”的數量,其實是可以有定數的。
這裏所說的“有效漢字”,主體是指符合六書的通用漢字(很多字後世發生了訛變,變得不符合六書了),也包括後世歷代沿用下來的俗字。
下面,我們再來看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。
中國古籍用字統計
書
名
|
成書年代
|
總用字量
|
不重複
用字量
|
《尚書》
|
先秦
|
24,538
|
1,941
|
《易經》
|
先秦
|
20,991
|
1,583
|
《詩經》
|
先秦
|
29,646
|
2,936
|
《周禮》
|
先秦
|
49,417
|
2,219
|
《儀禮》
|
先秦
|
56,758
|
1,522
|
《禮記》
|
先秦
|
98,081
|
3,016
|
《公羊傳》
|
先秦
|
44,338
|
1,645
|
《穀梁轉》
|
先秦
|
40,828
|
1,590
|
《左傳》
|
先秦
|
195,879
|
3,257
|
《論語》
|
先秦
|
15,918
|
1,382
|
《爾雅》
|
先秦
|
10,367
|
3,383
|
《孟子》
|
先秦
|
35,258
|
1,886
|
《荀子》
|
先秦
|
75,293
|
2,663
|
《管子》
|
先秦
|
126,286
|
2,882
|
《韓非子》
|
先秦
|
106,189
|
2,715
|
《老子》
|
先秦
|
5,437
|
824
|
《莊子》
|
先秦
|
65,231
|
2,924
|
《墨子》
|
先秦
|
76,240
|
2,511
|
《楚辭》
|
先秦
|
27,094
|
3,137
|
《呂氏春秋》
|
先秦
|
100,477
|
3,013
|
《國語》
|
先秦
|
70,389
|
2,620
|
《山海經》
|
先秦
|
31,030
|
1,999
|
《淮南子》
|
西漢
|
133,827
|
4,208
|
《戰國策》
|
西漢
|
122,529
|
2,774
|
《說苑》
|
西漢
|
112,254
|
3,271
|
《全唐詩》張籍卷
|
唐代
|
25,502
|
2,465
|
《全唐詩》白居易卷
|
唐代
|
189,154
|
4,750
|
杜甫詩
|
唐代
|
未詳
|
3,562
|
由上表可以看出,我國歷代各類著作所用不重複字數很少有超過4000的,大多介於2000~4000之間,說明我國歷代社會常用字有一個恒量,即3000字左右。我國古代童蒙識字教材同時並用時的總字數,恰在3000~4000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到了很高的水準。
有人曾統計過,十三經(《易》《書》《詩》《周禮》《儀禮》《禮記》《春秋左傳》《春秋公羊傳》《春秋穀梁傳》《論語》《孝經》《爾雅》《孟子》)中不相同的單字數為6544字。因此,實際上古人日常使用的漢字數不過六七千上下而已。
下面,我們再來分析分析大陸有關單位所作的漢字使用頻度統計資料。
現代語料字頻統計(清華大學):
統計字數:6,763(GB2313-80字元集)。
使用語料總字數:86,405,823字。
古籍字頻統計(北京書同文數字化技術有限公司所,2004年):
語料來源:
《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。
《四部叢刊》用字:總字數:
90,616,538字;不重複單字:27,606字。
二者合併:
總字數:788,693,134字,不重複單字:30,135字。
漢字使用頻度統計
現代語料字頻
|
古籍字頻
|
字
數
(累加)
|
覆蓋率(﹪)
(累加)
|
字
數
(累加)
|
覆蓋率(﹪)
(累加)
|
500
|
78.532
|
500
|
67.19
|
1000
|
91.915
|
1000
|
80.96
|
1500
|
96.476
|
|
|
2000
|
98.388
|
2000
|
91.65
|
2500
|
99.244
|
|
|
3000
|
99.633
|
3000
|
95.66
|
3500
|
99.820
|
|
|
4000
|
99.916
|
4000
|
97.55
|
4500
|
99.965
|
|
|
5000
|
99.986
|
5000
|
98.55
|
5500
|
99.996
|
|
|
6000
|
99.999
|
6000
|
99.10
|
|
|
7000
|
99.43
|
|
|
8000
|
99.62
|
|
|
10000
|
99.81
|
|
|
13000
|
99.91
|
|
|
22000
|
99.99
|
由現代語料字頻統計結果可看出:
前1,000個常用字,對語料的覆蓋率達到91.9%以上;
前2,500個常用字,對語料的覆蓋率達到99.2%以上;
前3,500個常用字,對語料的覆蓋率達到99.8%以上;
前4,500個常用字,對語料的覆蓋率達到99.9%以上;
以後字數再增加,語料覆蓋率的增加就很少了。
這與我國古時歷代社會常用字的數量基本一致。
而對古籍字頻的統計,雖然統計字數擴大了將近5倍,達到3萬多字,但字頻與現代漢語相比,差別並不很大:
前1,000個常用字,覆蓋率達到80.9%以上;
前2,000個常用字,覆蓋率達到91.6%以上;
前4,000個常用字,覆蓋率達到97.5%以上;
前6,000字,覆蓋率達到99.1%以上;
前8,000字,覆蓋率達到99.6%以上;
前13,000字,覆蓋率達到99.9%以上;
以後字數再增加,語料覆蓋率的增加就很少了。
如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。
1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個)、以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據與上述漢字字頻統計相關的資料制定的。
2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500)。
香港城市大學研究中心的Benjamin K.
Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量級,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。
所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,意味著能傳輸的信息越少。
▲由以上介紹可知,有效漢字的數量,也就在13,000個左右。
對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。
對於專業人員而言,掌握4000~4500個漢字足矣;
而對於普通人士,掌握2500~3500個漢字,則基本上就能滿足正常的工作與閱讀需要。
所以,2007年(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。
1997年(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。
2011年大陸第十一版《新華字典》,收字11,200餘個。
所以,那些所謂的漢字的數量有幾萬個,甚至是上十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字,或是俗字,或是錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)。
(2014-07-02;刘冰清编辑)