Bear's House
資訊科技

認識中文字元碼

 
 

首  頁

資訊科技

教育學習

有感而發

相關鏈結

批評指教

 

 

五、中文字的屬性與特性

(一)中文字的屬性

  中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。世界上仍在使用當中的表意文字,僅有漢字,可區分為中文字及衍生漢字兩大類。中文字指的是華人所使用的漢字,主要的使用地區包括:台灣、大陸、港澳和新加坡等【註:新加坡直接使用大陸的中文字】。衍生漢字指的是源自中文字,但非華人所使用的漢字,主要的使用地區包括:日本、韓國、越南等【註:韓國、越南目前已不在日常生活中使用漢字】。中文字的「形」指的是字的形狀、結構和寫法,「音」指的是字的發音,「義」則是字的意義。衍生漢字的字形與中文字可能相同或近似,但其音、義卻往往有極大的差異。就目前的中文資訊處理能力而言,處理中文字的形和音的方法與技術已經達實用的程度,但是對於表達和處理字義的研究,則有待突破。在本文裡,因此特別把中文字元(簡稱為中文字)的定義限制在形和音兩項。若是牽涉到字義,則稱為中文詞

  中文字的屬性(attributes)意指用以描述中文字的形和音的一些訊息,這些訊息主要運用於中文字的輸入、輸出和排序等場合。中文字的字形屬性,包括:

  1. 與中文字輸入相關者:依據某些種輸入法(例如:倉頡輸入法)所逐字賦予的形碼、某些中文碼(例如:Big5碼),甚或不常用的四角碼、三角碼等。

  2. 與中文字輸出相關者:某幾種字型(font,例如:楷書、宋體、黑體、隸書等)的點陣,以及依某些種向量組字規範(例如:True type、Postscript等)所逐字賦予的字型表示式。

  3. 與中文字分類、排序相關者:部首、筆劃數(不含部首)、總筆劃數(含部首)、組字部件、筆順等。

  中文字的字音屬性,主要包括:依某類音標符號系統(例如:國語注音符號、漢語拼音字母等)所逐字賦予的注音等。國語發音由21個聲母(例如:ㄅ、ㄆ、ㄇ、ㄈ等)和39個韻母(例如:ㄧ、ㄨ、ㄩ、ㄧㄡ、ㄨㄟ、ㄩㄝ等)所組成,若不考慮聲調變化,共有411個基本發音。加上五聲(第一至第四聲和輕聲)變化,則可演化成2,055個不同的發音。中國文化大學前教授劉達人先生曾將這些發音加以整理、排序,分別賦予由1到2,055的序號,稱為劉氏音碼。劉教授並且以六種音標符號(包括:國語注音、韋氏音標、劉氏音標、耶魯音標、羅馬拼音和標準拼音)與劉氏音碼對照排列成表。劉氏音碼經過詳細的整理,足以涵蓋所有的國語發音,若再配合音標對照表,可提供極具彈性的音碼輸入法。【註:CNS 14754《中文資訊排序屬性標準》即是採用劉氏音碼來表示中文字的發音。】

 

(二)中文字的特性

  中文字數量龐大,但常用字僅佔少數。我們無法確知歷來曾經使用過或出現過的中文字總數究竟有多少,但參考圖5-1所示的歷代中文字字數及遞增情形統計表,可發現中文字的總數至少在十萬個以上。雖然中文字的數量極為龐大,但常用的中文字卻還不到總字數的5%。國立交通大學林樹教授曾於民國60年間,配合該校的中文電腦計畫,針對11種近代中文用字研究的成果加以彙總統計,分析個別中文字的使用頻率。在總計2,022,604字次的語料當中,共使用了8,532個不同的中文字。林樹教授將這些中文字,依其出現頻率區分為四個等級:最常用字、次常用字、間用字和罕用字,如圖5-2所示。

時代

西元年份

書  名

作  者

所收字數

遞增字數

 

倉頡篇

李斯

3,300

 

1∼5

訓纂篇

揚雄

5,340

2,040

60∼70

續訓纂篇

班固

6,120

780

100

說文解字

許慎

9,353

3,233

227∼239

聲類

李登

11,520

2,167

 

字林

呂忱

12,824

1,304

後魏

 

字統

楊承慶

13,734

910

後魏

480

廣雅

張揖

18,150

4,416

543

玉篇

顧野王

22,726

4,576

751

唐韻

孫愐

26,194

3,468

753

韻海鑑源

顏真卿

26,911

717

1037∼1067

集韻

丁度

29,992

3,081

1066

類篇

王洙等

31,319

3,319

1615

字彙

梅膺祚

33,179

1,860

1675

正字通

張自烈

33,440

261

1716

康熙字典

張玉書等

42,174

8,734

現代

1915

中華大字典

中華書局

44,908

2,734

現代

1969

中文大辭典

張其昀等

49,888

4,980

現代

1990

漢語大字典

徐中舒等

54,678

4,790

現代

2004

異體字字典第五版

教育部國語推行委員會

106,230

51,552

圖5-1 歷代中文字字數及遞增情形

級別

字數

字數%

出現次數

出現%

累計字數

累計%

最常用字

1,857

21.77

1,968,791

97.34

1,857

97.34

次常用字

2,068

24.24

45,973

2.27

3,925

99.61

間用字

2,182

25.57

5,415

0.27

6,107

99.88

罕用字

2,425

28.42

2,425

0.12

8,532

100.00

合  計

8,532

100.00

2,022,604

100.00

 

 

圖5-2 林樹中文用字分級表

  教育部國語推行委員會《八十四年常用語詞調查報告書》就總計1,982,882字次的語料加以分析,共找出5,731個相異的中文字。根據該報告所附的「字頻總表」,出現頻率最高的中文字「的」其出現頻率為1.65%;出現頻率最高的前100個字的累計出現頻率為34.59%;累計出現頻率50%的字數為212個字;累計出現頻率80%的字數為753個字;累計出現頻率90%的字數為1,244個字;累計出現頻率95%的字數為1,788個字;累計出現頻率99%的字數為3,047個字。林樹教授和教育部國語會雙方對現代中文用字分析研究的結果相當接近:學會3,000個最常用的中文字就能認得近代中文報章、書籍用字的99%。【註:認得每個字不代表能讀得懂文章。】

   此外,中央研究院資訊科學研究所前研究員謝清俊教授也針對二十五史的用字做了一番研究,部份結果摘列如下:

  1. 二十五史的中文字出現總和為31,409,450字次【註:不含各史當中的表,因為二十五史全文資料庫當時還沒將這些表建檔】,共使用了13,966個中文字,包含於Big5字元集者9,951個字,不在其中的則有4,015個字。

  2. 針對個別史,依個別中文字的出現次數由高而低加以排序,並累計其出現頻率畫成頻譜曲線,發現從《史記》到《清史稿》的25條曲線成為近似帶狀的分布。該頻譜曲線圖中的橫座標為累計字數,縱座標為累計出現頻率,最上方的曲線為《史記》,最下方的曲線為《清史稿》。

  3. 將林樹教授所發表的8,532個中文字的個別出現次數,同樣的由高而低加以排序並且累計出現頻率,畫成頻譜曲線,其結果落在二十五史曲線圖的帶狀曲線當中。

  4. 分別統計各史所使用的個別中文字,出現頻率最高的前100個字,其累計出現頻率將近每一史總字次的40%;至200字的累計出現頻率,以《史記》的61.78%為最高,而以《清史稿》的48.39%為最低,平均約為50%;至2,000字的累計出現頻率,超過95%;而至4,000字的累計出現頻率,則超過99%。

  二十五史當中,最早的《史記》成書於漢武帝天漢四年(西元前97年),而最晚的《清史稿》則成書於民國16年(西元1927年),前後跨越了兩千餘年。二十五史雖然都只註錄主編者的姓名,但是以編史的工程浩大,想必是集合眾人之力方可為之。二十五史雖有其固定的體裁,但是跨時兩千多年,參與編撰者和原始史料撰寫者累計應有成千上萬人之眾,而且語料多達三千餘萬字,對文言文的用字而言,其統計分析的結果應當頗具代表性。根據林樹教授和教育部國語會針對白話文用字、謝清俊教授針對文言文用字的分析結果,可以合理的推論:

  1. 中文字的使用頻率主要是受到個人識字、用字能力的限制,而與時空環境變遷的關係不大。因此,在跨越兩千多年、文言與白話合計總字次將近三千五百萬字的語料當中,才會出現相當一致的用字累計頻譜曲線。

  2. 較常用的中文字,總數不超過4,000。除此之外的大多數中文字出現在個別文件當中,其頻率平均還不到兩次(事實上,大多數僅出現一次)。因此,這些非常用中文字之所以出現在文件裡,只是一種隨機現象。

  中文單字的使用頻率會因時、因地,以及因應用領域而異。例一,「璿」、「堃」兩字原本不是常用的中文字,但是在孫運璿、游錫堃兩位 先生分別擔任行政院長期間,由於他們的姓名幾乎是天天見報,因而使得「璿」、「堃」字的使用頻率明顯激增,幾乎變成新聞業者的常用字。例二,「冇」(發音近似ㄇㄡˇ,意為「沒有」)為粵語方言字,在香港地區可算是常用字,但在非粵語地區則極少使用。例三,在一般白話文件裡,使用頻率最高的中文字為「的」,但是在電信、電力、自來水等用戶資料庫裡,「的」字卻甚為罕見,取而代之的最常用字為每個用戶地址裡都有的「號」字。

  中文字集為開放集合。若一個字元集定案之後,其字元即不再增減或變更,則稱此字元集為封閉集合(closed set)。相對的,若一個字元集定案之後,其字元仍需增減或變更,則稱此字元集為開放集合(open set)。英文字元集,由於英文字母和阿拉伯數字依常理不可能增減,加上英文文件中所使用的標點和符號可設限,因此很容易設計成封閉集合。但中文字集先天上就是開放集合,因為:

  1. 中文會因時、因地、因事而造新字,例如:中文字隨著時間而增加字數(請參閱圖5-1)、台灣早期移民常以發音近似的中文字加上「口」邊以音譯原住民地名、武則天為命己名而造新字「曌」、有些化學元素名稱 、魚類名稱、生物化學用字為近代所創等。

  2. 到目前為止,還沒有任何中文碼的字元集能夠完整蒐集所有的中文字,因此中文系統的使用者經常因業務所需而加字或造字,例如:姓名、地址裡的特殊字。

  中文字多異體字。若兩個中文字同音、同義,卻不同字形,則稱這兩個中文字互為異體字。一般說來,常用的中文字較易於產生異體字。例如,常用的「台」和「臺」兩字即互為異體字;又依北魏時期的字書《龍龕手 鑑》所載,「國」字即有十幾種不同的寫法。若異體字只是單純的同音、同義而不同形,兩異體字可隨意互換使用,事情 倒也簡單。但不幸的,並非如此。由於中文一字多義,使得一些中文字在某些中文詞裡可以互換(可視為異體字),但在別的中文詞裡卻又不能互換使用。例如,「五元」可以寫成「伍圓」,但「行伍」卻不同於「行五」,「元首」不能寫成「圓首」。這種現象對中文資訊檢索造成相當大的困擾。

上一章  返回目錄  下一章