Bear's House |
認識中文字元碼 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
五、中文字的屬性與特性(一)中文字的屬性中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。世界上仍在使用當中的表意文字,僅有漢字,可區分為中文字及衍生漢字兩大類。中文字指的是華人所使用的漢字,主要的使用地區包括:台灣、大陸、港澳和新加坡等【註:新加坡直接使用大陸的中文字】。衍生漢字指的是源自中文字,但非華人所使用的漢字,主要的使用地區包括:日本、韓國、越南等【註:韓國、越南目前已不在日常生活中使用漢字】。中文字的「形」指的是字的形狀、結構和寫法,「音」指的是字的發音,「義」則是字的意義。衍生漢字的字形與中文字可能相同或近似,但其音、義卻往往有極大的差異。就目前的中文資訊處理能力而言,處理中文字的形和音的方法與技術已經達實用的程度,但是對於表達和處理字義的研究,則有待突破。在本文裡,因此特別把中文字元(簡稱為中文字)的定義限制在形和音兩項。若是牽涉到字義,則稱為中文詞。 中文字的屬性(attributes)意指用以描述中文字的形和音的一些訊息,這些訊息主要運用於中文字的輸入、輸出和排序等場合。中文字的字形屬性,包括:
中文字的字音屬性,主要包括:依某類音標符號系統(例如:國語注音符號、漢語拼音字母等)所逐字賦予的注音等。國語發音由21個聲母(例如:ㄅ、ㄆ、ㄇ、ㄈ等)和39個韻母(例如:ㄧ、ㄨ、ㄩ、ㄧㄡ、ㄨㄟ、ㄩㄝ等)所組成,若不考慮聲調變化,共有411個基本發音。加上五聲(第一至第四聲和輕聲)變化,則可演化成2,055個不同的發音。中國文化大學前教授劉達人先生曾將這些發音加以整理、排序,分別賦予由1到2,055的序號,稱為劉氏音碼。劉教授並且以六種音標符號(包括:國語注音、韋氏音標、劉氏音標、耶魯音標、羅馬拼音和標準拼音)與劉氏音碼對照排列成表。劉氏音碼經過詳細的整理,足以涵蓋所有的國語發音,若再配合音標對照表,可提供極具彈性的音碼輸入法。【註:CNS 14754《中文資訊排序屬性標準》即是採用劉氏音碼來表示中文字的發音。】
(二)中文字的特性中文字數量龐大,但常用字僅佔少數。我們無法確知歷來曾經使用過或出現過的中文字總數究竟有多少,但參考圖5-1所示的歷代中文字字數及遞增情形統計表,可發現中文字的總數至少在十萬個以上。雖然中文字的數量極為龐大,但常用的中文字卻還不到總字數的5%。國立交通大學林樹教授曾於民國60年間,配合該校的中文電腦計畫,針對11種近代中文用字研究的成果加以彙總統計,分析個別中文字的使用頻率。在總計2,022,604字次的語料當中,共使用了8,532個不同的中文字。林樹教授將這些中文字,依其出現頻率區分為四個等級:最常用字、次常用字、間用字和罕用字,如圖5-2所示。
圖5-1 歷代中文字字數及遞增情形
圖5-2 林樹中文用字分級表 教育部國語推行委員會《八十四年常用語詞調查報告書》就總計1,982,882字次的語料加以分析,共找出5,731個相異的中文字。根據該報告所附的「字頻總表」,出現頻率最高的中文字「的」其出現頻率為1.65%;出現頻率最高的前100個字的累計出現頻率為34.59%;累計出現頻率50%的字數為212個字;累計出現頻率80%的字數為753個字;累計出現頻率90%的字數為1,244個字;累計出現頻率95%的字數為1,788個字;累計出現頻率99%的字數為3,047個字。林樹教授和教育部國語會雙方對現代中文用字分析研究的結果相當接近:學會3,000個最常用的中文字就能認得近代中文報章、書籍用字的99%。【註:認得每個字不代表能讀得懂文章。】 此外,中央研究院資訊科學研究所前研究員謝清俊教授也針對二十五史的用字做了一番研究,部份結果摘列如下:
二十五史當中,最早的《史記》成書於漢武帝天漢四年(西元前97年),而最晚的《清史稿》則成書於民國16年(西元1927年),前後跨越了兩千餘年。二十五史雖然都只註錄主編者的姓名,但是以編史的工程浩大,想必是集合眾人之力方可為之。二十五史雖有其固定的體裁,但是跨時兩千多年,參與編撰者和原始史料撰寫者累計應有成千上萬人之眾,而且語料多達三千餘萬字,對文言文的用字而言,其統計分析的結果應當頗具代表性。根據林樹教授和教育部國語會針對白話文用字、謝清俊教授針對文言文用字的分析結果,可以合理的推論:
中文單字的使用頻率會因時、因地,以及因應用領域而異。例一,「璿」、「堃」兩字原本不是常用的中文字,但是在孫運璿、游錫堃兩位 先生分別擔任行政院長期間,由於他們的姓名幾乎是天天見報,因而使得「璿」、「堃」字的使用頻率明顯激增,幾乎變成新聞業者的常用字。例二,「冇」(發音近似ㄇㄡˇ,意為「沒有」)為粵語方言字,在香港地區可算是常用字,但在非粵語地區則極少使用。例三,在一般白話文件裡,使用頻率最高的中文字為「的」,但是在電信、電力、自來水等用戶資料庫裡,「的」字卻甚為罕見,取而代之的最常用字為每個用戶地址裡都有的「號」字。 中文字集為開放集合。若一個字元集定案之後,其字元即不再增減或變更,則稱此字元集為封閉集合(closed set)。相對的,若一個字元集定案之後,其字元仍需增減或變更,則稱此字元集為開放集合(open set)。英文字元集,由於英文字母和阿拉伯數字依常理不可能增減,加上英文文件中所使用的標點和符號可設限,因此很容易設計成封閉集合。但中文字集先天上就是開放集合,因為:
中文字多異體字。若兩個中文字同音、同義,卻不同字形,則稱這兩個中文字互為異體字。一般說來,常用的中文字較易於產生異體字。例如,常用的「台」和「臺」兩字即互為異體字;又依北魏時期的字書《龍龕手 鑑》所載,「國」字即有十幾種不同的寫法。若異體字只是單純的同音、同義而不同形,兩異體字可隨意互換使用,事情 倒也簡單。但不幸的,並非如此。由於中文一字多義,使得一些中文字在某些中文詞裡可以互換(可視為異體字),但在別的中文詞裡卻又不能互換使用。例如,「五元」可以寫成「伍圓」,但「行伍」卻不同於「行五」,「元首」不能寫成「圓首」。這種現象對中文資訊檢索造成相當大的困擾。
|