Bear's House |
認識中文字元碼 |
|
六、中文字元集的編碼(一)中文字元編碼的限制1960年代初期,當美國國會圖書館人員起草英文資訊交換碼時,電腦領域裡還沒有任何共通的標準或規範。但時至今日,以ASCII為基礎的一整套標準及規範卻早已建構了電腦和網路的整體環境。除非中文電腦業者打算自行建立新的電腦與通訊體系,否則就必須遷就這些標準和規範。中文字元碼因而不免受到現行電腦環境的諸多限制。現行電腦環境對中文字編碼的主要限制有二:
(二)中文字元的編碼從事中文字的編碼工作,必須面對現行電腦環境的限制,以及因中文字屬性和特性所衍生的問題。中文字編碼的步驟與第一章所述者類似,大致如下:
由於中文字的數量龐大,致使中文字的蒐集、篩選、屬性整理、排序和編碼等工作變得相當艱鉅。下文中,將就中文字編碼的各個步驟,說明可能會碰到哪些問題以及可行的解決方案。 1.建立中文字集:中文字的總數雖然多達十萬以上,但實際常用者不過數千字而已。一般的中文資訊處理系統並沒有處理全部中文字的需求,如何選取適當與適量的中文字,因而成為制訂中文字集的首要課題。蒐集中文字元以建立中文字集,依編碼目的可採取兩種不同的策略:
2.整理必要的中文字屬性電腦並不具備人類的語言能力,所能儲存和處理的只是字元碼和屬性資料。也就是說,中文字集必須配合中文字的形、音屬性,才足以因應電腦輸入、輸出和處理中文資訊之所需。所以,有必要針對字元集裡的每一個中文字,整理出注音、部首、筆畫數、輸入形碼、字型等屬性資料。電腦因具有強大的處理資訊能力,已廣為各行各業所採用。若電腦的中文字形、字音錯誤,或將造成文化上的傷害,因此其正確性不容忽視。理想的做法是:由政府主管部門統籌整理標準化的中文字形、字音,提供中文系統業者使用。若是還有些中文字超出政府所公佈的字元集,則以委請文字學專家負責或協助整理工作較為妥當。 3.依據某些屬性將中文字加以排序為了方便編碼起見,需要將中文字集裡的所有中文字依照某些屬性加以排序。例如,以先部首後筆畫數(不含部首)的方式排序,或是以先總筆畫數後部首的方式排序,或是根據發音排序。有時候,還要考慮中文字的使用頻率,例如:先將中文字依其使用頻率加以分群(常用、次常用、罕用等),然後再就每一群中文字分別予以排序。 4.選擇中文字元碼的編碼格式由於受到現行電腦與通訊環境的限制,中文字元碼必須採取多位元組碼形式。中文字元碼的長度應使其編碼空間足以容納中文字集和預留的造字空間。與建立中文字集的做法相類似,依編碼目的可採取兩種不同的策略:
5.賦予每個中文字一個碼就已經排序好的中文字集,按照選定的編碼格式,依序賦予每個字一個碼。由於中文字元碼的每一個位元組都必須避開控制符字元,因此整個編碼空間將會被切割成不連續的區段。已經排序好的中文字集,可以另外依序賦予每個中文字一個連續編號(慣例上從1開始),稱為字序碼。中文字編碼格式通常有其規則,因此中文字元碼和字序碼兩者可以互相轉換。
|