Bear's House
資訊科技

認識中文字元碼

 
 
 

首  頁

資訊科技

教育學習

有感而發

相關鏈結

批評指教

 

 

九、Big5和Big5E

(一)發展過程

  民國72年, 日本IBM公司推出第一部具 備漢字處理功能的日文個人電腦IBM550,引發國人自行開發中文PC的熱潮。【註:台灣IBM公司隨即以IBM550為藍本研發出第一部中文個人電腦IBM5550。】在經濟部的經費支援下, 財團法人資訊工業策進會與國內13家廠商合作進行「五大軟體專案」,主要目的在研發五種中文套裝軟體。73年,資策會發表了一套專為五大中文套專軟體所設計的中文內碼,也就是俗稱的Big5中文碼。 五大軟體專案研發中文套裝軟體的目標並未達成,時至今日幾乎無人知道所謂的「五大」究竟指的是哪五種軟體。但是,Big5中文碼卻 無心插柳地挾著第一套中文內碼的優勢,逐漸茁壯成為我國中文電腦的業界標準(de facto standard),市場佔有率遠超過其它中文碼。在國內,說是只要有中文電腦的地方就有Big5碼,並不為過。

  Big5碼的中文字集僅有13,051個中文字,難以滿足各公私機構業務電腦化的用字需求 ,於是中文系統廠商和PC廠商紛紛自行加字,推出各自版本的Big5碼,例如:倚天、宏痋BIBM、微軟等版本的Big5碼。【註:Big5碼中文字集原為13,053個字,但因『兀』字重複編碼(A461h與C94Ah)以及『嗀』重複編碼(DCD1h與DDFCh),去處重複兩字後只剩13,051個字。】由於Big5碼並沒有任何專責維護機構,原始版Big5碼表早已成為絕響,各家廠商的Big5碼表雖大同小異,卻造成使用者相當程度的困擾。經濟部標準檢驗局決定擔起維護Big5碼的責任,於民國92年委託財團法人中文數位化技術推廣基金會(以下簡稱中推會)修訂Big5編碼字元表,並定名為「Big5-2003」。

  不只各廠商的Big5碼版本相異,各政府機關也因業務電腦化用字所需而各自造字,使得政府機關之間進行公文電子傳遞時遭遇自造字無法轉換的問題。主計處電子處理資料中心奉 行政院交辦協助解決各政府機關Big5碼自造字無法交換的問題,經數次會商後決議請行政院研究發展考核委員會成立專案委託中推會辦理「Big5碼字集擴編計畫」。民國86年7月擴編完成「Big5+碼」,但此項成果未為多數廠商採用,故使用者並無相關產品可用。 由於該擴編計畫中所完成之「標準字集」,為政府單位一般文書最常用之自造字,如應用於Big5碼的造字區,可整合使用者常用的自造字、降低轉碼的頻率。有鑑於此,行政院研考會再度委託中推會,由Big5+之「標準字集」中選取3,954個字,在Big5碼的造字區中建置「Big5碼補充字集(Big5 Extension Character Set,簡稱Big5E字集)」;並配合行政院「電子化╱網路化政府計畫」之推動,於公文電子交換作業規範中訂為可處理中文碼類別之一。

 

(二)Big5-2003的編碼結構與字元集

  Big5碼屬於單位元標籤式中文內碼, 採雙位元組編碼,每一位元組為八個位元,其編碼格式如圖9-1所示。原始Big5碼,高位元組僅限於使用從A1h∼FEh的94個碼位(避開控制字元集C1),低位元組只可使用40h∼7Eh和A1h∼FEh的157個碼位 (避開控制字元集C0、C1和部分ASCII符號)。換言之,原始Big5碼的編碼空間為94個字列,每一字列為157個碼位,總計94×157=14,758個碼位。但Big5-2003則將高位元組除了原先94個字列之外,另外增加81h∼A0h的32個字列,合計126個字列,低位元組則維持不變, 碼位增加為126×157=19,782個。因此,Big5-2003碼要比原始Big5碼多出5,024個碼位。

b16 b15 b14 b13 b12 b11 b10 b9
b8 b7 b6 b5 b4 b3 b2 b1

1

 

 

 

 

 

 

 

               

高位元組

低位元組

圖9-1 Big5碼的編碼格式

  Big5-2003的編碼空間如圖9-2所示,主要劃分成中文字元區(常用字及次常用字)、符號區(SPCFONT和SPCFSUPP),以及使用者造字區(第一段、第二段與第三段)。原始版本的Big5碼總共收錄了408個符號、 33個控制字元,以及13,053個中文字。 408個符號包括:一個全形空格、28個標點符號、46個括號、45個特殊符號、40個數學符號、31個單位符號、43個製表符號、十個阿拉伯數字、十個羅馬數字、12個中文數字、52個大小寫英文字母、48個大小寫希臘字母,以及42個國語注音和聲調符號,編碼範圍從A140h∼A3BFh。 33個控制字元係沿用ASCII的控制字元,編碼範圍從A3C0h∼A3E0h,但從未被使用過。Big5-2003較原始版Big5新增了370個符號,包括:30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號。

圖9-2 Big5碼的編碼空間示意

  至於原始Big5碼的中文字,則是取材自民國72年所公佈的舊版通用碼(即 通用漢字標準交換碼的前身)。13,053個中文字區分為兩群:選自舊版通用碼第1字面的5,401個常用字(編碼範圍由A440h∼C67Eh),以及取自第2字面的7,652個次常用字(編碼範圍從C940h∼F9D5h)。Big5-2003較原始版Big5新增了七個中文字。各版本Big5編碼空間和字元集的比較,詳見圖9-3。

版本 Big5-2003 原始版Big5 倚天版Big5 微軟CP950 IBM版Big5
使用者造字區
(8140h∼A0FEh)
符號區
(A140h∼A2CEh)
全形英文字母
(A2CFh∼A343h)
全形希臘字母
(A344h∼A373h)
注音符號
(A374h∼A3BFh)
控制符號
(A3C0h∼A3E0h)
歐元符號
(A3E1h)
保留
(A3E2h∼A3FEh)
常用字
(A440h∼C67Eh)
數字符號
(C6A1h∼C6BEh)
部首
(C6BFh∼C6D7h)
罕用符號
(C6D8h∼C6E6h)
日文平假名
(C6E7h∼C77Ah)
日文片假名
(C77Bh∼C7F2h)
保留
(C7F3h∼C8FEh)

(C7F3h∼C8D3h)

次常用字
(C940h∼F9D5h)
七個倚天外字集的擴充字
(F9D6h∼F9DCh)
表格符號
(F9DDh∼F9FEh)
使用者造字區和新常用字
(FA40h∼FEFEh)

:僅編碼C7F3h∼C878h、C8CDh∼C8D3h。

圖9-3 各版本Big5碼的比較

 

(三)Big5E新增字元集

  Big5E的編碼結構與Big5-2003相同,兩者的差異處僅在於Big5E從CNS 11643及ISO/IEC 10646挑選了兩者中文字集所共有且為政府機關較常用的3,954個中文字,並新增至Big5-2003使用者造字區,條列如下:

  1. 8E40h∼8E42h:納編CNS 11643第1字面的3個部首(原倚天定義之C6C2h、C6C5h、C6C6h)。

  2. 8E43h∼A0FEh:納編CNS 1643第3字面的2,980個中文字。

  3. 8140h∼86DFh:納編CNS 11643第3字面的911個中文字。

  4. 86E0h∼875Bh:納編CNS 11643第4字面的59個中文字。

  5. 875Ch∼875Ch:國字零“O”O。

  6. 875Dh∼87EEh:保留碼位128個。

  Big5E碼的安裝工具與資料檔,已建置於研考會網站中,各界人士均可由該會資訊網
(網址:www.rdec.gov.tw/big-5e/bigindex1.jsp)取用。

上一章  返回目錄  下一章