Big5Code.txt
资源名称:gbbig5.rar [点击查看]
上传用户:dyjieshui
上传日期:2021-01-24
资源大小:1427k
文件大小:5k
源码类别:
多国语言处理
开发平台:
Visual C++
- (***)
- BIG-5 字符集
- BIG-5 码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码
- ”。它并不是一个法定的编码方案,存在着一些瑕疵,业界的评价也不高,但它
- 广泛地被应用于电脑业,尤其是国际互联网中,从而成为一种事实上的行业标
- 准。
- 关于 BIG-5 码的背景,一直未见详细记载,兹据我掌握的资料,介绍如下:
- 1983 年 10 月,台湾国家科学委员会、教育部国语推行委员会、中央标准
- 局、行政院主计处电子资料处理中心共同制定了《通用汉字标准交换码》
- (Chinese Ideographic Standard Code for Information Interchange,简称
- CISCII 码),经试用修订,1986 年 8 月 4 日由台湾中央标准局公布为法定标
- 准,标准编号为 CNS 11643。这一标准于 1992 年 5 月 21 日重新修订公布,更
- 名为《中文标准交换码》(Chinese Standard Interchange Code)。1995 年 1
- 月 4 日,台湾中央标准局又公布了 CNS 11643-1《中文标准交换码使用方法》。
- BIG-5 码是 1984 年台湾资讯工业策进会根据《通用汉字标准交换码》制订
- 的编码方案。至于为何称“BIG-5”,则未闻其详。
- Big-5 是一个双字节编码方案,其第一字节的值在 16 进制的 A0~FE 之间,
- 第二字节在 40~7E 和 A1~FE 之间。因此,其第一字节的最高位是 1,第二字节
- 的最高位则可能是 1,也可能是 0。
- Big-5 码的图形符号及汉字,基本与 CNS 11643 标准的第一、第二字面
- (Plane)一致,它收录 13461 个符号和汉字,包括:
- 1. 符号 408 个,编码位置为 A140~A3FE(实际止于 A3BF,末尾有空白位
- 置)。
- 2. 汉字 13053 个,分为常用字和次常用字两部分,各部分中的汉字按笔划
- /部首排列。其中:
- a. 常用字 5401 个,编码位置为 A440~C67E。包括台湾教育部颁布的《常
- 用国字标准字体表》中的全部汉字 4808 个,台湾国中国小教科书常用字 587 个,
- 异体字 6 个。
- b. 次常用字 7652 个,编码位置为 C940~F9FE(实际止于 F9D5,末尾有空
- 白位置)。包括台湾教育部《次常用国字标准字体表》的全部汉字 6341 个,《罕
- 用国字标准字体表》中使用频率较高的字 1311 个。
- 其余的 A040~A0FE、C6A1~C8FE、FA40~FEFE 为空白区域。一些空白位
- 置,经常被用于用户造字区,而且多存放香港常用字和粤语方言字。
- 现在流行的 BIG-5 码字库,在 F9D6~F9DC 位置大都有 7 个常用字,据说
- 为倚天系统所增。若计此 7 字,则全数为 13060 个汉字,13468 个汉字和符
- 号。此外,一些 BIG-5 码字库,如 Windows 繁体中文版的 True Type 细明体
- (华康科技提供,2.0 版),在 F9DD~F9FE 位置还有 33 个制表符和 1 个“
- ■”符号。
- Big-5 字集发表后,学者陆续发现了一些纰漏,有些纰漏在修订后的 CNS
- 11643 中已得到更正。详细的情况可参见台湾中央大学单维彰先生的个人网站
- (地址见本页末)。
- 注:
- 1. 代码表使用 BIG-5 代码编制。如果你使用外挂的中文平台,需要将当前
- 环境设置成为中文 BIG5 繁体来浏览。一些外挂中文平台无法完全正确显示代码
- 表的内容。
- 2. 如果你使用 Windows 95 简体中文版(或更高的版本)+ 微软公司提供的
- 繁体字支持,则个别字符无法显示或显示错误,如数字“3”、汉字“龙”等等。
- 此外一些上述的空白区域,会显示出非 BIG-5 码原有的字符。
- 3. 如果你使用 Windows 95 中文版(或更高的版本)+ Netsgape Navigator,
- 则在 A040~A07E 位置会显示出非 BIG-5 码原有的符号。
- 相关资料:
- 1. 台湾国立中央大学数学系 单维彰教授的个人网站。
- (http://www.math.ncu.edu.tw/~shann)
- 2. 台湾行政院研究发展考核委员会《政府机关资讯处理共通规范使用指引》
- 第三章《正式规范使用指引》第一节第一部分 《中文标准交换码(CSIC)》。
- (http://www.rdec.gov.tw/secr/ipcs-h1/311.htm)
- 3. 台湾行政院主计处电子处理资料中心“CNS 11643 中文标准交换码”介绍。
- (http://www.dgbasey.gov.tw/eyimc/switch2/sw2_5/code.html#cns1164)
- 4. 台湾《经济情势暨评论季刊》第一卷第四期(1996 年 2 月) 彭清一文
- 《国家资讯基础及通信国家标准之建立》。
- (http://www.moea.gov.tw/~ecobook/season/sa314.htm)
- 5. 台湾教育部“国语推行委员会”(http://www.moe.gov.tw/mandr/index.htm)
- 业务介绍 《国字标准字体母稿制作与推广》。
- (http://www.moe.gov.tw/mandr/business/1-3-6.html)
- 6. 在一些 FTP 站点中,存放有用于 DOS、Windows 3.x 的符合“国字标准
- 字体”的 BIG-5 字库文件。如:
- moers4.edu.tw/chinese-pub/chinese-sys/kuh
- ftp.cuhk.edu.hk/.1/chinese/ifcss/software/fonts/big5/misc/kuh
- ftp.fedu.uec.ac.jp/pub/china/software/ftp.ifcss.org/fonts/big5/misc/kuh
- ftp.kreonet.re.kr/.3/hangul/mirrors/ccic.ifcss.org/fonts/big5/misc/kuh
- ftp.lrz-muenchen.de/pub/culture/east-asia/sw/Fonts/C/big5/misc/kuh
- (***)
- ================================================================
- Big5 字符集编码标准
- ================================================================
- 1.空白
- A040 - A07E : 63 个汉字
- A0A1 - A0FE : 94 个汉字
- 2.符号
- A140 - A3FE : ( 63 + 94 ) x 3[ A3 - A1 + 1 ] = 471 个汉字
- 3.常用字
- A440 - C5FE : ( 63 + 94 ) x 34[ C5 - A4 + 1 ] = 5338 个汉字
- C640 - C67E : 63 个汉字
- 4.空白
- C6A1 - C6FE : 94 个汉字
- C740 - C8FE : ( 63 + 94 ) x 2[ C8 - C7 + 1 ] = 314 个汉字
- 5.次常用字
- C940 - F9FE : ( 63 + 94 ) x 49[ F9 - C9 + 1 ] = 7693 个汉字
- 6.空白
- FA40 - FEFE : ( 63 + 94 ) x 5[ FE - FA + 1 ] = 785 个汉字
- ================================================================
- * BIG5字符集中可收集字符总数
- ( 63 + 94 ) x 94[ FE - A0 + 1 ] = 14915
- ================================================================