一、汉字主要编码系统由来和继承发展
1. GB2312
1980 年国家颁布了第一个汉字编码集标准,其全称是中华人民共和国国家标准《信息交换用汉字编码字符集基本集》, 标准号是 GB2312-80 , 就是通常说的 GB2312-80 编码 。它是一个简化字汉字的编码,通行于中国大陆地区,新加坡等地也使用这一编码。 它采用 双字节编码, GB 码共收录 6763 个简体汉字、 682 个符号。
编码范围是: A1A1~FEFE 。 汉字区的内码范围高字节从 B0-F7 ,低字节从 A1-FE ,占用的码位是 72*94=6768 。其中有 5 个空位是 D7FA-D7FE 。 GB2312-80 中共收录了 7545 个字符,用两个字节编码一个字符。每个字符最高位为 0 。 其中汉字部分:一级字 3755 ,以拼音排序,二级字 3008 ,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
2. GBK
GBK 编码的中文名是“汉字内码扩展规范 1.0 版”,它采用双字节编码,是对 GB2312-80 的扩充,在码位上和 GB2312-80 兼容。编码范围是: 8140~FEFE (剔除 xx7F )共 23940 个码位。
GBK 编码是 中国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 [1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为 1.0 版。 GB即“国标”,K 是“扩展”的汉语拼音第一个字母。 GBK 编码 等同于 UCS 的新的中文编码扩展国家标准。该编码标准兼容 GB2312 ,共收录汉字 21003 个、符号 883 个,并提供 1894 个造字码位,简、繁体字融于一库。包含 21003 个汉字,包含了 ISO/IEC 10646-1 中的全部中日韩汉字
GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。
ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set (简称 UCS ),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。 ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1 )。
ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“ CJK 统一汉字”( C 指中国, J 指日本, K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的 GB 2312 、 GB 12345 、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1 、 2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。 GBK 编码规范不是强制性标准,但由于 Windows 系统从 Windows95 简体中文版开始的字库表层编码就采用的是 GBK ,所以使得 GBK 成为了事实上的一个标准。
二、有关 GB18030
2000 年国际标准组织 ISO 公布了 ISO 10646-1:2000 ( Unicode 学术学会同步定义为 Unicode3.0 ),主要是增加了称为中日韩统一汉字 Extension A 的 6,582 个字。
GB18030 是目前最新的中国国家字集集标准,于 2000 年 3 月 17 日发布实施。此项中国国家强制性标准,按照国家规定 2001 年 8 月 31 日后正式发布或出厂的各种产品,如各种电脑中文操作系统、字型字库产品、中文输入法、中文版应用软件等相关产品,必须符合 GB18030 相关要求。
目前 GB18030 收录了在 ISO10646 的基本字面的所有汉字,并整合 GBK 的部分中文字符后,汉字总数累计达到 27,533 个汉字字符。 CJK-A 中有 52 字与 GBK 中的汉字重复,但内码不同,在计总数时不算在内 。
GB18030 在体系结构上延续 GB2311-1990 《信息处理 七位和八位编码字符集代码扩充技术》体系,采用单 / 双 / 四字节混合编码。该标准与现有的绝大多数操作系统、中文平台在计算机内码一级兼容,能够支持现有的应用系统,在字汇上与 GB13000.1-1993 《信息技术 通用多八位编码字符集( UCS )第一部分: 体系结构与基本多文种平面》兼容,从而为中文信息在国际互联网上的传输与交换提供了保障。该标准同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。
GB18030-2000 标准作为 GB2311 体系的字符编码标准,规定了信息交换用的基本图形字符及其二进制编码的十六进制表示,适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。
GB18030-2000 标准具体规定了图形字符的单字节编码和双字节编码,并对四字节编码体系结构做出了规定。
以下为 GB18030-2000 标准的详细内容:
■范围
本标准作为 GB2311 体系的编码字符标准,规定了信息交换用的图形字符及其二进制编码的十六进制表示。
本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。
■ 引用标准
下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。
|