您现在的位置:首页 > 产品与方案 > OEM



 


字库标准

GB
(GB2312
及GB12345)

GBK

GB18030

BIG5

字体款数

123款
(GB2312有61款
GB12345有62款)

62款

5款

24款

样张下载

下载

下载

下载

下载

标准字数

7539 = 94 (单 字 节 ASCII字符 + 6763 (双字节汉 字 ) + 682 (双字节 符号 )

21980 = 94 (单 字 节 ASCII字符) + 21003 (双字节汉 字 ) + 883 (双字节 符号 )

28521 = 94 (单 字 节 ASCII字符) + 21003 (双字节CJK汉 字 ) + 894 (双字节 符号 ) + 6530 (四字节CJK汉 字 )

13554 = 94 (单字节 ASCII字符)+ + 13053 (双字节汉字) + 407 (双字节符号)

GB18030 编码标准

一、汉字主要编码系统由来和继承发展

1. GB2312

  1980 年国家颁布了第一个汉字编码集标准,其全称是中华人民共和国国家标准《信息交换用汉字编码字符集基本集》, 标准号是 GB2312-80 , 就是通常说的 GB2312-80 编码 。它是一个简化字汉字的编码,通行于中国大陆地区,新加坡等地也使用这一编码。 它采用 双字节编码, GB 码共收录 6763 个简体汉字、 682 个符号。

  编码范围是: A1A1~FEFE 。 汉字区的内码范围高字节从 B0-F7 ,低字节从 A1-FE ,占用的码位是 72*94=6768 。其中有 5 个空位是 D7FA-D7FE 。 GB2312-80 中共收录了 7545 个字符,用两个字节编码一个字符。每个字符最高位为 0 。 其中汉字部分:一级字 3755 ,以拼音排序,二级字 3008 ,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

2. GBK

  GBK 编码的中文名是“汉字内码扩展规范 1.0 版”,它采用双字节编码,是对 GB2312-80 的扩充,在码位上和 GB2312-80 兼容。编码范围是: 8140~FEFE (剔除 xx7F )共 23940 个码位。

  GBK 编码是 中国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 [1995] 229 号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为 1.0 版。 GB即“国标”,K 是“扩展”的汉语拼音第一个字母。 GBK 编码 等同于 UCS 的新的中文编码扩展国家标准。该编码标准兼容 GB2312 ,共收录汉字 21003 个、符号 883 个,并提供 1894 个造字码位,简、繁体字融于一库。包含 21003 个汉字,包含了 ISO/IEC 10646-1 中的全部中日韩汉字

  GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。

  ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set (简称 UCS ),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与 Unicode 组织的 Unicode 编码完全兼容。 ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1 )。

  ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“ CJK 统一汉字”( C 指中国, J 指日本, K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的 GB 2312 、 GB 12345 、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1 、 2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。 GBK 编码规范不是强制性标准,但由于 Windows 系统从 Windows95 简体中文版开始的字库表层编码就采用的是 GBK ,所以使得 GBK 成为了事实上的一个标准。

二、有关 GB18030

  2000 年国际标准组织 ISO 公布了 ISO 10646-1:2000 ( Unicode 学术学会同步定义为 Unicode3.0 ),主要是增加了称为中日韩统一汉字 Extension A 的 6,582 个字。

  GB18030 是目前最新的中国国家字集集标准,于 2000 年 3 月 17 日发布实施。此项中国国家强制性标准,按照国家规定 2001 年 8 月 31 日后正式发布或出厂的各种产品,如各种电脑中文操作系统、字型字库产品、中文输入法、中文版应用软件等相关产品,必须符合 GB18030 相关要求。

  目前 GB18030 收录了在 ISO10646 的基本字面的所有汉字,并整合 GBK 的部分中文字符后,汉字总数累计达到 27,533 个汉字字符。 CJK-A 中有 52 字与 GBK 中的汉字重复,但内码不同,在计总数时不算在内 。

    GB18030 在体系结构上延续 GB2311-1990 《信息处理 七位和八位编码字符集代码扩充技术》体系,采用单 / 双 / 四字节混合编码。该标准与现有的绝大多数操作系统、中文平台在计算机内码一级兼容,能够支持现有的应用系统,在字汇上与 GB13000.1-1993 《信息技术 通用多八位编码字符集( UCS )第一部分: 体系结构与基本多文种平面》兼容,从而为中文信息在国际互联网上的传输与交换提供了保障。该标准同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。

  GB18030-2000 标准作为 GB2311 体系的字符编码标准,规定了信息交换用的基本图形字符及其二进制编码的十六进制表示,适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。

  GB18030-2000 标准具体规定了图形字符的单字节编码和双字节编码,并对四字节编码体系结构做出了规定。

以下为 GB18030-2000 标准的详细内容:

范围

  本标准作为 GB2311 体系的编码字符标准,规定了信息交换用的图形字符及其二进制编码的十六进制表示。

  本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。

引用标准

  下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。


GB 2311—1990  

信息处理 七位和八位编码字符集 代码扩充技术( eqv ISO 2022:1986 )

GB 2312—1980

信息交换用汉字编码字符集 基本集

GB 11383—1989

信息处理 信息交换用八位代码结构和编码规则( idt ISO 4873: 1986 )

GB 12345—1990

信息交换用汉字编码字符集 辅助集

GB 13000.1—1993

信息技术 通用多八位编码字符集( UCS ) 第一部分:体系结 构与基本多文种平面( idt ISO/IEC 10646.1-1993 )

原则

  本标准向下与国家标准 GB2312 信息处理交换码所对应的事实上的内码标准兼容。
  本标准在字汇上支持 GB13000.1 的全部中、日、韩( CJK )统一汉字字符和全部 CJK 统一汉字扩充 A 的字符。

定义

本标准采用下列定义。

4.1 字汇 repertoire
   用编码字符集表示的一个指定的字符集合。

4.2 字符 character
   供组织、控制或表示数据用的元素集合中的一个元素。

4.3 编码字符 coded character
   字符及其编码表示。

4.4 保留区 reserved zone
   本标准中留作未来国际标准规定的区域。

字汇

  本标准收录的字符分别以单字节、双字节和四字节编码。

5.1 单字节部分
   本标准中,单字节的部分收录了 GB11383 的 0x00 到 0x7F 全部 128 个字符及单字节编码的欧元符号。

5.2 双字节部分

  本标准中,双字节的部分收录内容如下:
   GB 13000.1 的全部 CJK 统一汉字字符。
   GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。
   GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个.
   GB 13000.1 收录的其它字符 31 个。
   GB 2312 中的非汉字符号。
   GB 12345 的竖排标点符号 19 个。
   GB 2312 未收录的 10 个 小写罗马数字。
   GB 2312 未收录的带音调的汉语拼音字母 5 个以及 ɑ 和 ɡ 。

  汉字数字 “ 〇 ” 。

表意文字描述符 13 个。
增补汉字和部首 / 构件 80 个。
双字节编码的欧元符号。

5.3 四字节部分

本标准的四字节的部分,收录了上述双字节字符之外的,包括 CJK 统一汉字扩充 A 在内的 GB 13000.1 中的全部字符。

总体结构

本标准中,采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一个字节均由八位二进制位串组成,任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表示。

单字节部分采用 GB 11383 的编码结构与规则,使用 0x00 至 0x80 码位。双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从 0x81 至 0xFE ,尾字节码位分别是 0x40 至 0x7E 和 0x80 至 0xFE 。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为 0x81308130 到 0xFE39FE39 。
见表 1 及图 1 。


1 码位范围分配图

字节数

码位空间

码位数目

单字节

0x00~0x80

129 个码位

双字节

第一字节

第二字节

23940 个码位

0x81 ~ 0xFE

0x40 ~ 0x7E

0x80 ~ 0xFE

四字节

第一字节

第二字节

第三字节

第四字节

1587600 个码位。

0x81~ 0xFE

0x30~ 0x39

0x81~ 0xFE

0x30~0x39


  四字节字符的编码自第四个字节开始,编码码位为 0x30 至 0x39 ;其次是第三个字节,编码码位为 0x81 至 0xFE ;再次是第二个字节,编码码位为 0x30 至 0x39 ;最后是第一个字节,编码码位为 0x81 至 0xFE 。即,

0x81308130 至 0x81308139 ;
0x81308230 至 0x81308239 ;
……

0x8130FE30 至 0x8130FE39 ;
0x81318130 至 0x81318139 ;
……

0x8131FE30 至 0x8131FE39 ;
……

0x82308130 至 0x82308139 ;
……

0x8230FE30 至 0x8230FE39 ;
……

0xFE308130 至 0xFE308139 ;
……

0xFE39FE30 至 0xFE39FE39 。

注:本标准中,凡数字前标有 0x 的表示采用十六进制,未标有 0x 的表示采用十进制。

图1 : GB18030 编码结构图

■字符的排列顺序

7.1 单字节部分字符的排列顺序

  本标准中单字节部分所有字符按照 GB11383 中相应字符的顺序排列,单字节编码的欧元符号置于 0x80 位置,对应于 GB 13000.1 的 0x20AC 位置。

7.2 双字节部分字符的排列顺序
  本标准双字节部分的字符排列顺序见附录 A 。

7.3 四字节部分字符的排列顺序

  自 0x81308130 至 0x8439FE39 共 50400 个码位,对应本标准双字节部分 未包括的所有 GB 13000.1 的字符,按照 GB 13000.1 相应字符的顺序排列,剩余码位保留。

  0x85308130 至 0x8539FE39 共 12600 个码位,为本标准的保留区,留待未来字符扩展使用。

  自 0x86308130 至 0x8F39FE39 共 126000 个码位,为本标准的保留区,留待未来汉字字符扩展使用。

  自 0x90308130 至 0xE339FE39 共 1058400 个码位, 用于对应 GB 13000 的 16 个辅助平面,字符排列顺序完全遵照 GB 13000 的 16 个辅助平面的相应码位顺序依次排列,剩余码位保留。

  自 0xE4308130 至 0xFC39FE39 共 315000 个码位, 为本标准的保留区, 留待未来标准扩展使用 。
  
  自 0xFD308130 至 0xFE39FE39 共 25200 个码位,为用户自定义区。

■码位分配

8.1  节部分的码位分配
   本标准中,单字节的部分的码位分配 见 GB 11383 。单字节编码欧元符号置于 0x80 位置。

8.2  双字节部分的码位分配
   本标准中,双字节的部分的码位安排分为 0x8140 至 0xFE7E 和 0x8180 至 0xFEFE 两部分,共 23940 个码位。

8.3  四字节部分的码位分配
   四字节部分的码位分配见 7.3 条。



北京北大方正电子有限公司 all rights reserved.
京ICP证050487号