生僻字常见问题

大字库是不是就能解决生僻字问题?

答：通常所说的大字库指的是国家已经颁布编码标准的，拥有字符数最多的现行字库。 GB18030-2022是我国现行最新的编码标准，包含汉字97908个。这个字库与公安部实际使用的人口信息生僻字库（即方正人口信息字库）不同，截止目前，方正人口信息字库还包含了GB18030-2022标准之外公安人口信息库在用的PUA生僻字，达到102863个汉字，每年还会应公安部的应用要求及时增补。

字库超过10万字是不是能解决生僻字问题？

答：字库实际上有两个部分，一是字形，就是我们看到字是怎么写的，二是编码，每个字符都对应一个编码。如果一个字库超过国标，那么多出的字符就是我们所说的自定义补字，而补字的编码是由补字的一方自己定义的，换句话说，对两个都有补字的字库来说，同一个编码位置所对应的字却不一样。实际上超过国标编码的字库，都是根据具体需求产生的定制字库，比如方正人口信息字库就是在2004年因公安部发行二代身证的需求，在整理全国派出所户籍、一代身份证等信息后，定制而成的专门解决人口信息中生僻字的字库。而所谓10万字的字库，一般是应古籍整理等方面的需求而产生的定制字库，方正跟中华书局也有类似的合作字库，但其并不能替代解决人口信息中的生僻字问题。

如果我有生僻字的编码，是不是就可以不用人口信息字库？

答：作为临时性措施，使用生僻字的编码是可以帮助通过联网验证，但其存在不能显示的问题。生僻字的应用包括是输入、显示和联网验证。搜狗拼音可以解决个别生僻字的输入和显示问题，使用生僻字编码通过验证可以临时应付生僻字的联网验证问题。但想要正常使用生僻字，应做到一套方案同时满足可输入、可显示、可验证和可打印，缺了哪一环节都不是正常使用字库的方式。同时，目前公开的一字两码也仅仅涉及与GBK编码相关的52个字符，与全部生僻字数量相差甚远。

别人说他们的字库也能解决生僻字库，我能相信吗？

答：人们一般把不认识的字理解为生僻字，而从字库编码标准上来讲生僻字指的是GBK编码之外的汉字。目前国家已经颁布的最大字库编码标准是GB18030-2022，有97908个汉字，GBK有21003个汉字，在GBK之外有的汉字统称为生僻字。方正人口信息生僻字库收录的生僻字比GB18030-2022标准还多，也会随着公安部生僻字的增补而及时升级。因此，方正人口信息生僻解决方案才能完整、彻底和持续解决人口信息生僻字问题。

我用搜狗拼音能打出生僻字，是不是可以替代人口信息生僻字库？

答：搜狗拼音输入法可以输入的超出标准范围的生僻字是搜狗公司自己补的字，编码是自己定义的，当然和公安在用的人口信息字库的编码不同，因此验证无法通过。另外搜狗拼音也只补了最常见的个别生僻字，与人口信息字库中自定义生僻字数量相差甚远。

是不是我安装一套人口信息生僻字库就可以解决生僻字的问题了？

答：安装了人口信息生僻字库，也仅仅是具备了解决生僻字问题的基础，接下来还需要配套一系列解决方案才能保证我们正常使用生僻字：由于人口信息生僻字库是在GB18030-2022标准基础上定制的。国标扩容后，二字节的位置都用尽了，再增加的字都采取了四字节编码，这样就要求应用系统、数据库存储都需要支持UTF-8，才能使得应用系统、数据库“认识”这些字。

1. 输入问题，由于人口信息生僻字库是专门定制的字库，市面上的输入法都无法支持从方正人口信息生僻字库中调用字符，这就需要配套专门输入法，方正人口信息生僻字库配套有专门的输入法。

2. 移动端、WEB端使用生僻字，由于人口信息生僻字库属于大字库，超过了60M，都下载安装会占用很大的存储空间和带宽。因此，方正字库专门开发了人口信息生僻云字库的技术方案，解决了移动端和WEB端的方便使用生僻字的问题。

3. 信创环境，由于信创环境的变化，原来很多在Windows上的应用，都需重新开发并适配信创环境，方正已经开发适配信创环境的人口信息生僻字库和输入法。

4. 一字两码验证，由于历史原因，一些生僻字是先补了字，在人口信息生僻字库使用自定义编码（PUA编码），国标扩容之后再赋予了标准码，这样某些字就在公安人口信息生僻字库中存在两个码，即一字两码。由于身份证发放时间有先后，在国标扩容之前发出的身份证芯片中保存的是PUA编码，而在国标扩容之后同一个生僻字在芯片中保存的标准码。因此，对于某些一字两码生僻字的联网验证，就需要知道这个字的两个编码，一个不过，验另一个，以确保通过验证。只有方正才能提供完善数据的一字两码验证方案。

所以解决人口信息生僻字问题不仅仅是一个字库而是一整套方案。