gb18030的汉字

如下表所示,GB18030-2000收录了27533个汉字: 类别 码位范围 码位数 字符数 字符类型 双字节部分 第一字节0xB0-0xF7 6768 6763 汉字 第二字节0xA1-0xFE 第一字节0x81-0xA0 6080 6080 汉字 第二字节0x40-0xFE 第一字节0xAA-0xFE 8160 8160 汉字 第二字节0x40-0xA0 四字节部分 第一字节0x81-0x82 25200 6530 CJK统一汉字扩充A 第二字节0x30-0x39 第三字节0x81-0xFE第四字节0x30-0x39 27533就是6763+6080+8160+6530。双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。

在Unicode中,CJK统一汉字扩充A有6582个汉字,为什么这里只有6530个汉字?

这是因为在GBK时代,双字节部分已经收录过CJK统一汉字扩充A的52个汉字,所以还余6530个汉字。 如下表所示,GB18030-2005收录了70244个汉字: 类别 码位范围 码位数 字符数 字符类型 双字节部分 第一字节0xB0-0xF7 6768 6763 汉字 第二字节0xA1-0xFE 第一字节0x81-0xA0 6080 6080 汉字 第二字节0x40-0xFE 第一字节0xAA-0xFE 8160 8160 汉字 第二字节0x40-0xA0 四字节部分 第一字节0x81-0x82 25200 6530 CJK统一汉字扩充A 第二字节0x30-0x39 第三字节0x81-0xFE 第四字节0x30-0x39 第一字节0x95-0x9850400 42711 CJK统一汉字扩充B 第二字节0x30-0x39第三字节0x81-0xFE第四字节0x30-0x39 70244就是6763+6080+8160+6530+42711。