编码表 – 梁笔记

BIG5到GB的编码转换技术

中文因为数量太多，所以与英文用ASCII码一个字节表示不同，它使用两个字节来表示。通过计算这两个字节，我们可以得到其表示的汉字在中文字库中的位置。读取该位置的若干字节，以获得表示这个汉字的点阵信息。有了这些信息，就可以分别在DOS或WINDOWS中显示该汉字。事实上，在文本文件中保存的就是每个汉字对应的两个字节编码，而显示问题由中文操作系统自动解决。?汉字编码并不统一，我们使用的是GB码，而台湾地区使用的是BIG5码。BIG5码文件中保存的是汉字相应的BIG5编码，GB码文件中保存的是汉字相应的GB编码（这也就是“乱码现象”的来由）。所以转换工作的关键是有一个记录每个BIG5编码对应GB编码的码表文件。

GBK编码

GBK编码范围：8140－FEFE，汉字编码范围见第二节：码位分配及顺序。GBK编码，是对GB2312编码的扩展，因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案，其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位。共收录汉字和图形符号21886个，其中汉字（包括部首和构件）21003个，图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布，这一版的GBK规范为1.0版。

BIG5编码表

BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053个中文字，1984年实施。BIG5编码范围：8140－FEFE，其中汉字编码范围：A440-F9DC。BIG5编码又称大五码，是繁体中文字符集编码标准，共收录13060个中文字，其中有二字为重复编码。BIG5采用双字节编码，使用两个字节来表示一个字符。高位字节使用了0x81-0xFE，低位字节使用了0x40-0x7E，及0xA1-0xFE。在BIG5的分区中：8140-A0FE 保留给使用者自定义字符（造字区）A140-A3BF 标点符号、希腊字母及特殊符号。其中在A259-A261，收录了度量衡单位用字：兙兛兞兝兡兣嗧瓩糎。A3C0-A3FE 保留。此区没有开放作造字区用。A440-C67E 常用汉字，先按笔划再按部首排序。C6A1-F9DC 其它汉字。F9DD-F9FE 制表符。值得留意的是，BIG5重复地收录了两个相同的字：“兀、兀”（A461及C94A)、“嗀、嗀”(DCD1及DDFC)。

GB2312码

　　GB2312 是汉字字符集和编码的代号，中文全称为“信息交换用汉字编码字符集”，由中华人民共和国国家标准总局发布，一九八一年五月一日实施。GB 是“国标” 二字的汉语拼音缩写。

ASCII 码表

下面的 ASCII 码表包含数值在0-127之间的字符的十进制、八进制以及十六进制表示.