日语编码-中文版（转载）

2008-06-13 15:55阅读：

http://blog.sina.cn/dpool/blog/u/1261411344

起初计算机的发明是按照为使用英语的欧美人设计的。当然初期的计算机不能处理日语等其他语言。欧美使用的英语和法语等都是用很少的文字（字母）来组合单词。因此为计算机所设计的文字规格也只支持很少的种类。
像日语和汉语这样的表意文字种类很多。用1byte(0~255)无论如何也不能表示所有的汉字。在使用像日语和汉语这样的语言圈内，为了表示一个汉字要使用2byte（因此，日本、中国等远东地域被称为2byte圈）。如果一个文字使用2byte，可以处理0~65，535的数值，所以可以表示所有的汉字。
欧美的软件中有很多叫做'International Language' 的，但是是不支持日语的。他们所说的国际语言是指 US ASCII 以外的Cyrillic字母、Graecia字母等，而不是指像日语这样的多字节的文字。
在日本使用计算机表示日语时基本上有三种编码方式 JIS, Shift-JIS, EUC 。这三种编码体系的混杂，对于计算机来说对于日语处理的难度就体现出历史的原因了。
2byte表示的文字叫做全角文字，1byte表示的文字叫做半角文字。全角文字不等于日语。也有像『ＡＢＣ』这样的英语用全角表示。处理2byte文字的时候，表示一个文字的最初的byte叫做leaderbyte（上位byte)，第二个byte叫做trailerbyte（下位byte）。
不是说表示日语一定要用2个byte。JIS和Shift-JIS编码中有叫做半角假名文字的。就是用1个byte表示片假名。只是在EUC还没有使用半角假名文字，所以在变换时有时会发生麻烦。
JIS 汉字编码是通过 JIS来决定形式，是三种编码中最早出现的。这种编码的特征是
1-无论日语的第1byte还是第2byte，都可以对应在0x21～0x7E范围内。
2-通过shiftin.shiftout技术在全角和半角文字间切换。
请仔细考虑。JIS编码范围 0x21～0x7E是同 ASCII文字的范围一致的。也就是说，JIS编码的字符串中完全没有 0x80 以上的byte。这是JIS编码的最大的优点。下图表示了JIS编码的leaderbyte和trailerbyte各自的范围。
leaderbyte 0x21-0x7E
trailerbyte 0x21

新浪博客

日语编码-中文版（转载）

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼