JIS X 0208について調査してみた(2)
前回の続きでございます。
「JIS X 0208」の8つの符号化文字集合についてそれぞれ調査していきます。
漢字用7ビット符号
この符号化文字集合は、7ビットを2つなげた2バイトの文字で構成されており、
1バイトが混在することのない固定長となる。
- CL領域には、JIS X 0211のC0集合を割り当てる。
- GL領域には、この規格の6.5.1で規定する漢字集合を割り当てる。
「JIS X 0208」7.1.1 漢字用7ビット符号より引用
GR領域は、そもそも存在しない。(7ビットなので)
注意しておきたいのは、
1バイトコードとの混在がないので、数字の「1」を示す符号化表現は「23 31」という2バイトのものしか存在せず、「全角・半角」という使い分けはありません。
後述の符号化文字集合だと、「ISO/IEC646 国際基準版(ASCII)」と併用したりできるので、「ISO/IEC 646 国際基準版」の方を半角数字、「JIS X 0208」の漢字集合の方を全角数字として実装されることがあるらしいですが、この漢字用7ビット符号に関しては、その区別は無いということになります。
企業間での電子データの交換に用いられるフォーマットなどで用いられているらしい。
参考
電子データ交換(でんしデータこうかん、EDI、Electronic Data Interchange)
CII標準 (CIIシンタックスルール、CII標準ベースXML/EDI (CII/XML)) - 日本の標準。JIS X 7012
http://ja.wikipedia.org/wiki/%E9%9B%BB%E5%AD%90%E3%83%87%E3%83%BC%E3%82%BF%E4%BA%A4%E6%8F%9B
漢字用8ビット符号化
7ビットの場合と似ている。
- CL領域には、JIS X 0211のC0集合を割り当てる。
- GL領域には、この規格の6.5.1で規定する漢字集合を割り当てる。
- CR領域には、JIS X 0211のC1集合を割り当てるか又は何も割り当てないかのいずれかとする。
- GR領域は、用いてはならない。
「JIS X 0208」7.1.2 漢字用8ビット符号より引用
結局これって、GR領域使わないので、図形文字はすべて、MSBが必ず「0」になっている。
但し、CR領域にC1集合を割り当てた場合は、MSBに「1」がセットされることもある。
国際基準版・漢字用7・8ビット符号
「ISO/IEC646 国際基準版(ASCII)」と「JIS X 0208」の漢字集合を同時に用いる場合は、以下の規則がある。
「ISO/IEC 646」で規定されている図形文字と同じ文字は用いてはならない。
ただし、これまでの慣用的な利用との互換を目的としてだけ、附属書5表2に規定する文字を「ISO/IEC 646」で規定される文字とはことなった図形として用いてもよい。
「JIS X 0208」7.2 ISO/IEC 646の国際基準版(IRV)と同時に用いる場合の符号より引用
つまり、重複文字に関しては「ISO/IEC 646」を優先して使えという決まりがある。
ただし、互換性を維持する目的の場合のみ漢字集合側の符号を使ってもいいという事らしい。
でも原則的には、「ISO/IEC 646」で。
国際基準版・漢字用7ビット符号
こちらは、「JIS X 0201」の7ビット符号化文字集合の時と似ている。
- CL領域には、JIS X 0211のC0集合を割り当てる。
- GL領域には、次の図形文字集合を割り当てる。
「JIS X 0208」7.2.1 国際基準版・漢字用7ビット符号より引用
おうけい。いつも通り。「JIS X 0201」と異なるのは、切り替える文字集合が違うという所。
初期状態も、国際基準版をデフォルトにするのが推奨されているだけでとくに違いはない。
国際基準版・漢字用8ビット符号
8ビットの場合は、切り替えが必要なくそのまま2つの文字集合を呼び出せるので、7ビットの時より単純になる。
- CL領域には、JIS X 0211のC0集合を割り当てる。
- GL領域には、国際基準版図形文字集合を割り当てる。
- CR領域には、JIS X 0211のC1集合を割り当てるか又は何も割り当てないかのいずれかとする。
- GR領域には、漢字集合を割り当てる。
「JIS X 0208」7.2.2 国際基準版・漢字用8ビット符号より引用
めちゃ単純です。