JIS X 0201について調査してみた(3)

昨日の調査がすべて「JIS X 0202」だったのに戸惑いを隠せないわけですが、
きょうは気を取り直してもう一度。

http://www.jisc.go.jp/app/pager?id=299893

つーか、PDFをダウンロードさせて欲しい。
JISって著作権ないとか有るとかもめてるらしいけど不便すぎるって!

符号化文字集合の構成

7ビットの場合は、

  • CL領域は、0/0~1/15の32個の制御文字
  • GL領域は、2/0のSPACEと7/15のDELETEを除く、2/1~7/14の94個の図形文字

(5.1.1 8ビット符号化文字集合の構造より引用)

OK、ここまで問題なし。

8ビットの場合は、
7ビットの領域にさらに以下の領域が追加

  • CR領域は、8/15~9/15の32個の制御文字
  • GR領域は、10/1~15/14の94個の図形文字
  • GR領域の、10/0、15/15は未定義で、将来の標準化のために保留

(5.1.2 8ビット符号化文字集合の構造より引用)

つまり、GRの文字集合もCRでSPACEとDELETEが入る部分は除外される。

符号化文字集合の呼び出し

ラテン文字だけを7ビットで使う場合は、

GL領域にはラテン図形文字集合を割り当てる。

(6.1 ラテン文字用7ビット符号より引用)

片仮名だけを7ビットで使う場合は、

GL領域には片仮名用図形文字集合を割り当てる。

(6.2 片仮名用7ビット符号より引用)

お次がお待ちかねの7ビットでラテンと片仮名を両方使う欲張りパターン

ラテン文字・片仮名用7ビット符号は、制御文字SHIFT-OUT(シフトアウト)とSHIFT-IN(シフトイン)との交互利用によって、ラテン文字用図形文字集合及び、片仮名用図形文字集合を切り替えて使用する7ビット符号化文字集合とする。

(6.3 ラテン文字・片仮名用7ビット符号より引用)

となっており、ここも問題なし。

GL領域には、SIが先行し、次のSOが現れるまでは、ラテン文字用図形文字集合が割り当てられる。
GL領域には、SOが先行し、次のSIが現れるまでは、片仮名用図形文字集合が割り当てられる。

この符号化文字集合の初期状態におけるGL領域への割当てがどちらの図形文字集合であるかは、送信者と受信者との間の合意によって定まる。ただし、一般的にはラテン文字用図形文字集合とするのが望ましい。

(6.3 ラテン文字・片仮名用7ビット符号より引用)

最後の備考のところに、初期状態に関する記述がありました。
これも、前々日の理解と合致。

お次は、8ビットの場合、

GL領域には、ラテン文字用図形文字集合を割り当てる。
GR領域には、片仮名用図形文字集合を割り当てる。
CR領域にJIS X 0211のC1集合を割り当てない場合は、CR領域は空き領域とし、他の文字を割り当ててはならない。

前々日の疑問だった、8ビット字に割り当てられる文字集合は決まってるのかという話が書いてありました。GLはラテンでGRは片仮名と決められていました。

CR領域のほうは、JIS X 0211のC1集合を割り当てるか、空にしとけってことですね。

合成文字について

すべての図形文字は、現在位置の前進動作を伴う文字(スペーシング文字)とする

と書いておりますが、

JIS X 0211のBACKSPACE(後退)又は、CARRIAGE RETURN(復帰)を使用することによって、2文字以上の図形文字を同じ位置に重ねて表示することができる。

おおいw案外合成できるんじゃねえかw
しかし、参考に書かれているように、開放型環境での情報交換を確実にするために、合成文字は使用しないほうがいいとのことです。

制御文字領域は詳しく調べてませんが、こちらは、JIS X 0211(ISO/IEC 6429)を調べる必要がありそうです。

ひとまずこれで、JIS X 0201についての調査は終わり。
間違って読んでしまった0202の方が気になってきた・・・。