JIS X 0213 とは
日本語の文字セットを規定するJIS規格の一つ。1978年に策定され1997年まで改訂が続けられたJIS X 0208を拡張する形で、2000年に最初の仕様が公開された。
X 0208が第一水準、第二水準の6879字の文字集合に対して、新たに第三水準、第四水準の4354字が追加され11,233字の図形文字が規定されている。これらは、インターネットと共に普及したUnicode(ユニコード)文字セットにも収容されており、現在、日本での標準文字セットとなっている。
OSやアプリケーションの内部実装で一般的に用いられるUTF-16において16ビット+16ビットの組み合わせでなくては符号化できないコードポイントも使用されている。(関連項目:文字情報基盤)
もっと詳しく
文字に関する用語は多く、以下に簡略に説明する。
・フォント:コンピュータで扱う文字のこと
・文字コード:JIS標準、ISO標準、Unicode標準など、文字を符号化する方式
・文字セット:JIS X 0208、ISO10646など、文字集合及び関連規則を定めたもの
・書体(Typeface):明朝体、ゴシック体など、文字の形をデザインしたもの
・スタイル:太字、斜体、下線付きなど文字の修飾。書体として別に存在する場合もある
・グリフ(Glyph):個々の字の形。字の形を表す考え方として字形、字体などもある。
・包摂:文字の複数の字体が相互に区別されずにひとつの符号位置に対応すること
デジタル庁では「文字環境導入実践ガイドブック」で以下を推奨している。
・取り扱う日本語文字集合の範囲:JIS X 0213
・文字コード:ISO/IEC 10646
・文字の符号化形式:UTF-8
※筆者注記:UTF-8はHTML、XML、その他通信における符号化方式であり、UTF-16も一般的である。
各社OS、ブラウザでの対応
2022年現在、マイクロソフトWindows、アップルMacOS、iOS、グーグルAndroidなど、パソコンやスマートフォンのオペレーティング・システム(OS)や、Chrome、Safari、EdgeなどのブラウザはすべてUnicodeベースで動いており、Unicodeの文字セットがすべて表示可能となっている。そのため、X 0213の文字セットも全て表示できる。
Windows IMEでの入力で「環境依存文字」と表示されるのは、X 0208以外またはシフトJIS以外を示している。
X 0208とX 0212補助漢字
X 0208はX 0213に含まれており、コンピュータ技術の発展とともにX 0213が標準となった。X 0212はX 0208を補完する目的で1990年に制定されたがその後の改訂が行われず、X 0213が標準となった。しかし、X0208 やX 0212を使ったシステムは現在でも一部で稼働している。
サロゲートペアとシフトJIS問題
X 0213策定時、Unicodeの基本多言語面(BMP、16ビット、65000文字)が満杯となっており、一部が4バイト(32ビット)で表現されている。この仕組みをサロゲートペアという。
1980年代、パーソナルコンピュータの登場とともに、シフトJISという文字コードが登場したが、これは2バイト文字までしか対応できず、X 0213の一部が表示できない。シフトJISでのシステムは残っているが、文字コードはインターネットでの標準であるUTF-8やUTF-16を使用するのが一般的である。
シフトJISの時代には8ビット、16ビットの混在による実装コスト押上が問題だったが、JIS X 0213によりUTF-16においてもマルチワード(16ビット、32ビット) 対応を避けられなくなった。Unicodeのアドレス空間は24ビットなので、JIS X 0213登場前からの懸案ではあったが。
また「半角カタカナ」は8ビット時代の遺物でインターネットとの相性も悪く、使用しないことが望ましい。
・JIS X の歴史
(出典:日本マイクロソフト 田丸健三郎氏 JEPAセミナー資料より)