キーワード設定の現場から(14)

‐-−ーー―一━__~ ̄ !?

 世の中には他人の空似ということがある。知人のそっくりさんに声をかけ、キョトンとされた経験を持つ方もおられると思う。今回は日本語の記号や文字の中のそっくりさんの話し。
 今回の題名、判じ物じみているがJIS文字コードの中にある横棒類似文字の一覧である。

 ‐ 全角四分ハイフン
 -  半角ハイフン兼マイナス符号
 − 全角マイナス符号
 ー  半角長音符号
 ー 全角長音符号
 ― 全角ダッシュ
 一 漢数字の1
 ━ JIS罫線素
 _  半角アンダーライン
 _ 全角アンダーライン
 ~  半角オーバーライン
  ̄ 全角オーバーライン

 みんな似ている、特にディスプレイ上で見るとそっくりに見える。でもコンピュータにとっては似ても似つかない文字なのである。
 長音符号の代わりにマイナス符号が入ったり、逆にマイナス符号の代わりに長音符号が入った文章を良く見かける。人間が読むぶんには意味は通じるがコンピュータで検索させようとするとまず検索不能のケースになる。キーワード設定者の神経をすり減らす悪い奴らだ。
 さて「CD-ROM」や「MS-DOS」といった具合に英略語にはハイフンが入るケースが多い。このハイフン、半角英字のときは半角のハイフン兼用マイナス符号を使うのが通常だろうが、全角で「CD‐ROM」とした場合は、四分ハイフン「‐」、全角マイナス「−」、半角マイナス「-」のどれを入れるのが正しいのだろうか。
 せっかくJISにハイフンという記号があるのだからそれを使いたいところだが、実際は見た目の好みで使い分けられているようだ。これも検索には困った事態である。
 上の例は必ずハイフンが入るからまだよい。戦闘機「F-15」など飛行機の名称や機械の型番などは「F15」のように時と場合でハイフンが付いたり付かなかったり一定ではない。
 こんなケースをうまく検索するために内部的に記号類を削除して比較をする検索システムもある。これは良いアイデアだ!とキーワードから記号類をすべて削ってもらったことがある。そうしたら長音記号「ー」や「%」まできれいに削除されていた。やれやれやり直しである。
 他人の空似の話に戻って、似た文字の筆頭はカタカナの「ヘ」とひらがなの「へ」だろう。これを区別できる人はまずいない。紙に印刷しても区別できない。試しにカタカナとひらがなの「へ」を48ポイント程度に拡大し比べてみて欲しい。全く同じデザインというフォントが多い。(印刷活字では少し異なっているのが普通だ)
 ひと続きの文字として「へ」を入力変換した場合はまず間違いがないが、後で「へ」の一文字を挿入したりすると間違いが起こる。
 どんなに注意深く眺めても「へ」と「ヘ」の区別はつかないから間違いは努力ではなくならない。検索キーワードを内部的にカタカナかひらがなに統一して扱う工夫でこれらの問題は一発で解決できる。これは楽ちんである。
 最後にあまり知られていない似た者同士「○〇◯」を紹介しよう。最初の○は普通(?)の丸。次の〇は漢数字のゼロ、最後の◯は数字との合成を想定した合成用丸だ。検索の場面ではまず出てこない記号だが、これも困ったもののひとつである。
 文字は字形だけではなく意味を持っている。出来ればその意味を踏まえて似た者同士を使い分けることが理想だ。でも実際の場面はいろいろだ、いろいろの数だけ苦労と工夫が生じてくる。

『情報管理』Vol.41 No.4 July 1998 より転載


キーワード設定の現場から  目次 ←前回 次回→

BACKNewsletterのTopに戻る
Homeトップページに戻る