キーワード設定の現場から(3)

4つの文字を使い分ける民族

 日本人は四つの文字を使い分ける民族である。一般には漢字かな混じり文と称して、二つの文字混じりのように表現されるが、実際の現代文は漢字、ひらがな、カタカナ、アルファベットの4種が入り混じっている。こんな言語体系は世界的にも珍しいのではないだろうか?
 この中で純粋に日本由来のものは実はない。ひらがな、カタカナは日本独自の文字だが、古くは漢字に由来をすることは常識だ。古来より日本人の言葉の胃袋は外来のものを自分たちの道具に消化してしまうタフさを持っている。
 漢字にしても国字といわれる日本人の発明になる漢字が存在する。アルファベットも適当に日本語化して使う。「KK」というのは株式会社のことだし、「NHK」は日本放送協会のこと。こうなるともはや欧米の言葉とは言えない。
 この「漢字、ひらがな、カタカナ、アルファベット混じり文」の文字種の切れ目は、いわば欧米系の言語で単語の切れ目に入る空白のような役目をしている。だからひらがなを飛ばして漢字とカタカナと英字だけを拾い読みすると文章の大意は読み取れる。
 同時に漢字は名詞や動詞、形容詞の語幹部分を、カタカナは外来語や擬態語、擬音語を、アルファベットは欧米の言葉の略語をと大雑把ながら使い分ける。これを逆用して一つの語を漢字で書くか、それともひらがなやカタカナで書くか、最近ではアルファベットや数字まで動員して文章のニュアンスを変えることが可能だ。
 マンガを注意深く読んでいただけると、その辺りの使い分けが効果的に行われているのに気づく。実によく出来たシステムである。
 さて話を検索の話にもどそう。日本語の検索キーワード設定にはこの4つの文字にまつわる注意がいろいろ必要だ。
 主に問題になるのは読みの存在だ。漢字が表意文字ということで読みというものが存在する。難読という話しは置いておくとして、世の中にはこんな言葉もある。
 「ドラえもん」「サカタのタネ」「トイザらス」
 すべて有名な固有名詞であるが、正確に書ける人がどの程度いるだろうか。
 検索インデックスをカタカナかひらがなに統一し、検索システムも同じように検索語をどちらかに統一して引けば良いのだが、そういった対応をとっていないシステムもある。
 そうなると「どらエモン」「どらえもん」「ドラエモン」と三つの検索インデックスをわざわざ作るはめになる。しんどい話だ。
 同時にすべて仮名で書いてあるからといってこれは漢字と同じ表記形のキーワードである。正確にひらがなとカタカナを入力した場合にも対応しなければならない。
 次に英字の略語に読みを振るという難事がある。英字の略語には読みは振らない、略語のまま検索しなさいという態度でも良いのだが、漢字に読みがあるために引きずられて英字の略語にも読みが存在してしまう。「ASEAN外相会議」などという言葉が出てくれば「ASEAN」にも読みを振らざるを得まい。
 でもUSAにユーエスエイと読みを振るのは勘弁願いたい。独自の読み方がある場合のみに願いたいのだが「全国PTA連絡協議会」という団体があればここだけ読みを振らないわけにもいくまい。
 ところで昨今は「KYON2」で「キョンキョン」と読む時代だ。日本人の言葉の胃袋は際限がなくタフである。

『情報管理』Vol.40 No.5 Aug.1997 より転載


キーワード設定の現場から  目次 ←前回 次回→

BACKNewsletterのTopに戻る
HomeJEPAのホームページに戻る