襟とトマトです
文章からキーワードを抽出するシステムがある。キーワードの設定はたいへんな労力がかかるのでこのシステムに頼ることも多い。便利なシステムだが、機械に頼って十分なチェックを怠るとこんな笑い話が生まれる。
ある時、抽出結果をチェックしていたら「小平」という言葉でたくさんの項目がヒットした。東京の小平市で大事件でも起こったのかと開けて見ると、小平は小平でもすべて「トウ小平」。ご丁寧なことに読みも「コダイラ」と付けてくれていた。もちろん「トウ小平」と小平市は何のかかわりもないと思う。
「トマト」で検索した。「遺伝子組み換えトマト」などの項目に混じって何かおかしな項目がヒットしている。病気の項目らしい。トマトに寄生する新手の病原菌かと見てみると「エリトマトーデス」とは膠原病の一種。なるほど名前の中に「トマト」が隠れている。この項目何と「エリ」というキーワードも抽出されていた。「襟とトマトです」では笑い話にもならない。
似たような話が全文検索をすると起こってくる。某社で社内利用のためにある百科事典を全文検索できるようにした。最近の全文検索はたいへんスピードも速く、便利なシステムになっている。
ある日ふと「義経」について調べたくなりキーワードとして「義経」を入れた。せいぜい10数項目程度ヒットするかなと思っていたら見切れないほど多くの項目がヒットした。義経についてこんなに詳しい事典だったかと感心して調べてみると項目はロシアやソ連の関連が多い。
どうしてこんな項目がヒットしたのか……。答えは「社会主義経済」の中には「義経」が潜んでいるという仕掛だ。
「東京都」の中には「京都」が潜み、日本と朝鮮の関係を調べようと「日朝」と入れれば「×月×日朝…」の話が沢山引ける、どんなに上手に手術をしても「目視下手術」は「下手」で引けてしまう。
日本語の自然言語処理はどんどん進展しているだろうし、全文検索もおかしな結果を出さないように改良されつつあると聞く。でも、日本語は本当に面白い。面白い代わりにキーワード設定者の苦労はこれからも絶えないだろう。
『情報管理』Vol.40 No.3 June 1997 より転載