検索用キーワード

2015.09.29

検索用キーワードとは

辞書や事典、各種データベース、ウェブページ等を対象にして情報検索を行う際に、検索システムに入力・指定する文字列。その項目の名称(=見出し語)、その内容を代表・特徴づける用語、その内容が属する分野分類名等。検索語。単にキーワードともいう。

 

もっと詳しく!

データベースにおけるキーワード

データベースはそもそも情報検索を前提にして作成されているため、各種構成要素は事前に区分整理されており、それぞれのデータがほぼそのままで検索キーワードとして利用できることが多い。また、検索用・配列用に一部要素にフリガナもしくは分類コードが付加されていることも多く、検索上の利便性は高い。

書誌データベースにおいては、書名、著者名、叢書名、出版者名、刊行年月日、ISBN等が検索用キーワードとなる。他にNDC(日本十進分類法)区分や館内分類等も用いられる。目録作成規則が統一的に整備されているのも特長のひとつである。

人名データベースにおいては、姓、名、生年月日(+没年月日)、所属・肩書き、出身地、居住地等が基本的な情報となる。単純な住所録・名簿から顧客・会員データベースまで、それぞれの目的用途によって、さらに細かで専門的な情報が追加され、検索・絞り込みにも利用される。

その他、商品データベースにおける商品名、型番、ブランド名、分類、発売年、価格、JANコード等、データベースの種別も検索キーワードの範囲形式も様々である。漢字辞典で漢字を部首や画数、音訓読み等を掛け合わせて探すのも、データベース検索の範疇と言っていいだろう。

 

辞典類におけるキーワード

語学辞書における検索キーワードは基本的に「見出し語」である。印刷物における「見出し語」は、紙面スペースを効率的に扱う目的から、様々な情報を集約または省略して表記する方法が独自に発展してきた。読者にとっては自然に読み取れる(読み飛ばすことができる)記述であっても(凡例を読まないとわからないものも多い)、これをプログラムに自動判定させることは困難である。そのため、辞書のデジタルデータにおいては、画面表示用の「見出し語」とは別に検索用の「見出し語キーワード」を独立かつ正規化して保持する必要が生じる。

検索用キーワード作成上の留意点

1.重要度を示す記号、強弱アクセント、(重複見出しの)肩番号、分綴記号、漢字表記にかかわる情報等、検索に不要な情報を削除する。

**leave1      肩番号等をトル         →「leave」
díc・tion・àr・y    アクセント・分綴記号をトル   →「dictionary」
äußer        欧文特殊文字の正規化       →「ausser」
×伊▽勢海=老    漢字表記に関する情報をトル   →「伊勢海老」

2.異綴見出しや派生語、複合語等において、主見出しとの重複が省略して記述されている場合、その部分を補う必要がある。

A・mer・i・can・ize, (英)-ise    →「Americanize」「Americanise」
dig・it・al/~・ly          →「digital」「digitally」

3.カッコ類による省略可能・置換可能文字(列)の指定があった場合には、検索キーワードを展開複出させる。

en・cy・clo・p(a)e・di・a   →「encyclopaedia」「encyclopedia」
cómpact dìsc [dìsk]     →「compact disc」「comapact disk」

 

事典類におけるキーワード

見出し語五十音配列の書籍で各種分野別索引が付されていたり、逆に分類体系順の書籍で五十音索引が付されていたりするように、百科事典や専門分野事典においては「見出し語」以外での検索ニーズが高い。「見出し語」以外のキーワードは「分類キーワード」と「索引キーワード」に大別できる。

分類キーワード

その項目が特定の切り口において、どのカテゴリーに属するかを示すキーワード。人名事典における「時代」「出身地」「肩書き」、昆虫事典における「生息域」や「分類名」等がこれにあたる。フリーキーワードの場合検索結果が不十分なものになる可能性が高いので、それぞれの分類においてキーワード指定形式の約束事が利用者に理解されている、または分類体系を階層メニューで提示する、といった前提が必要になる。また、カテゴリー検索を用意した場合、コンテンツ内の該当する項目には網羅的に当該分類キーワードが割り振られていると利用者は期待してしまうため、中途半端には設定できない。

索引キーワード

解説本文中にあって、その項目を特長づけるキーワード(まさに!)を選定整備したもの。全文検索でも代用できるが、検索精度を高めたい場合など、数を絞り込んで設定しておくと有効である。

 

日本語特有の問題

検索キーワードが日本語の場合、話はやや複雑になる。特に国語辞典において、「見出し語」の記述バリエーションは(潜在的なものも含め)複数存在するため、可能な限り多くの検索キーワードを用意する必要がある。このニーズは、手書き入力・クリップボード検索の利用増加に伴って高まってきている。

“かな”キーワード

まず、“かな”には「ひらがな」と「カタカナ」がある。あたりまえのことであるが、コンピュータから見れば別物なので、何かしらの対応が必要だ。プログラム側で区別なく検索できるよう対応してもらうのが理想的である。

あお【青】〔あを〕
ナイル[Nile]
あお‐ナイル【青ナイル】〔あを‐〕

次に、“かな”には「現代仮名遣い」と「古典(歴史)仮名遣い」がある。古語辞典でない限り、後者を検索で利用することは一般的でないが、意識しておく必要はあるだろう。

ああむじょう【噫無情】[ああムジヤウ
ひびや‐こうえん【日比谷公園】[‐コウヱン

それから、清音濁音、拗音促音等の語形の“揺れ”があることも要注意だ。これもプログラム側で“あいまい”対応してくれるのが理想的だが、これはユーザにとって想定外の検索結果をもたらす可能性もある。コンテンツによってはキーワードを確定的に用意し、検索を厳密にする必要もあるだろう。

【青竹】あおけ/あお
【研究所】けんきゅうょ/けんきゅう
【緑化】りょか/りょ

外来語等のカナ表記の場合、「ー」(長音)のあるなしを含め、その“揺れ”幅はさらに大きくなる。

[artist]アースト/アーティスト
[swimwear]スイムウア/スイムウ
[architecture]アーキテクチャー/アーキテクチュア
[Beethoven]ベートーベン/ベートーヴェン
[saxophone]サン/サフォン/サン/サフォン/サキソホーン/…

“表記”キーワード

音が一緒で似通った意味の言葉を辞書上でまとめた場合や当て字等で、複数の見出し語表記形が併記されていることが多い。

う・ける【受ける/請ける/▽享ける/▽承ける
ほととぎす【=/=/=/==/=

また、送り仮名の付け方に許容が認められているため、送りのパターンの分だけ表記形が増える。

うかび‐あが・る【浮(か)び上(が)る】 →浮び上る/浮かび上る/浮び上がる/浮かび上がる
うめたて‐ち【埋(め)立(て)地】     →埋立地/埋め立地/埋立て地/埋め立て地

漢字については、新字体、旧字体、拡張新字体等が存在し、特に固有名詞において、一律に新字体に置き換えられないものがある。

あくたがわ‐りゅうのすけ【芥川之介】   → 「芥川之介」も必要
けいおうぎじゅく‐だいがく【慶義塾大】 →「慶應義塾大学」「慶應義塾大學」も

辞書上では漢字が充てられているものの、交ぜ書きが一般的なものがある。

せっ‐けん【石×鹸】     → 石鹸/石けん
あせ‐みずく【汗×水漬く】  → 汗水漬く/汗みずく

正式な国語辞書では普通、固有名詞以外では見出し語に踊り字「々」(同の字点/漢字返し)は使用しない。

せいせい‐どうどう【正正堂堂
つつ‐うらうら【津津浦浦

かな漢字変換やコピペ検索だと「正々堂々」「津々浦々」が検索キーワードとなり、あらかじめこれらのキーワードを用意しておかないと検索ヒットしないので要注意。

一方で現在ではあまり一般的に用いられることのない踊り字「ゝ」については、別の対処が必要である。

がくもんのすすめ【学問のすゝめ】 →「学問のすゝめ」「学問のすすめ」

まとめ

辞書(ことば典)であれ、事典(こと典)であれ、編纂者はその内容の配列に十二分の注意を払い、さらに必要とあらば索引を付す作業に労を惜しまなかった。そしてデジタル出版の黎明期にも、関係者は様々な検索方法を編み出し、それぞれに必要なキーワードを整備してきた。すべては、より正確に、より便利に、利用者にコンテンツを使いこなしてもらうための配慮である。全文検索の処理速度が上がり、検索結果の表示順精度も向上しているが、精度の高い情報提示のためには検索キーワードを正しく的確に整備しておくことが今なお重要である。

 

[永田 健児/株式会社ディジタルアシスト/20150925]