変換テーブル

2016.05.11

変換テーブルとは

特定文字列を対応する任意の文字列に置き換えるためのデータ変換表。普通、置換前文字列と置換後文字列をカンマやタブで連結したものを1レコードとし、これを複数レコードまとめたもの。変換辞書。変換対応表。

 

もっと詳しく!

プログラミング、データ処理の現場では、コードで入力されたデータを実体文字列に変換するテーブルや、文字コードを変換するテーブルなどがよく使われる。
「いまさら聞けない電子出版のABC」としては編集者を読者と想定していることもあり、データ加工担当者から「この変換テーブルをチェックして、適宜調整しといてください」と言われた場面を前提に解説を行う。

 

変換テーブルとは

原則、置換処理前文字列と置換処理後文字列を1対1でペアにしたものである。ペア数に特に制限はない。例えば、出版社コードの変換テーブルは以下のようになる。

00(タブ)岩波書店(改行)
01(タブ)旺文社(改行)
02(タブ)朝日新聞社(改行)
03(タブ)偕成社(改行)
04(タブ)角川書店(改行)
05(タブ)学習研究社(改行)
06(タブ)講談社(改行)
07(タブ)主婦の友社(改行)
08(タブ)集英社(改行)
09(タブ)小学館(改行)
10(タブ)新潮社(改行)
    :

タブの左辺、1行目でいえば「00」を、この変換テーブルを用いることで、タブの右辺「岩波書店」に置換することになる。

 

変換テーブルの利用シーン

デジタル編集、データ処理の場面では、さしあたり以下の3種類が考えられる。

ひとつは事前にコード表のような形でデータが用意されている場合。規定⇔規定。シフトJISとユニコードの変換テーブル、郵便番号と該当所在地の対応表、分類コードと分類名の対応表、などなど。この場合、変換テーブルを前提にデータベースが作り込まれていることが多いので、原則、変換テーブルは「適用」処理するだけである。

ふたつめはデータ(ベース)の用字用語統一のための変換調整用テーブルである。あるデータ(ベース)内から抽出された文字列(ワード)の“揺れ”を調整統一するのに使用するパターン。実際のデータ⇔統制ワード。多対1。
例えば、ある辞典から専門分野ラベルを抽出してみたら、以下のようなデータができたものと仮定する。

専門分野ラベル 出現数
バスケ 67
バスケット 2
バスケットボール 1
バドミントン 4
バトミントン 1
バレエ 27
バレー 1
バレーボール 3

このデータをエクセル形式等で受け取った編集者は、出現数等を参考にして、必要に応じて当該項目をリストアップしてもらって、用語統合について編集判断を行うことになる。

「バトミントン」は明らかに誤植なので「バドミントン」に修正、「バレエ」と「バレー」は一応全部チェックしてみよう、紛らわしいので球技の方は「バレーボール」に、「バスケット」の方もすべて「バスケットボール」にしてしまおう、といった判断を経て、以下のような変換テーブルが出来上がることになる。

現状の文字列 出現数 変換後の文字列
バスケ 67 バスケットボール
バスケット 2 バスケットボール
バスケットボール 1  
バドミントン 4  
バトミントン 1 バドミントン
バレエ 27  
バレー 1 バレーボール
バレーボール 3  

みっつめは検索用キーワードの追加付与などに使う場合。実際のデータ⇔追加するデータ。1対多。置き換えではなくて、追加。以下の例を見てもらった方が早いだろう。

現在のキーワード 追加するキーワード
アーチスト アーティスト
アーキテクチャー アーキテクチュア
サキソホン サキソフォン,サクソホン,サクソフォン,サキソホーン,サキソフォーン, サクソホーン,サクソフォーン
ベートーベン ベートーヴェン
芥川竜之介 芥川龍之介
慶応義塾大学 慶應義塾大学, 慶応義塾大學, 慶應義塾大学

もちろん、変換テーブルの利用場面については上記3パターンに限らない。
キーワードのヨミフリチェックなどでも、修正調整を加えたレコードだけ抜き出せば、それはそのまま(仮付与したカナヨミデータの)変換テーブルとなる。

このように、対象がデジタルテキストである場合、変換テーブルの編集面での用途は幅広く、なかなか有用である。一方で、変換テーブルにミスがあれば、その影響範囲は膨大となる。変換テーブルの作成と更新は慎重に(特に変換前文字列に重複があってはならない)。もちろん、変換テーブル処理後のチェックも重要である。

[永田 健児/株式会社ディジタルアシスト/20160509]