ディジタルアシスト 永田 健児
辞書・事典のデジタルデータを専門に処理・編集するための会社を立ち上げたのが2001年ですので、もう丸8年になります。最初からずいぶんとニッチなところを狙って起業してしまったものですが、おかげさまで8年間、ひっきりなしのお仕事に恵まれ、忙しい毎日を過ごしてきました。今になって振り返ってみますと、
・三省堂さんの「三省堂Web Dictionary」サービス開始が2001年1月、
・ネットアドバンスさんの「ジャパンナレッジ」サービス開始が同年4月、
・電子辞書市場が“スタンダードタイプ”から“本格収録タイプ”へ急速にシフトしたも2000~2001年、
…と、辞書・事典のデジタルコンテンツのニーズが、ちょうど新しい局面を迎えようとしていた時期に重なったようです。そこまでちゃんと見通していたわけではありませんでしたが、まじめに生きてきて良かったな、と。
複数の出版社、様々な言語、それぞれに工夫を凝らした辞書・事典を扱うことになるのですが、辞書それぞれにデータ形式を設計していたのでは作る方もデータを受け取る方も大変です。そこで辞書・事典に特化し、共通に使用できるXMLを作ることにしました。
名称は「LEXicographical eXtensible Markup Language」を略して“LeXML”です。
LeXMLの基本的な設計理念は以下のようなものです。
(1)シンプルな構造、シンプルなタグ名称:
外国の有名出版社の辞書XMLを目にする機会も多いのですが、構造は複雑(何に使うんだろ?)・タグ名称は長文(エディタで開くと表示面積の半分はタグ)で、専用編集ツールでもないことにはとても扱えない代物がたくさんあります。シンプルな設計で、編集・処理の敷居を低くすることを心がけました。
(2)辞書の個性の尊重:
“先に器ありき”でその中に各記述要素を半ば無理矢理に詰め込んでいくという方式は取りたくありませんでしたので、(1)で構造自体をシンプルにした分、各タグの属性名称の自由度を高くするなどして、辞書それぞれの個性を受容できる仕組みを心がけました。
(3)作り込みの自由度:
XML化したコンテンツが実際どのようなサービスに供されるのか、どのデバイスに搭載されるのか、によって“作り込み度”を選択できるように、各タグの共通化や一般化(HTMLタグの代用等)、省略、新タグ追加、などフレキシブルに対応できるようにしました。
おかげさまでLeXMLを採用いただいた辞書・事典コンテンツは今年4月時点で290点に達し、その中で117点がウェブや携帯での検索サービスに供され、115点が電子辞書に搭載されたりパッケージ商品として販売されたりしています。21世紀に入ってからの辞書・事典分野におけるデジタルコンテンツの、より一層のニーズの高まりについては上述した通りですが、そこに微力ながら貢献できたものと自負しています。
昨年、JEITA(社団法人電子情報技術産業協会)からJEPAの次世代辞書研究委員会経由でお話があり、LeXMLをベースに国際標準の辞書交換フォーマットを策定するというプロジェクトが進んでいます。これとは別に、いわゆる“外字”というやつの共通記述方式についてもまとめているところです。まだまだやるべきことがたくさんありそうです。