日本の電子出版をさらに成長させるために =固定レイアウト電子書籍の推進=

2020.02.25

2020年2月 一般社団法人 日本電子出版協会
 
日本電子出版協会の活動について
日本電子出版協会(JEPA)は1986年の設立以来35年間、日本の出版物のデジタル化を推進しています。CD-ROM、ユニコード、文字フォント、マルチメディア、読書端末、インターネット、日本語組版などの標準化や普及促進活動を行ってきました。 2010年に総務省「EPUB日本語拡張仕様策定」に参加し、W3Cに縦書き、ルビなどの日本語組版を提案。2011年には主要なブラウザに実装され、リフロー型EPUBの普及に貢献しました。
 
日本の出版事情
現在、多くの出版物がデジタル化され、JEPA設立時のテーマの一つである「絶版がない世界」が実現しつつあります。しかし日本と欧米で、以下のような差異があります。

1. 日本のマンガは世界をけん引し画像での電子化が進んでいるが、文字物の電子化が進んでいない。
2. アルファベット26(52)文字ではなく、7000~15000の文字種がありOCRの認識率が劣る。
3. 欧米は1980年代にDTPへ移行したが、日本は2000年代からで、20年以上の開きがある。
4. 米Big5など大手出版社で寡占化しておらず、多くの中小規模の出版社が存在している。

過去の出版物の電子化
現在主流のリフロー型EPUB形式では、過去に発行された書籍を電子書籍化することが困難な場合がほとんどです。その多くはテキストデータがクリーンに保存されていないため、電子化するコストが需要に見合いません。そのため1960~2000年代、日本の出版界の隆盛期に作られた書籍がテキスト化できないまま、取り残されています。
また、欧米に比べ複雑なレイアウトの書籍や頁参照の書籍も多いことも電子化の障害となっています。
これを解決するためには、リフロー型だけではなく固定レイアウトでの電子出版の普及を促進する必要あると考え、JEPAはその普及に貢献したいと考えています。
先ずは、紙でしか存在しない書籍をスキャン画像でデジタル化し、固定レイアウトの電子書籍として、電子書店での配信を促進します。画像ではアクセシビリティが担保できないので、テキスト抽出について、AIデータ活用コンソーシアム(aidata.or.jp)と協働でAIを使った活字OCRの調査研究を行います。
 
JEPAからの提案
現在ある多様な電子出版物をより広く利用できることが大切で、情報を探索する者にとって、媒体や形式は二の次であるはずです。そして、電子出版物に対する検索到達性や利用可能性をより高めるための努力も必要だと感じます。だれもが必要とする情報にたどり着き、だれもが利用できる電子出版を目指し、JEPAが従来より推進してきた「リフロー型EPUB」に加え、以下の4項目を推進します。
A. 画像PDFまたは固定レイアウトEPUBでの電子出版物の普及促進
B. 上記と並行し、AIを使った日本語OCRの精度向上
C. テキストPDFでの電子出版物の普及促進
D. 上記と並行し、テキストPDFでの読上げなどアクセシビリティの向上