テキスト入力とは
主に、テキストエディタやワープロソフト上で、キーボードを使用して、テキストデータを入力すること。一般にテキストファイル(.txt)として保存するまでを意味する。初期入力。キーボード入力/パンチ入力。ベタ打ち。テキスト量が多い場合には、OCR(Optical Character Recognition)も用いられる。
もっと詳しく!
広義にはメール文章を書くことも検索キーワードを打ち込むこともテキスト入力となるが、ここでは、書籍・電子書籍の内容となる、一定量以上のテキスト情報をデジタルデータとして作成することを指す。具体的には、書籍組版情報をデジタルで入手できない場合(活版など)、DTPやCTSデータからテキストデータを抽出するよりも入力した方が効率良い場合、原稿が手書きの場合などに、ここでいうテキスト入力が必要になる。
キーボード入力/パンチ入力
基本的にはキーボードを使用して、テキストエディタまたはワープロソフト上でテキストを入力する。印刷会社にテキスト入力段階から依頼する場合を除外すれば、編集者が入力するか、専門の入力業者に依頼することになるが、その際には以下について留意しておいた方が良い。
イ.文章は原則、プレーンテキストとして入力する。ワープロソフトのアウトライン機能や変更履歴機能などは駆使しない方がよい。見出し、子見出し、本文などの構造は、簡便な記号類またはHTMLのタグで指定すれば十分。入力データの見た目を気にする必要はなく、1行ごとに所定の文字数で改行するなどの手当ても不要。
ロ.太字、イタリック、傍点、下線などの文字装飾や文字サイズの指定も、ワープロソフトの機能は使用しない。入力段階で付与しておいた方が効率的な場合には、これも簡便な記号類またはHTMLのタグで指定しておく。
ハ.その後の利用場面でユニコードが使用できるのか、シフトJISの範囲に限られるのかを見通した上で、保存する文字コードを定める。外字となる文字の記述形式についてもあらかじめ決めておく必要がある。
OCR入力
活字で印刷されたものがある場合にはOCRも利用できる。しかし、欧文OCRと比較すると、日本語の読み取り精度は格段に下がってしまう。画数の多い漢字など処理時にうまく認識できない場合はその場で気づいて調整できるが、「へ」「ぺ」「べ」のひらがなとカタカナ、カタカナの「ロ」「ヒ」「カ」と漢字の「口」「匕」「力」など、OCR誤読に起因すると思われる文字の誤りは現在でも出くわす機会が多い。OCRソフトにおける認識精度や学習調整機能の向上だけに頼らず、OCRの特性を理解した上での校正・チェックを行うよう心掛けたい。
OCRによって読み取られたテキストデータは、原則プレーンテキストの状態で保存されることになるので、文章の構造(見出しなど)や文字装飾・文字サイズなどの情報は失われる。校正・チェックの際に、上記「キーボード入力/パンチ入力」でも触れたような、必要最低限の調整(記号類やHTMLタグの埋め込み)を施しておくと良い。
まとめ
「キーボード入力」にせよ「OCR入力」にせよ、結局は原本とつき合わせて校正をかける工程を挟まないと信用あるテキストデータは仕上がらない。これは別項で触れた(DTPデータなどからの)「テキスト取り出し」にも共通することである。このことを肝に銘じつつ、より効率良くテキストデータを取得して、二次加工・デジタル商品化を進めていくことが、これからの編集者には求められる。
[永田 健児/株式会社ディジタルアシスト/20150810]