コーパス

2016.12.12

コーパスとは

 言語学において統計的な分析や研究を行う目的で集められ構築された、言語テキストの集合体を指す。ラテン語で「身体」を意味する ‘corpus’ が由来。近年では電子化されデータ利用できるものがほとんどで、「電子コーパス」と同義でとらえられる。実際の書き言葉や話し言葉を言語資料として大量に集積し、それを検索して得られた結果を証拠とした言語記述を可能にしたことから、経験主義的な言語研究の発達に大きく貢献している。

 

もっと詳しく!

歴史

 コーパスの編纂、利用が著しく進んだ要因は、近年のコンピュータ技術の急速な革新によって、大規模なデータの保存と検索が可能になったことにあるが、それ以前にもコーパスは作成されている。1959年にランドルフ・カーク(Randolph Quirk)が編纂を始めたThe Survey of English Usage Corpus(SEU)は、イギリスの話し言葉と書き言葉を100万語ずつ集め、手作業で構築されたもので、明確なコーパスデザインをもって作られた最初の非電子コーパスである。

 世界初の電子コーパスは、アメリカのブラウン大学の編纂で1964年に完成したThe Standard Corpus of Present-day Edited American English(通称Brown Corpus)である。1961年にアメリカで出版された書籍や新聞、雑誌などから100万語の書き言葉を集積している。これにならってイギリスでは、同じ1961年の出版物から言葉を集めたThe Lancaster-Oslo/Bergen Corpus of British English(LOB)が1970年から編纂され、1978年に完成した。1994年に完成したThe British National Corpus(BNC)は、1975年以降のイギリス英語約1億語を集めた、代表的な大規模コーパスである。

 このほか、辞書編集を目的として1991年に編纂を開始したBank of English(BoE)は、1995年に2億語収集の目標を達成しているが、現在も収録語が追加され5億語を超えている。また、アメリカ現代英語のための汎用コーパスとしては、1990~2009年までの各年につき2000万語を集めたCorpus of Contemporary American English(COCA)があり、約5億語が収録され現在も追加更新中である。

 日本語の主なコーパスについては、国立国語研究所と通信総合研究所、東京工業大学が共同で、660時間分の自発音声を集めた「日本語話し言葉コーパス(Corpus of Spontaneous Japanese: CSJ)」が2004年に完成され頒布されている。また2011年に国立国語研究所が「現代日本語書き言葉均衡コーパス(Balanced Corpus of Contemporary Written Japanese: BCCWJ)」を構築し公開した。収録語数は1億語以上で、オンラインでも利用可能である。

編纂

 コーパスに用いられるテキストの収集には、電子テキストをそのまま入手する以外に、手動入力やOCR(Optical Character Recognition)による読み取りなどの方法がある。集めたテキストは、余分な文字列やコードを整理して書式を整えた上で、テキスト情報(表記上の情報、出典、発話状況などの情報)、言語情報(品詞、構文解析、意味情報、談話情報、学習者コーパスの場合には誤用を示すエラーといった情報)などを付与し、言語分析・研究の目的に役立つものとして整備する必要がある。

 テキスト情報付与の標準形式としては、世界共通の規格を作る計画TEI(Text Encoding Institute)によってSGML(Standard Generalized Markup Language)が採用され、現在ではそこから派生したXML(Extensible Markup Language)をメタ言語として使用し作成されるものが主流になっている。いっぽう言語情報は、品詞タグの付与についてはCLAWS(Constituent Likelihood Automatic Word-tagging System)などのプログラムによる高精度の自動化が実現しているが、そのほかのタグ付けについては自動付与プログラムの精度をさらに高めてゆくことが課題である。

利用と展望

 コーパスは、言語研究の資料とすることを目的として構築されることが多かったが、近年では言語学に限らず、さまざまな領域で利用されるようになっている。辞書編纂・教材開発といった言語教育の分野のほか、原文と翻訳を対応させたパラレルコーパスを機械翻訳に用いたり、話し言葉コーパスから作成した音響モデルや言語モデルを音声認識に利用したり、業界ごとにカスタマイズしたコーパスを導入した人工知能(AI)の開発が進められたりと、学術的な目的を離れた活用においても、その重要性を増している。

 

参考文献

・齊藤俊雄、中村純作、赤野一郎編、2005、『英語コーパス言語学――基礎と実践』研究社

・リレー連載「実践で学ぶ コーパス活用術」http://www.kenkyusha.co.jp/uploads/lingua/lingua_bk01.html

[松本千晶 株式会社研究社 20161130]