2006-03-03(Fri): 「話し言葉」から「書き言葉」へ −日本語コーパスの構築に向けて

朝日新聞asahi.com)に「「書き言葉」1億語集約へ 辞書編集などへ応用期待」という記事。国立国語研究所は、記事にある太陽コーパス(雑誌『太陽』日本語データベース)以外にも、すでに日本語話し言葉コーパスを完成させているが、次は「書き言葉」のコーパスが必要ということなのだろう。記事では新聞や雑誌、書籍を素材にして試験的につくられた書き言葉コーパスの可能性についてふれているが、これらの素材はプロの書き手による極めて高度な書き言葉のコーパスにとどまっている。実際に用いられている日本語にまで範囲を広げる必要があるだろう。たとえば、インターネットのサイトやメール、掲示板に記された日本語は、これ以上ない書き言葉の実データだ。これらをコーパスとして取り込んでいくと、世界的にも例をみない「書き言葉」コーパスが完成するはずだ。これであれば、記事にある2つの課題のうち、1点目の「日本語の実態をバランスよく反映しているか」は達成されることだろう。だが、課題の2点目として挙げられている「公開して誰にでも利用できるか」は、やや難易度が高い。ウェブアーカイブの構築や大手ポータルサイトの協力が鍵となる。しかし、課題が大きいほどに、このコーパスの可能性は大きい。国立国語研究所の取り組みを応援したい。

・「「書き言葉」1億語集約へ 辞書編集などへ応用期待」(朝日新聞2006-03-01
http://www.asahi.com/culture/update/0301/016.html
国立国語研究所
http://www.kokken.go.jp/
・太陽コーパス(雑誌『太陽』日本語データベース)
http://www.kokken.go.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9
・日本語話し言葉コーパス
http://www2.kokken.go.jp/csj/public/index_j.html