国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションを拡張(2008-03-14)

screenshot

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションを従来の1000万語から2200万語へと大幅に拡張した(2008-03-14)。

・KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーション
http://www.kotonoha.gr.jp/demo/
国立国語研究所
http://www.kokken.go.jp/
・言語コーパス整備計画KOTONOHA
http://www2.kokken.go.jp/kotonoha/
・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(「日本語コーパス」)
http://www.tokuteicorpus.jp/

KOTONOHA「現代日本語書き言葉均衡コーパス」は、これまで白書から抽出した500万語、とYahoo! JAPANが提供する知識検索サービスYahoo!知恵袋から抽出して500万語の合計1000万語で構成されていたが、今回、国会会議録から抽出した500万語、一般書籍から抽出した700万語が追加された。結果、合計約2200万語で構成されるコーパスとなっている。また、検索結果のソート機能も追加された。

なお、データ拡張の直後に

2008-03-15(Sat)〜2008-03-16(Sun):
特定領域研究「日本語コーパス」平成19年度公開ワークショップ
(於・東京都/時事通信ホール、国立国語研究所
http://www.ilcc.com/corpus/

が開催され、日本語コーパスの構築計画の現状や著作権処理に関する報告や討論が行われている。

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションを公開」([新着・新発見リソース、2007-06-27)
http://d.hatena.ne.jp/arg/20070627/1182877097