Google、日本語N-gramデータを公開

screenshot

Googleからのデータ提供を受けて言語資源協会(GSK)が大規模な日本語N-gramデータであるGSK2007-C Web日本語Nグラム第1版(Web日本語Nグラム第1版)を公開した(2007-11-01)。商用利用不可で学術目的限定の利用に供される。データの詳細については、Google Japan Blogに詳しい。
2007年3月の言語処理学会第13回年次大会(NLP2007)で大規模日本語データ公開に関する特別セッションが、また2007年9月のNLP若手の会第2回シンポジウムでポスター発表「大規模日本語n-gramデータの公開に向けて」が行われていたことから、公開間近と思われていたが、ついに公開されている。しかし、3月、9月、11月という一連の動きをみると、Googleは何事につけても実に戦略的に動いていることがよくわかり感心する。
なお、今回のデータ公開は大きな反響を呼んではいるが、言語資源協会(GSK)からデータ提供を受けるには、

  • 個人・会員21,000円
  • 個人・非会員42,000円
  • 団体・会員29,400円
  • 団体・非会員58,800円。
  • 別途、送料3,150円。

が必要となることには注意したい。どうせであれば、無料で研究利用できるモデルを築いてほしいところだ。

・GSK2007-C Web日本語Nグラム第1版(Web日本語Nグラム第1版)
http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html
・言語資源協会(GSK)
http://www.gsk.or.jp/
・「大規模日本語 n-gram データの公開」(Google Japan Blog、2007-11-01)
http://googlejapan.blogspot.com/2007/11/n-gram.html
・大規模日本語データ公開に関する特別セッション
http://www.google.co.jp/events/anlp2007.html
言語処理学会第13回年次大会(NLP2007)
http://nlp2007.itc.nagoya-u.ac.jp/
NLP若手の会第2回シンポジウム
http://sslab.nuee.nagoya-u.ac.jp/yans/
・「グーグル、日本語N-gramデータを公開」(INTERNET Watch、2007-11-02)
http://internet.watch.impress.co.jp/cda/news/2007/11/02/17393.html
・「グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果」(ITpro、2007-11-01)
http://itpro.nikkeibp.co.jp/article/NEWS/20071101/286215/
・「グーグルが日本語N-gramデータを公開」(@IT、2007-11-01)
http://www.atmarkit.co.jp/news/200711/01/ngram.html
・「Google、日本語2,550億語から作成したNグラムデータを公開」(カレントアウェアネス-R、2007-11-02)
http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=4449