2012/02/21 Mixiボイスのマイニングのために, 1つのSolrに10億文書つっこんでマイニングできるようにした. 11月終わりからのデータをためていって昨日10億を越えた.

全文書に対して1日区切りのdateのファセットを新規に取ると1分くらいかかる. マイニング用途としては問題ない. 検索で絞ればもっと速い.

Scalaで書いた 自作のフィルタ で形容詞/名詞/動詞をフィルタしている. また, 分析には Perl や Clojure を利用している.

Solrの仕組み的には21億文書までいけるが, ディスク側の制限があるのでそこまではやらない.