2011/10/27 ScalaでLuceneのFilterを書いてみた.

lucene-gosen を用いて品詞ごとの単語の頻度を求めたい. lucene-gosen には JapanesePartOfSpeechKeepFilter というフィルタがあって, 品詞の種類を列挙したファイルを用意すればそれのみを抽出することができる. しかし, 「動詞-自立」などの長い品詞を列挙しなければならないのと, basicForm (終わり の basicForm は 終わる)に直してくれるフィルタがないようなので作ってみた.

Java の クラスリテラル(HogeClass.class) が Scala では classOf[HogeClass] であるのを忘れていてちょっと時間を食った.

名前は変える可能性大.