2012/12/17 anuenue-wrapper - A Search Package with Apache Solr - Google Project Hosting 0.8.1 をリリースしました.

0.8.1 では, デフォルトのcore で拙作の StandardPlusTokenizer を利用できるようにしました.

Lucene/SolrのStandardTokenizerは, 記号などの文字を捨ててしまいます. 「つのだ☆ひろ」の「☆」がなくなっているのが見えます.

text_cjk

StandardPlusTokenizer は, 空白文字以外の文字をすべて切りだします. 「つのだ☆ひろ」の「☆」は残ります.

text_cjk_plus