Java向け全文検索エンジンApache Lucene 2.3.0

原井彰弘
2008-01-28 14:06:01
  • このエントリーをはてなブックマークに追加

 The Apache Software Foundationは1月24日、Java向け全文検索エンジン「Apache Lucene 2.3.0」をリリースした。

 Lucene は、完全にJavaで書かれた全文検索エンジン。与えられたテキストを読み込んでインデックスを作成し、クエリを用いて目的の文書を素早く探し出すことを可能にする。実際には、RDBMSで不足している全文検索の機能を補う目的で、RDBMSと組み合わせて利用されることが多い。

 Lucene の特徴としては、高性能であることが挙げられるとしている。インデックスの作成に関しては、Pentium M 1.5GHzのマシンでは1分間に20メガバイト以上のテキストを読み込むことが可能な一方で、1メガバイトのヒープ領域しか必要としない。また、検索については、検索結果のランク付けを行うことが可能なほか、フレーズやワイルドカードを用いたクエリのほかにも、値の近さや範囲をクエリに指定することも可能になっている。

 今回リリースされた新バージョンでは、インデックス作成時のパフォーマンスが大幅に向上しているほか、インデックスの作成を行いながら同時にバックアップを行うことが可能になった。

 なお、Lucene 2.3.0ではインデックスの形式が変更されており、一度このバージョンを導入すると、過去のバージョンではインデックスの読み取りが行えなくなるという。すでにLuceneを導入されている方は注意されたい。

  • 新着記事
  • 特集
  • ブログ