Javaによるテキスト検索エンジンライブラリApache Lucene Java 2.3.0

中沢雅志
2008-01-28 14:50:01
  • このエントリーをはてなブックマークに追加
最新特集【一覧】

 The Apache Lucene Project は1月26日、Apache Luceneの最新版であるApache Lucene Java 2.3.0をリリースした。ライセンスはApache License, Version 2.0。

 Apache Luceneは、Javaで記述されたオープンソースのテキスト検索エンジンライブラリ。全文検索を必要とするほとんどのアプリケーションに適しており、特にクロスプラットフォームの場合にはより適しているという。

 必要とするRAMが1MBのヒープのみという小ささ、バッチインデクシングと同じくらいの速さの増分インデクシング、インデックスのサイズがインデックス化されたテキストのおよそ20から30%程度、といった特徴がある。また、ランク付け検索を始めとして、フレーズ・ワイルドカード・近似値・範囲クエリなどへの対応、フィールド検索、日付範囲検索、フィールドによるソート、マージされた結果を検索する複合インデックス、更新と検索の同時実行など、強力で効率的な検索アルゴリズムを持っている。

 今回のリリースでは、インデクシングパフォーマンスで大きな最適化が行われた。IndexWriterがドキュメントをバッファリングする際のRAMの使用方法を改良することで、インデクシングが2倍から8倍ほどスピードアップしているという。

 そのほか、バッググラウンドスレッドでのセグメントの結合、IndexReaderクラスへのメソッド追加、StandardAnalyzerの速度アップとToken APIの改良、破損したインデックスを検査・回復するためのCheckIndexツールなどを含む、多くの新機能の追加、最適化、そしてバグフィックスが行われている。

 変更点の詳細については、Change Logを参照して頂きたい。

  • 新着記事
  • 特集
  • ブログ