Hadoop、NoSQL、PostgreSQL、インメモリDB--2013年ビッグデータ技術の注目ポイントはデータベース

五味明子
2013-01-08 13:41:00
  • このエントリーをはてなブックマークに追加

 2013年がスタートしてすでに1週間が過ぎた。

 その間、すでに多くの識者の方がさまざまなメディアで「2013年のITはどうなる!?」的な記事を書かれているので今さら感が強いのだが、2012年最大のバズワードであり、引き続き注目度の高い「ビッグデータ」を支える技術が2013年にどう変わっていこうとしているのか、ビッグデータを語るときに欠かせないデータベースの話題を中心にまとめてみたい。

分散システムとしてのHadoopの地位は不変?

 現在のビッグデータトレンドを支える根幹の技術といえば、やはりApache Hadoopだろう。同じくオープンソースのHive、Pig、Zookeeperなどで構成されるエコシステムに加え、エンタープライズでの利用に最適化されたCloudera、MapR、Hortonworksなどサードパーティによるいくつものディストリビューションが存在し、国内外を問わず大規模なHadoop導入事例も事欠かない。

 もっとも、分散システムアーキテクチャとして懸念される要素は少なくない。Hadoopはコモデティなハードウェアを大量に稼働させ、並列でバッチ処理することを得意とする。このため、ビッグデータ分析でニーズが急増しているリアルタイム処理、アドホックなクエリ検索などにはあまり向いていない。また、HadoopのプログラミングモデルであるMapReduceの習得が難しく、専門のスキルをもった技術者が育ちにくいという面もある。大手ITベンダはこの欠点を補完するため、自社のデータプラットフォームとHadoopを統合し、データの収集はHadoopで、分析はRDBMSで行うシステムを売りにしているところが多い。Oracle NoSQLやTeradata Asterなどがその代表で、Microsoftも今年前半にはPolyBaseというHadoopとSQL Server PDWを統合したシステムをリリースする予定だ。エンタープライズの世界では当面、このHadoopと既存RDBMSを連携させる傾向が続くだろう。

 2012年はHadoopのオルタナティブな存在として、GoogleのアドホッククエリシステムのDremelをベースにしたBigQuery、そしてTwitterが開発する分散データハンドリングシステムのStormなどが注目された。いずれもスケーラビリティやパフォーマンス、そして使いやすさの面でHadoopを上回るとされているが、登場してまだ間もないこともあり、2013年にこれらの技術がHadoopをリプレースすることはまずないと思われる。

 また、アドホック検索といえば、HadoopディストリビューションのClouderaが2012年10月にMapReduceに代わるSQLクエリエンジンとしてImpalaをリリースした。データの保存場所がHDFS、HBaseのどちらでもリアルタイムな検索を可能にするエンジンで、名前通りのパフォーマンスの高さがポイントだ。HadoopのNo.1サードパーティが手がける技術だけに、より多くのユーザーによって使い込まれればさらにブラッシュアップされることが期待できる。

NoSQLが大ブレイクする可能性は?

  • 新着記事
  • 特集
  • ブログ