やました たつを(フリーライター)

ストレージ、DBMS、分析、サーバなど、取り組みが多岐にわたるビッグデータ

2012-01-10 02:30:00

 米国国立衛生研究所(National Institutes of Health:NIH)と米国国立科学財団(National Science Foundation:NSF)が2006年に発表したレポートでは、2003年および2004年の2年間で生成されたデータ量が、これまでに人類が生成したすべての文書のデータ量を超えたと報告されています。


 また、米国視覚化&分析センター(National Visualization and Analytics Center:NVAC)では、2010年に生成される総データ量は、988エクサバイト(約1ゼタバイト)に達するという試算結果を発表しています。エクサバイトは、メガ、ギガ、テラ、ペタの次の単位であることから、いかに大量のデータかということが理解できます。


 デジタルカメラやデジタルビデオの高画質化、携帯電話やスマートフォンの普及拡大、TwitterやFacebookなどのソーシャルネットワークサービスの利用者数増大などの背景もあり、生成されるデータ量は急激に増え続けています。このデータをいかに効率的に管理するかが解決すべき大きな課題となっています。


 そこで注目を集めているのが“ビッグデータ”です。ビッグデータとは、一般的なデータベースでは管理が困難な、大量かつ多種類のデータのことです。ビッグデータを効率的に管理するために、ストレージやデータベース管理システム(DBMS)、サーバ、検索システム、分析システムなどの分野でさまざまな取り組みが展開されています。


量、種類、スピードでビッグデータを分析


 たとえばサイベースでは、ビッグデータの分析には3つの要素があると定義しています。大容量データに対応する「データのボリューム(量)」、構造化から非構造化まで、あらゆるデータに対応する「データのバラエティ(種類)」、高いスループットでデータを即時処理する「FAST DATA(スピード)」の3つです。


 ビッグデータの分析では、大容量かつさまざまな種類のデータを高速に分析し、傾向を見つけ出してリアルタイムに意思決定できる仕組みを実現しなければなりません。この仕組みを実現するのが、膨大なデータを高速に分析できる「Sybase IQ」と複合イベント処理(CEP:*1)を実現する「Sybase Aleri Streaming Platform(Sybase Aleri)」です。


 Sybase IQは、カラムパーティション、インデックス化、データ圧縮という3つの特長により、大量のデータを高速に分析することを可能にします。またSybase Aleriは、大量のストリームデータから傾向を見つけ出し、Continuous Intelligenceを短期間で実現するCEP機能を搭載しています。


 この2つの製品を組み合わせることで、あるオンライン旅行会社では、サイトを訪問した顧客の購買パターンを分析し、最適な旅行を提案。売上を数億円増大させました。またある通信会社では、ネットワークの稼働状況や障害をリアルタイムに把握することで、アクセスが集中するイベントにおいても安定した通信環境の提供を実現しました。


階層型でビッグデータの管理を効率化


 増え続けるデータですが、蓄積されたすべてのデータを常に活用しているわけではありません。一般的には、頻繁に利用されるデータは全体の15%であり、残り85%のデータは一度利用された後、ほとんど利用されないといわれています。そこで重要となるのが階層型のストレージ管理です。


 階層型ストレージ管理は、使用頻度の高いデータは高速で信頼性の高いSSD(*2)などのストレージに蓄積し、使用頻度の低いデータはSATA(*3)やSAS(*4)などの安価なストレージにアーカイブします。さらに、ほとんど利用しないデータに関しては、テープなどにバックアップすることで、情報ライフサイクル管理(*5)を実現します。


 情報ライフサイクル管理を実現することで、大量データの有効活用を可能にし、ビッグデータ管理のためのシステム導入および管理コストを大幅に削減することが可能になります。しかし安価なストレージとはいえ、常にディスクが回転しているために、かなりの電力が消費されてしまいます。


 そこで日本SGIでは、MAID(*6)技術を搭載したアーカイブシステムである「SGI COPAN」を提供しています。MAID技術は、使用頻度の低いディスクの回転を停止することで消費電力を削減する仕組みです。SGI COPANでは、消費電力以外にも、信頼性、拡張性、高密度、省設置スペースに優れた機能を搭載し、Enterprise MAIDを提唱しています。


*1:CEP(Complex Event Processing)
*2:SSD(Solid State Drive)
*3:SATA(Serial ATA)
*4:SAS(Serial Attached SCSI)
*5:ILM(Information Lifecycle Management)
*6:MAID(Massive Array of Idle Disks)


※お知らせ:先週より始めたばかりのブログですが、個人的な事情により1週間ほど更新をお休みさせていただきます。なるべく早く復帰しますのでご了承ください。


 

※このエントリは ブロガーにより投稿されたものです。朝日インタラクティブ および ZDNet Japan編集部の見解・意向を示すものではありません。