企業が競争力を維持するためにデータ分析による意思決定が不可欠となってきた近年、DWH(データウェアハウス)が注目を集めています。この記事ではデータウェアハウスの概要と、データベースやデータレイクなどとの違いをわかりやすく解説します。
DWH(データウェアハウス)とは?
DWH(データウェアハウス)とは、顧客管理システムや会計システム、人事管理システムなどそれぞれに格納されているデータを一つに統合し、意思決定するためのデータ分析システムです。複数のシステムを横断した包括的なデータ分析が可能となるため、企業の情報システムの中核的なデータとして位置づけられます。
個別のシステムに格納されているデータは、マーケティングや営業、財務、人事などのそれぞれの部門が業務のために使用するものです。それに対してデータウェアハウスのデータは、企業の意思決定のために使用されます。意思決定で使用しやすいよう、項目別に、統合された時系列上で、重複を取り除いて整理され、古いデータも削除されることがありません。
企業はデータウェアハウスの利用により、分析のしやすさだけでなく、正確性と整合性が保証されたデータに基づく意思決定が可能となります。
データが時系列上に整理され、削除されることがないため、長期にわたった分析による未来の予測も可能です。データ分析が欠かせない現代のビジネスにおいて、データウェアハウスは不可欠なツールといえるでしょう。
データベース、データレイク、データマート、BIとの違い
データウェアハウスと似た言葉として、「データベース」「データレイク」「データマート」「BI(ビジネスインテリジェンス)」があります。それらの言葉とデータウェアハウスの違いを見ていきましょう。
データウェアハウスとデータベースの違い
データウェアハウスとデータベースの違いは、「データ分析に特化しているか」という点です。
データベースは「決まった形式で整理されたデータの集まり」を意味しており、データウェアハウスもデータベースの一種といえます。通常のデータベースの役割は、日々刻々と得られる特定の種類のデータをそのまま取得し、保存することです。たとえば、顧客管理システムのデータベースなら、顧客に関して得られたデータをその都度、記録・蓄積していきます。
それに対してデータウェアハウスのデータは、顧客管理や会計、人事など複数のデータベースから得られるものです。それぞれのデータベースごとに形式が異なるデータを統合し、分析しやすいよう項目別、時系列上に整理もされます。さらに、過去の履歴の分析が可能なよう、データは消去されません。データウェアハウスは、「データ分析に最適化して設計されたデータベース」といえるのです。
データウェアハウスとデータレイクの違い
データウェアハウスとデータレイクの違いは、データを表形式でまとめられる「構造化データ」のほかに「非構造化データ」を扱うかどうか、という点です。
データレイクは、構造化データのほかに、電子メールやCADデータ、画像・動画ファイル、SNSのデータなど、表形式ではまとめられない「非構造化データ」も保存します。非構造化データを構造化データとともに保存し、ビッグデータ分析や全文検索、機械学習などによって分析して、さまざまな傾向を発見します。
それに対して、データウェアハウスが扱うのは原則として構造化データのみです。ただし、データレイクにもさまざまなメリットがあるため、近年ではデータウェアハウスを、データレイクが包含している企業もあります。
データウェアハウスとデータマートの違い
データウェアハウスとデータマートの違いは「取り扱うデータの範囲」です。
データウェアハウスは社内のさまざまなデータを、各部門の業務システムを横断して統合的に取り扱います。それに対して、データマートは、それぞれの部門が特定の目的のために、業務システムに格納されているデータの一部を切り出すものです。
たとえば、顧客管理システムのデータから、顧客にメールを送ることを目的に、「会員番号」「氏名」「メールアドレス」だけを切り出すことなどがデータマートに該当します。データが小規模なため、データマートの構築は比較的容易です。分析にあたっても、データ量が少ない分、高いレスポンスが期待できます。
その反面、データマートで分析できる範囲は狭くなります。「顧客にメールを送る」などのルーチンワークには向いていますが、データウェアハウスのようにさまざまな新しい仮説を試すことは困難でしょう。
データウェアハウスとBIの違い
データウェアハウスとBI(ビジネスインテリジェンス)の違いは、意思決定のためのデータを格納するのか、分析するのかの役割の違いです。
データウェアハウスは、データを格納することに特化しています。意思決定に役立つよう、社内のデータを統合し、整理はしますが、そのデータの活用法については対象外です。
それに対してBIは、意思決定のためにデータを活用し、分析することに主眼が置かれます。データウェアハウスとBIは補完関係にあるといえ、組み合わせて活用することが重要です。
データウェアハウスの機能
データウェアハウスの機能をやや詳しく解説します。
サブジェクト(項目)ごとに整理する
データウェアハウスの第1の機能は、データをサブジェクト(項目)ごとに整理することです。
データウェアハウスは各部門の業務システムからデータを集め、格納します。しかし、異なったシステムのデータはデータ体系も異なるため、それをただ集めただけでは包括的な分析は行えません。
そこで、データウェアハウスはまず、データ体系の異なるデータを「商品」や「顧客」などのサブジェクトごとに整理します。サブジェクトごとに整理されてはじめて、データ体系の違いを超えて包括的な分析が可能となるのです。
重複を排除してデータを統合する
第2の機能は集めたデータから重複を排除して、一貫したデータへ統合することです。
データの重複が起こるのは、複数のシステムからデータを集めるからです。それぞれのシステム内では重複がなくても、システム間では重複が起こる可能性があります。また、表記揺れも問題です。あるシステムでは「社員」、別のシステムでは「従業員」として同じデータが保存されている場合には、重複が起こってしまいます。
データウェアハウスはさまざまな観点から点検し、重複を極力排除します。それにより、データは一貫したものになり、整合性が高くなります。
データを時系列上に整理する
第3の機能は、データを時系列上に整理することです。
一般に業務で利用されるデータベースでは、データは最新にすることが重要です。たとえば、「会員ポイント」であれば現在のポイント数だけが業務には必要で、以前のポイント数はまず必要とされないでしょう。むしろ、古いポイント数まで全て保存していては、データ容量の増大を招き、データベースの性能を低下させることになりかねません。
しかし、データウェアハウスは過去から現在までのすべてのデータを、時系列上に整理して保持し続けます。それにより、会員ポイントの例であれば顧客のポイント数の推移が分析できるなど、新たな分析のきっかけとなる可能性が出てくるのです。
データを削除することなく保管
第4の機能は、原則としてデータを削除せず、全てのデータを保管し続けることです。時系列上に整理されたデータを保持し続けることが、新たな分析のきっかけとなることがあるからです。
ただし、データウェアハウスの保存容量にも、コストなどの観点から限界があるのは 言うまでもありません。そのため、データ容量が限界に達した場合は、優先順位が低いデータをアーカイブしたり、削除したりすることもあります。
データウェアハウスの主要3製品を紹介
今回は、データウェアハウスの主要三製品の、Google Cloud Platformの「BigQuery」、AWS(Amazon Web Service)の「Redshift」、それにSnowflake社の「Snowflake」を紹介します。
パフォーマンスやセキュリティ、バックアップ機能などの性能面については、3製品とも大差はなく、おもな違いは初期の構築のしやすさと費用面だといわれています。
BigQuery(Google Cloud Platform)
「BigQuery」はGoogle Cloud Platformが提供するデータウェアハウスです。もともとはGoogle社内で使用していたサービスでした。
BigQueryがもっとも優れているのは費用面です。BigQuery には無料枠があり、10 GB のストレージ、1 ヶ月あたり最大 1 TB のクエリ、その他のリソースを無料で利用できます。より大規模に分析する場合には、有料プランに加入します。
Redshift(AWS)
RedshiftはAWSが提供するデータウェアハウスです。数万社が利用しており、Amazon自身も分析基盤として活用しています。
Redshiftの最大のメリットは、AWSのほかのサービスと連携が取りやすいことです。機能の一つであるDMS(Database Migration Service)の利用により、AWSのほかのデータベースとRedshiftをリアルタイムに近いスピードで同期もできます。
その一方、費用は高額で、上述のBigQueryと比べると、2~3倍の費用がかかるといわれています。見積もりツールを使って計算が可能なので、他社のツールを使用する場合と比較して検討しましょう。
Snowflake(Snowflake社)
Snowflake社が提供するデータウェアハウスSnowflakeは、日本では比較的近年メジャーになりました。Snowflakeの大きな特徴として、サービスの実体を置くクラウドをAWS、GCP、Microsoft Azureのいずれかから選べることが挙げられます。そのため、クラウドにAWSを選択すれば、AWSにあるデータベースとの連携が容易です。
費用は、BigQueryとRedshiftの中間くらいです。そのため、現行の社内システムがAWSを利用していて、費用を抑えたい場合には選択肢の一つとなるでしょう。
データウェアハウス利用のための分散処理基盤「Hadoop」
データウェアハウスは社内システム全てのデータを、削除することなく保持し続けるため、自ずと大量のデータを扱わなければなりません。大量のデータ処理を現実的な時間内に終わらせるため、分散処理を行うための基盤「Hadoop」が登場しました。
HadoopはGoogleが発表した論文を基に開発された、オープンソースのソフトウェアです。以下のような方法で、大量のデータ処理を効率的に行います。
- データを細かく分割して大量のサーバーで処理する(Map)
- それぞれのサーバーで処理された結果を一つにまとめる(Reduce)
- 1、2の処理と効率的に行うための仮想ストレージシステムを構築(HDFS:Hadoop Distributed File System)
Hadoopはデータウェアハウスを支える技術として広く普及しました。しかし、近年ではクラウド型のデータウェアハウスの普及に伴い、「超並列処理」と呼ばれる方法がスタンダードになっています。
超並列処理とは、これまでのデータベースでは複数のCPUに共有されていたディスクとメモリを、CPUごとに独立させることにより、飛躍的に処理能力を発揮するものです。
まとめ
社内で個別のデータベースに保持されているデータを統合・整理し、意思決定のためのデータ分析に使用できるようにするのがデータウェアハウスです。データベースが日常業務のために使用されるのに対し、データウェアハウスはあくまでも意思決定のための使用に特化していることが特徴です。
データウェアハウスの主要な製品には、GoogleのBigQuery、AWSのRedshift、およびSnowflakeなどがあります。これからはマーケティングにおいても、データウェアハウスは欠かせないものとなるのではないでしょうか。
SEデザインでは、さまざまなコンテンツマーケティングの支援を行っております。貴社に最適な施策やプランをご提案させていただきますので、ぜひお気軽にお問い合わせください。