情報爆発時代と呼ばれる現代において、参入市場の競争優位性を確立するためにはビッグデータの活用が欠かせません。そこで重要な役割を担うのがデータ活用基盤です。本記事ではデータ活用基盤の概要と必要性について解説すると共に、データ活用基盤の構成要素や構築手順を紹介します。
ビジネスに欠かせない「データ活用基盤」とは?
データ活用基盤とは、組織の業務システムに収集・蓄積されたデータを目的に応じて活用するためのプラットフォームです。データ分析は基本的に「収集」→「蓄積」→「抽出」→「加工」→「送出」→「可視化」→「分析」というプロセスを辿ります。この各工程を効率的に処理するためには複数のシステムやコンポーネントが必要であり、その統合的なプラットフォームとなるのがデータ活用基盤です。
データ活用基盤の必要性
顧客の需要が多様化する現代は、企業が市場の変化を敏感に察知し、データ分析に基づく意思決定を行うことが欠かせません。同時にデジタル技術の進歩と発展に伴い、事業領域で取り扱うデータの総量が加速度的に増大しています。生産管理や販売管理などのデータが分断された状態では、スピーディな経営判断や意思決定が困難です。また、従来のデータ活用で用いられるExcelでは104万行を超える情報処理を実行できません。データ活用基盤を構築できれば、基幹系システムや情報系システムで管理されているデータを一元的に管理し、Excelで処理しきれない膨大なデータ群を効率的に分析できます。
データ活用基盤の目的
データ活用基盤の目的は、収集・蓄積・抽出・加工・送出・可視化・分析という各工程の統合的な管理です。例えば、基幹系システムに収集されたデータをデータレイクに蓄積できれば、情報のサイロ化を防止できます。ただし、生データは粒度やフォーマットが異なると共に欠損値も多く、データ分析に多大な手間を要します。そのため、ETLツールのようなソリューションを活用して必要な情報を抽出し、分析に適した構造化データに加工しなくてはなりません。データの加工によってデータ分析結果の有用性や正確性が大きく左右されるため、企業にとってデータの加工はとても重要な工程だと言うことができます。
構造化データの管理に特化したデータウェアハウスで加工されたデータを保管し、目的や用途に応じて厳選された情報をデータマートに格納できれば、必要な情報を即座に取り出せます。その後、目的に応じてデータをBIツールに送出し、グラフやチャートに変換して可視化することで、統計学や機械学習を用いた効率的な分析が可能となります。この一連のプロセスを統合的に管理し、データドリブンな経営体制を確立することがデータ活用基盤を構築する目的です。
データ活用基盤の構成要素
データ活用基盤は単一の情報処理システムではなく、複数のソリューションによって構成されるプラットフォームを指します。データ活用基盤を構成する要素は様々ですが、ビッグデータ分析において重要な役割を担うのが「データレイク」「データウェアハウス」「データマート」の3つです。
データをそのまま保持する「データレイク」
データレイク(Data Lake)は「情報の湖」という意味をもち、あらゆる形式の生データを湖のように大量に保管できるストレージです。列と行が定義された構造化データや、JSONやXMLのような半構造化データ、あるいは画像ファイルや動画ファイルといった非構造化データなど、生データをそのままの形式で保管できます。ただし、データレイクは膨大な量の生データを蓄積できる一方、無秩序にデータを取り込むと検索性と規律性が著しく低下し、データスワンプに陥る可能性がある点に注意が必要です。
データを集約・保管する「データウェアハウス(DWH)」
データウェアハウス(Data WareHouse)は「情報の倉庫」と和訳されるデータベースであり、構造化されたデータを時系列に整理して保管します。列と行の概念をもつ表形式の構造化データのみを保管し、集計や検索などのクエリを効率的に実行できる点がデータレイクとの大きな違いです。先述したように、生データは粒度やフォーマットが異なるため、前処理と呼ばれる工程を経て構造化データに加工されます。その加工された構造化データを保管するためのデータベースがデータウェアハウスです。
抽出後のデータを保管する「データマート」
データマート(Data Mart)は「データの市場」を意味し、マーケットの売り場のように用途や目的に応じて情報が整理されたデータベースを指します。データマートはデータウェアハウスという大きな枠組みに内包される小規模なデータベースであり、各部門やプロジェクトなどの目的にあわせて、必要最低限のデータセットを分離して格納します。それによってデータの検索性が飛躍的に向上するため、ビジネスニーズに応じて必要な情報を迅速かつ的確に取り出せる点がデータマートを構築するメリットです。
データ活用基盤構築の手順
データ活用基盤の構築から運用に至る基本的なプロセスは、以下に挙げる3つのフェーズで構成されています。
導入の目的とゴールを設定する
データ活用基盤は導入それ自体がゴールではありません。データ活用を通じて競合他社との差別化を図り、参入市場の競争優位性を確立することがゴールといえます。そのゴールに到達するためには、「新たな顧客体験価値の創出」「リスクマネジメントの最適化」「高精度な需要予測」「消費者インサイトの発掘」「中長期的な市場動向を見据えた競合分析」といった施策が必要です。
こうした施策の推進にはデータドリブンなビジネス環境が不可欠であり、それこそがデータ活用基盤を構築する目的です。データ活用基盤を構築する目的とゴールを明確化することで、推進すべき施策とその実現に必要なシステムを把握できます。そして全社戦略に基づく導入スケジュールを立案・策定し、各部署で連携しながらデータ活用に向けた企業文化の醸成に取り組むことが大切です。
データ活用基盤を構築して運用する
データ活用基盤の構築には専門的な知見と膨大な作業量が必要です。基本的にシステム開発では、「要件定義」→「基本設計」→「詳細設計」→「実装」→「各種テスト」→「運用・保守」という一連の工程を段階的に踏破しなくてはなりません。まず目的やゴールに基づいて業務要件とシステム要件を具体化し、要求を実現するシステムの基本的な骨組みと内部仕様を策定します。
その後は設計のフェーズで定められたビジネスロジックを実装するために、モジュール単位でプログラミングを進めてシステムを構築します。データ活用基盤は複数のソリューションで構成されているため、データ移行のワークフローや格納先の設定、既存システムとの連携なども必要です。そして単体テスト・結合テスト・総合テストを経て仕様や要求を満たしているかを確認し、システム上の問題がなければ検収となります。
見つかった課題を改善する
基本的に多くの業務システムは構築して終わりという性質ではありません。システムの検収後に要件漏れや実装漏れ、セキュリティ上の脆弱性などが見つかる場合もあります。例えば、基幹系システムからデータレイクにデータを移行する過程でエラーや欠損が発生する、あるいは特定の条件下でクエリの処理速度が大幅に低下するなどの不具合が発見される可能性は決して少なくありません。
また、現代はデジタル技術の進歩・発展に伴って市場の変化が加速しています。自社を取り巻くビジネス環境や市場動向は常に変動しているため、環境の変化に応じてシステムやコンポーネントを改善しなくてはなりません。そのため、データ活用基盤は構築後も、「Plan(計画)」→「Do(実行)」→「Check(評価)」→「Action(改善)」のPDCAを回し続ける継続的な改善が必要です。
データ活用基盤サービスを選ぶポイント
データ活用基盤は複数のシステムやコンポーネントで構成されるため、導入するソリューションと既存システムとの連携性を考慮しなくてはなりません。事業の拡大に伴ってデータ活用基盤をスケールアップする、あるいは事業撤退によってスケールダウンする可能性もあるので、ソリューションの拡張性や柔軟性も重要なポイントです。また、データ活用基盤の運用効率を高めるためには、直感的に操作できるUIを備えたシステムや、ソリューションプロバイダーの運用サポートが充実しているサービスの導入が推奨されます。
まとめ
データ活用基盤とは、組織に収集・蓄積されたデータを統合的に管理し、データ分析における一連のプロセスを効率化するプラットフォームです。情報爆発時代と呼ばれる現代では、データドリブンな経営体制の構築が求められており、様々な産業でデータ活用基盤の活用が重要課題となっています。データ活用基盤を構築する際は、導入するシステムの拡張性や既存システムとの連携性を考慮しなくてはなりません。そして明確な目的とゴールを設定し、データ活用基盤の構築後はPDCAサイクルを回し続ける継続的な改善に取り組むことが大切です。
- カテゴリ:
- データマネジメント