近年、AIやML、IoTデバイス、GPUなど「大量のデータ処理を必要とする・可能とする技術」の進化に伴い、企業が扱うデータの量は指数関数的に増加しています。
一方で、「大量のデータを保管・アクセスするための技術」に関しては課題を抱えている企業が多いのが実情です。このような課題を解決するためには、適切なデータマネージメント戦略が必要です。
そこで、ネットアップ合同会社の大野様に、データマネージメントのポイントについて寄稿頂きました。ぜひ本稿をデータマネージメント戦略にお役立てください。
1. 企業におけるデータマネージメントの課題
企業におけるデータの量は増えていく一方であり、適切に管理しないとさまざまなリスクが生じます。ここでは、企業のデータマネージメントの課題について解説します。
データ管理で発生しがちな課題
オンプレミスのケース
オンプレミスでデータ管理を行う場合、コストを優先してしまいコンシューマー向けの安価なNASやストレージを使う傾向があります。オンプレミスはコストを抑える利点がありますが、データの管理や保護、セキュリティに関する機能が薄弱な点が課題になりがちです
クラウドのケース
クラウドは、必要な機能・スペックを素早く利用できる点が大きなメリットです。
しかし、利用期間が長くなるほどクラウド上のデータが増え続け、それに伴い保管コストも増えてしまう状況が発生します。また、データの増加に伴って利用するクラウドサービスの変更が困難になる「クラウドロックイン」という状況も発生します。
課題を解決するにはデータマネージメント戦略が不可欠
データマネージメントの課題に対して、「どのように解決しなくてはいけないのか」「大量にあるデータをどう処理するのか」データマネージメント戦略を詳細に立てることが非常に重要です。「どういったデータをどこにおくか」「それをどこから使うのか」など具体的に考える必要があります。
また、もう一つ考えなくてはいけないのが、「データフロー」をうまく回していくことです。データフローとは以下の5段階のステージから成り立ちます。
<データフローの5つのステージ>
- データの取り込み
- データの抽出
- データの処理
- データの活用
- データを減らす
それぞれのフェーズにおいて、データの処理の流れが円滑に進められるように考えることが重要です。次の章では、そのポイントを詳しく解説します。
2. よりよいデータマネージメントに必要な3つのポイント
ここでは、よりよいデータマネージメントを実現していくためのポイントを解説します。
ポイント1:データへのアクセスを容易にする
実際にデータが発生した後に、データを処理する場所に効率よくデータを移動させる、また、データの置き場所を柔軟に選択できるようにすることが大切です。
データが大きくなればなるほど、全てのデータを一斉に移動させることが難しくなります。一般的に、データレイクを作る際はデータレイク側にアプリケーションを寄せる形になりますが、処理基盤がクラウドである場合は必ずしもこのように行えるわけではありません。したがって、オンプレミスやクラウドのデータを相互にどのような形で処理していくか、その方法を考えていくことが重要です。
ポイント2:ワークフローの自動化
ワークフローの自動化は、MLOpsを意識したときに必要になります。
AI/MLのデータフローは、先ほど挙げた5つのステージに分かれています。この流れを効率良く行っていくためには、5つのステージの特性を理解した上で自動化に対応したデータストレージが求められます。
<データフローの5つのステージにおける特性>
- データの取り込み:環境への柔軟な適応性、データ伝送の利便性
- データの抽出:高いデータIOスループット
- データの処理:高いデータIOスループット+低レイテンシ
- データの活用:低レイテンシ
- データを減らす:数ペタバイト級のスケーリング、自動階層化
また、これらの環境をつなぐ「データパイプライン」を含めたデータ管理の自動化を考えていく必要があります。
データを効率よく保管・分析して経営戦略に活用する
データが爆発的に増加することによって、保管コストも上がっていくため、できるだけ効率よく大量のデータを保管していくことが求められます。保管コストを下げるためにはオペレーションをいかに効率化できるかが鍵となるため、先述した「5つの特性」を満たすソリューションを選ぶことが大切です。
データを効率的に保管・管理することで、スムーズにデータドリブン経営を実現できるようになります。
3. データマネージメントを最適化するAI/ML/DLプラットフォーム「ONTAP AI」の特徴と機能
ここでは、データマネージメントの課題を解決する「ONTAP AI」を紹介します。ONTAP AIは、NVIDIAとの共同ソリューションであり、DGXでデータの分析・解析をして企業の経営戦略に活用してもらうことを目指しています。ONTAP AIの主な特徴、機能について解説します。
AI/ML環境で使用できる
ONTAP AIは、AI/MLどちらの環境でも使用できます。色々な場所から異なるデータに効率よくアクセスすることが可能になり、容易なデータへのアクセスを実現します。
「高いデータIOスループット」「低レイテンシ」のためのアーキテクチャを備えている
ONTAP AIは、前述した「高いデータIOスループット」「低レイテンシ」のためのアーキテクチャを備えています。データパイプラインのコア/クラウドに適した製品・ソリューションを揃えているため、ONTAP AI であればパイプラインに適した、より良いデータマネージメントを実現できます。
自動化によるデプロイ
Ansibleのモジュールを提供することで、ストレージのセットアップを自動化できます。
ストレージ監視
一般的なIT部門のストレージ運用にマッチした形での運用システム構築を可能とします。
インテグレーテッド
エッジ、コア&クラウド間でデータをインテリジェントに管理している点もONTAP AIの特徴です。確実にAIフレームワークを展開していきます。
シンプルな設計
設計の複雑さを解消して、推測に頼ることなく素早く導入できます。
4.まとめ
データマネージメントの課題を解決するためには、「どういったデータをどこにおくか」、「それをどこから使うのか」など、具体的にデータマネージメント戦略を考えなければいけません。また、データフローの5つのステージにおける特性を満たすソリューションを選ぶことも非常に大切です。
「ONTAP AI」は、適切なデータマネージメントとスピーディなデータドリブン経営を実現できるAI/ML/DLプラットフォームです。AI/ML/DLプラットフォームをご検討の際は、ぜひ「ONTAP AI」をお選びください。
<< 寄稿者 >>
ネットアップ合同会社
ソリューションアーキテクト部 部長
大野 靖夫氏
以前はサーバ/ストレージベンダで仮想化システム等の提案を技術支援する立場で活動。 現在はネットアップにてソリューションアーキテクトのチームをリードしながら、コンテナや AI/IoT等のデータ管理を改善するソリューションの提案支援に取り組んでいる
- カテゴリ:
- デジタルプラットフォーム