Snowflakeは何がすごい? 特長や導入のメリットを解説

 2022.04.15  2022.08.19

Snowflakeの導入を検討しているものの、その特長やメリットがよくわからない方もおられるかもしれません。そういった方に向け、この記事では、Snowflakeの概要や特長を解説します。また、Snowflakeを導入するメリットや導入事例について紹介するとともに、サポートする6つのワークロードについても説明します。

マンガでわかるSnowflake

Snowflakeとは

Snowflakeとは、Snowflake社が提供するクラウドベースのSaaS(Software as a Service)型データプラットフォームです。膨大なデジタルデータがあふれる昨今、ビッグデータなどあらゆるデータを安価に格納できる大容量ストレージとして、「データレイク」の需要が高まっています。Snowflakeは、クラウド型のデータウェアハウス(DWH)のみならず、このデータレイクを処理するのに適したデータプラットフォームとして注目を集めています。

Snowflakeのデータクラウドを活用すれば、非常に手間のかかるサイロ化されたデータの変換作業において、多大な労力をかけなくとも、構造化データと半構造データを一元的に管理できます。そして、誰もがそのデータにアクセスして、事業運営上の意思決定を行えるようなデータ分析基盤を実現できます。

マンガでわかるSnowflake
データクラウド:データの力を結集し、ビジネスを変革する

Snowflakeの主な特長

では、Snowflakeにはどのような特長があるのでしょうか。以下で、主な3つの特長について説明します。

クラウドベース向けに構築されたアーキテクチャ

1つ目の特長は、Snowflakeがオンプレミス時代のアーキテクチャとは一線を画する、クラウドベース向けに構築された独自のアーキテクチャを有することです。

クラウドでの使用を前提に最適化されたSnowflakeのアーキテクチャは、ストレージ、マルチクラスタコンピュート、グローバルサービスという3つの層で構成されています。ここで重要なポイントは、それぞれの層は物理的に切り離されていますが、論理的には統合されているということです。

このアーキテクチャによってクラウドの利点が最大限に活かされ、コンピューティングリソースをほぼ制限なくクラウド上に確保できるようになります。その結果、Snowflakeの拡張性は極めて自由度の高いものとなっています。さらに、一つひとつのワークロードに対してそれぞれ専用のコンピューティングリソースを割り当てることで、従来のデータウェアハウスが抱えていた大量同時実行処理に関する課題をも克服することに成功しました。

マルチクラウドプラットフォームに対応

2つ目の特長は、マルチクラウドプラットフォームに対応していることです。実績のあるAmazon Web Service(AWS)、Microsoft Azure、Google Cloud Platform(GCP)において、マルチアベイラビリティゾーンに対応した信頼性の高いサービスが提供されています。国内では2022年4月時点でAWS東京リージョン、Azure 東日本リージョンが開始されており今後も拡大が予定されています。

またクラウドと地域を跨いだデータの連携が可能で、Snowflakeを利用すれば、1つのパブリッククラウドに障害が発生してシステムやサーバーがダウンしても、別の環境に切り替えて継続運用可能な緊急事態に備えた環境を構築できます。

データ共有とエコシステム

3つ目の特長は、データ共有とエコシステムです。Snowflakeを用いれば、遠く離れた異なる組織と提携して、各組織が保有しているデータを共有する場合でも、クラウド上で安全かつ迅速に実現できます。Snowflakeの利用者は、データをコピーして転送するといった手間や、それに伴うセキュリティ上の悩みから解放され、簡単にデータ活用が可能です。

このデータ共有の仕組みをベースにしたSnowflakeデータマーケットプレイスには世界中のあらゆる業界の企業から500種類以上のデータが提供されています。これを利用することで、協業先や顧客などとのデータ共有にとどまらず、気象データや電力市場のデータなど、自社の経営に大きく関わる情報を入手して活用できます。また、データマーケットプレイスにデータプロバイダーとして参加すれば、自社が保有するデータを他の企業に販売することも可能で、新たなビジネスにつなげることもできます。

また、Snowflakeには他の製品やサービスと接続できるコネクタやアダプタが揃っていて、容易に連携が可能です。InformaticaをはじめとするETL製品、TableauをはじめとするBI製品、DataRobotをはじめとするAI製品などのエコシステムを、既に使用しているツールとSnowflakeを組み合わせて有効に活用できます。

従来型ソリューションの課題

Snowflakeは、従来型ソリューションの課題を克服したクラウドベースのデータウェアハウスですが、従来型ソリューションには、どのような課題があるのでしょうか。

そのような課題の1つとして、データが散逸しているということがあります。複雑すぎるがために、データ、セキュリティ、インフラの管理が必要であり、データがサイロ化されて、データが1つにまとまらずに散らばってしまっているのです。

同じ会社であっても、部署が違えば業務が違い、使用しているシステムやソフトウェアも違ってくるでしょう。そのような状況では、保存されているデータの形式がばらばらになります。このため、そのままでは利用できず、手間をかけてデータ変換をしなければならない事態に陥ります。また、データが散在していたり、データの所在がわからず探すのに苦労したりといった状況は、データ活用の妨げになります。

また、企業活動に伴って扱うデータの量は際限なく増えていきますが、いずれ契約しているデータウェアハウスの容量を超えてしまい、データが入りきらなくなります。そのような場合に、従来型のデータウェアハウスを新規導入したり拡張したりすると、多大な費用がかかります。そこで、費用を抑えるために既存のデータウェアハウスと安価なデータレイクを併用して乗り切ろうとすると、それぞれに対していかにデータを配置するかという点が問題になります。運用には高度な専門知識が必要なため、人材不足でデータの活用が進まないという結果に陥るおそれがあるのです。さらに、データ量が増えるほど処理が遅くなるので、データウェアハウスを管理する部署は、パフォーマンスチューニングやリソース管理に追われることになります。

その上、データ共有のたびに元のデータをコピーしてデータを転送しなければならず、データの量や更新頻度に制約があるという課題もあります。

さらに、従来型のアーキテクチャは複数のワークロードを実行する際に互いに影響を及ぼしあうため、パフォーマンスや同時実行性が限られ、変化するビジネスの要件に合わせた柔軟な拡張に対応できません。

Snowflakeを導入するメリット

それでは、Snowflakeを導入するメリットにはどのようなものがあるのでしょうか。以下で、4つのメリットについて説明します。

高速なデータ処理

1つ目のメリットは、高速なデータ処理です。Snowflakeは、効果的なプルーニングと並列処理によって高速なデータ処理を実現しており、従来型のデータウェアハウスの運用に不可欠だった、パフォーマンスチューニングなどに多大な労力をかけずに済みます。

Snowflakeは、ストレージと完全に切り離されたコンピュート層でクエリを実行します。このコンピュート層を仮想ウェアハウスと呼びますが、MPP(大規模並列処理)コンピュートクラスタを用いてクエリを処理することで、高速データ処理を実現しています。

また、現在稼働中の環境を止めることなく、パフォーマンスを改善することが可能なのです。

インフラをサービス側が管理

2つ目のメリットは、インフラをサービス側が管理してくれることです。

Snowflakeは、SaaS型なので、ハードウェアもソフトウェアも自社で保有する必要はありません。ユーザーは、面倒なインフラの管理を完全にディストリビューターに任せられます。もちろん、ソフトウェアなどのアップデート作業やバックアップ作業も不要です。

したがって、Snowflakeを利用すれば、従来型のデータウェアハウスの運用で膨大な時間を取られていた管理業務が不要となり、分析や集計などの本来やるべき業務に専念できます。

高度なセキュリティ

3つ目のメリットは、高度なセキュリティです。Snowflakeには、ダイナミックデータマスキングやエンドツーエンド暗号化(E2EE)など、多くのセキュリティ機能が組み込まれており、万全なセキュリティ対策環境が備わった状態で利用できます。

なお、ダイナミックデータマスキングとは、セキュリティ担当者が作成したマスキングポリシーを使ってクエリを実行する際に、テーブルやビューの列値を権限のない人から見えないように隠す機能です。また、エンドツーエンド暗号化とは、送信元のデバイスで通信データをすべて暗号化し、データの送信元と送信相手のデバイスでしか復号できないようにする暗号化の方式です。そのため、データ共有の際には、データを渡す側とデータを受け取る側以外はデータを閲覧できず、悪意のある第三者に傍受されても解読が極めて困難です。

これまでに、Snowflake以外のサービスを利用してきた場合には、データ共有の際に相手のクラウド環境に対して書き込みできる権限を付与してもらったり、相手に外部からのアクセス用パスを用意してもらったりといったことが必要で、セキュリティ的に不安があったかもしれません。

しかし、データ共有の際にSnowflakeを用いれば、以上のようなデータのやり取りに関する余計な手間はかかりません。データを渡す側のアップロードも、データを受け取る側のダウンロードもセキュリティが確立されたSnowflakeのプラットフォームを介して、簡単に実行できます。

したがって、Snowflakeを利用すれば、データの保護に気を配ることから解放され、データ分析業務に集中できます。

データ量に応じた料金体系

4つ目のメリットは、データ量に応じた料金体系です。Snowflakeの使用料金は、コンピュートとストレージの料金を実際に使う量に応じて支払うので、無駄がありません。

Snowflakeの料金は、基本的に仮想ウェアハウスの使用料にストレージ使用料を足したものになります。仮想ウェアハウスの使用料は、使用したクラウドコンピューティングのスペックと処理時間によって決まり、必要に応じてクラウドコンピューティングのスペックの調整も可能です。

また、ストレージ使用料については1TBあたりの料金設定となっており、Snowflakeに保存されているデータの容量がどれくらいあるかで料金が変化します。

Snowflakeがサポートする6つのワークロード

Snowflakeの大きな強みは、1つのプラットフォームで、様々なワークロードを支えられるところにあります。ここでは、Snowflakeがサポートする6つのワークロードについて説明します。

データエンジニアリング

1つ目のワークロードは、データエンジニアリングです。データエンジニアリングとは、簡単にいえば、データを利活用したい者がデータを不便なく快適に使えるよう、データを扱いやすい状態に整備する活動を指します。

Snowflakeは、シンプルかつ信頼性の高いデータパイプラインの開発を支援し、データパイプラインの開発者自身が得意とする言語を選んで、データパイプラインを構築できる仕様になっています。

Snowflakeを用いれば、データエンジニアが、インフラストラクチャのために割く時間を節約でき、データ配信業務に力を注げます。

また、Snowflakeを利用すれば、データを挿入・変換することが容易で、大多数のデータ消費者にとって、ライブデータが安全で簡単に取り扱えるものとなります。入手したデータをこれまでよりも速く、インサイトへと変えることが可能になるでしょう。

データレイク

2つ目のワークロードは、データレイクです。データレイクは、データウェアハウスのようにデータを保管しておく倉庫の役割を果たしますが、両者にはその性質上、大きな違いがあります。それはデータレイクに蓄積するデータは、加工を施さない生データであるということです。

Snowflakeのデータレイクは、構造化されたデータだけではなく、非構造化データも含めて取り扱うことができます。効率的にデータを圧縮して格納し、データアクセス、性能、セキュリティについて改良が加えられ、データアクセス、クエリ、データ変換のどれをとっても、速やかに実行できるという強みがあります。

Snowflakeを同時に利用しているユーザーがほぼ無数にいるような状態であっても、独自のクラウド用アーキテクチャによって、処理速度が著しく低下するといった事態を引き起こさずに、Snowflakeが管理するほとんどすべてのデータを利用可能です。

データウェアハウス

3つ目のワークロードは、データウェアハウスです。Snowflakeは、すべてのデータユーザーに対して、どこにいてもすぐに使える1つのデータコピー、つまり信頼できる単一の情報源を提供しています。

Snowflakeのデータウェアハウスは、信頼できる1つの情報源ですべてのデータに対応し、高速性、信頼性、安全性、コスト効率のすべてに優れたアクセスを確保しています。

データサイエンス

4つ目のワークロードは、データサイエンスです。データサイエンティストは、データの検索やデータの準備に、業務全体の約8割に相当する時間を費やしています。Snowflakeを利用すれば、データの検索や準備にかかる時間を大幅に短縮できます。Snowflakeでは、選択した機械学習のフレームワークによってモデリングを行うためのデータの準備を簡単に済ませられます。

また、データサイエンティストが利用する機械学習のライブラリとツールについてもサポートされています。大量のデータへのアクセス、速やかな特徴量エンジニアリング、主要な機械学習ツールへの直接統合などが相乗効果を発揮し、データサイエンスに関わる全体の作業時間を大きく短縮できます。

データエクスチェンジ

5つ目のワークロードは、データエクスチェンジです。Snowflakeを利用したデータエクスチェンジでは、データをわざわざコピー、変換、移動しなくても、そのままデータへの直接アクセスができるようになり、シームレスなデータコラボレーションが提供されます。Snowflakeの大きな特長である「データ共有」でご紹介したように、データのコピー、変換、移動といった作業やそれに伴うセキュリティ対策のためのコストが削減されるとともに、どこからでも詳細なデータに直接、簡単、迅速にアクセスでき、新たなビジネスインサイトの獲得につながります。

データアプリケーション

6つ目のワークロードは、データアプリケーションです。Snowflakeを利用すれば、優れたコスト効率により拡張が可能となり、安定して高速分析ができるデータ集約型アプリケーションの開発が従来よりも簡単に実現できます。Snowflakeクラウドデータは、同時実行性とほぼ無限の拡張性によって、データアプリケーションの開発を効率よく支えます。

Snowflakeの導入事例

Snowflakeには様々な導入事例がありますが、ここでは伊藤忠商事株式会社の導入事例について、紹介します。

伊藤忠商事株式会社は、収益性を重視したデジタルトランスフォーメーションの推進を支える、グループデータ活用基盤を整備するために、データ蓄積や処理を行うための先進的なITツールとしてSnowflakeを選定しました。

Snowflakeを導入したことで、大量のデータが高速並列処理されることにより、データベースの作成や処理時間を80%削減するという効果が得られ、データ活用の効率化に役立つことが実証されました。

(参照元:伊藤忠商事「グループデータ活用基盤整備による収益性重視のDX強化について」

まとめ

Snowflakeは、Snowflake社が提供するクラウドベースのSaaS型データプラットフォームです。ストレージ、マルチクラスタコンピュート、グローバルサービスの3層が物理的に切り離され、かつ論理的に統合されるという独自の革新的なアーキテクチャが採用されています。これにより、クラウドの利点が最大限に活用できるようになり、ほぼ無制限にコンピューティングリソースを拡張できるのです。このアーキテクチャが、Snowflakeを利用するユーザーに様々なメリットをもたらします。Snowflake導入のメリットである、高速なデータ処理、インフラのサービス提供者による管理、高度なセキュリティ、データ量に応じた料金体系などはいずれも魅力的です。また、Snowflakeはデータクラウドを活用することで同時実行性と拡張性において大きな効果を発揮します。高いセキュリティを確保しつつ、構造化データと非構造化データを統合し、幅広いデータやアプリケーションへのアクセス、共有が容易になります。結果、今回ご紹介したようなデータワークロードが実現できるのです。したがって、Snowflakeを導入すれば、データの活用に関連する様々な業務フローの効率化が期待でき、煩雑な業務の時短につながるといえます。加えて、Snowflakeの導入によってデータの利活用が進むため、ビジネス上の意思決定がスピーディーになり、ビジネスチャンスが大きく広がることも期待できるでしょう。

CTA

RECENT POST「DATA SHIFT」の最新記事


DATA SHIFT

データサイエンティストとは?仕事内容や必要な技術、データ活用の課題を紹介

DATA SHIFT

ビッグデータの活用事例とは? ビジネスでの活用のメリットや重要性を解説

DATA SHIFT

ペタバイトってどれくらい? DXやビッグデータの活用にはデータ管理を!

DATA SHIFT

オープンデータとは? 入手方法や利用するメリットも事例を用いて解説

Snowflakeは何がすごい? 特長や導入のメリットを解説
CTA

RECENT POST 最新記事

CTA

RANKING人気記事ランキング


OFFICIAL SUPPORTER