Snowflake データ ガバナンス

SaaS アプリケーションの台頭とデータ処理のクラウドへの移行に伴い、数え切れないほどのデータがこれまでにない速さで到着し、リアルタイムのビジネス上の意思決定が必要になっています。組織がレガシー データ サイロからデータを移行することを決定した場合でも、さまざまなソースからエンドレスの生データをロードする場合でも、クラウドの使用をすでに検討している可能性があります。 データウェアハウス これら 2 つの一般的な問題に対処するための Snowflake など データ統合 ユースケース。

Snowflake データ ガバナンス

Snowflake データ ガバナンス

ただし、非常に多くの異なるソースからのデータは、追跡が困難になる可能性があります。データ ソースの正確性と適切性を確保することは、組織の最優先事項であり、最も重要なことは、セルフ サービスに対するすべてのユーザーの期待に応えることです。ここが データガバナンス 最も影響力があります。

データ ガバナンスには、データの保護と制御、および組織全体の人々がこのデータから抽出された意味のある情報を共有、処理、および社会化できるようにすることが含まれます。組織全体で共有されるデータの整合性、品質、および信頼性を保護します。適切に設計されている場合、メリットを拡大できます データガバナンス戦略 クラウドベースのデータ ウェアハウスに適用されます。

最新のデータ ウェアハウスとしての Snowflake

クラウド データ ウェアハウスとして、Snowflake は、組織のすべてのデータを 1 つの場所に保存して分析するために必要なパフォーマンス、同時実行性、およびシンプルさを提供します。 Snowflake は、レポートとデータ分析のために構造化データを取り込むためのデータ リポジトリを提供します。さまざまな形式の多数のソースから大量の未精製データを受け入れる能力も、IT を多くの IT 意思決定者にとって魅力的なデータ レイク ソリューションにしています。ストレージをコンピューティングから分離できるため 資力のストレージ容量を動的に増やすことができます。 データレイク 計算ノードを考慮せずに、計算クラスターのサイズを柔軟に調整して、必要なときにのみ需要を満たすことができます。

倉庫を越えて湖へ

データ レイクは、分散した異種のデータ サイロに、異種の、場合によっては限定されたデータ セットを格納する代わりの手段として機能します。大量のデータを簡単に保存してアクセスするための単一の統合システムを提供すると同時に、生の (フィルター処理されていない) 組織データへの完全かつ直接的なアクセスを提供する必要があります。これは、ビジネス インテリジェンスの専門家や組織全体の他の多くのユーザーがデータにアクセスできる場所です。 .

最新のデータ ウェアハウスに基づいて構築されたデータ レイクには、次の利点があります。

  • 生データは、事前の解析や 変身.
  • 手動コーディングや手動介入のない、構造化および半構造化データ フロー。
  • 構造化データおよび半構造化データに対するネイティブ SQL および読み取り時のスキーマ クエリを管理します。
  • 必要なだけのコンピューティング パワーのみを展開しながら、大量の生データをコスト効率よく保存します。

データガバナンスの重要性

分析とビジネス インテリジェンスのためにデータを最大限に活用しようとするデータ駆動型の組織にとって、データ ガバナンスは最優先事項であり、Snowflake のようなクラウド データ ウェアハウスを使用することは正しいアプローチです。その結果、適切なデータ ガバナンス戦略を計画せずに、デジタル トランスフォーメーションの課題を受け入れることを熱望している IT リーダーは、すでに確立されているデータ レイクに真っ向から飛び込むという過ちを犯し、データの中で再浮上することになるかもしれません。沼地。

データ ガバナンスとデータ品質がない場合の結果

無数のデータがかつてないほど高速でデータ レイクにあふれているため、ビジネス上の意思決定をリアルタイムで行う必要があります。適切な対策がなければ、あらゆる種類のデータ品質をスケーリングすることはほとんど不可能です。理想的には、データ レイクに入るデータ セットによってデータ レイクが強化される必要がありますが、残念ながらデータ レイクが汚染されることがあります。

その結果、IT チームは、数秒で取り込める新しいデータ ソースを公開するのに数週間かかることがあります。さらに悪いことに、データ消費者が新しいデータが既に利用可能であることを認識していない場合、顧客は、新しく作成されたデータ ソースに独自のルールを追加して、「真実」の独自のバージョンを作成することになります。最終的には、情報を分析して貴重なビジネス上の洞察を提供する代わりに、データの準備と保護に多くの時間が費やされたり無駄になったりします。

トップダウンとボトムアップ

通常、データ ガバナンスは、エンタープライズ データ ウェアハウスを構築する際にトップダウンのアプローチで適用されます。まず、中央データ モデルを定義する必要があります。これには、データ プロフェッショナルの専門知識が必要です。 データスチュワード, データサイエンティスト、データ管理者、データ保護責任者、または データエンジニア、分析のために抽出される前に、セマンティック目的でデータを複数回再構築します。

摂取後、 データカタログ 血統とアクセシビリティを調和させます。このアプローチはデータを一元的に管理するのに効果的ですが、データ ガバナンスに対するこの従来のアプローチはデジタル時代に対応できません。データにアクセスできる人が少なすぎます。

さらに別のアプローチは、ボトムアップ アプローチを通じてデータ レイクのデータ ガバナンスを設計することです。集中化されたモデルと比較して、このより機敏なモデルにはいくつかの利点があります。たとえば、データ ソース、ユース ケース、対象ユーザーを問わずスケーラブルであり、データを取り込むために特定のファイル構造を必要としません。このアプローチは、クラウド インフラストラクチャとビッグ データを使用して、生データのデータ取り込みプロセスを大幅に高速化できます。

通常、データ レイクは、最もデータに精通した人だけが生データにアクセスできるデータ ラボ アプローチから始まります。その後、他のユーザーがデータを使用できるようになる前に、データをビジネス コンテキストに接続するための他のガバナンス層が必要になります。このようなデータ ガバナンス戦略により、データ レイクはすべてのユーザーに信頼できる単一の情報源を一貫して提供できるようになります。

共同データ ガバナンス プロセスのバランスを取る

組織のさまざまな部門からより多くの人々がより多くのデータ ソースを取り込むようになるにつれて、理想的な管理されたデータ レイクは適切なデータ ガバナンス戦略を備えたものになります。前もってガバナンスへのより協調的なアプローチを確立します。これにより、最も知識のあるビジネス ユーザーがコンテンツ プロバイダーおよびキュレーターになることができます。このアプローチでは、最初からチームとしてデータを扱うことが重要です。そうしないと、データ レイクに流れ込むデータの信頼性を検証するために必要な作業量に圧倒される可能性があります。

信頼できるデータの提供

これで、クラウド データ移行の初期段階でデータ ガバナンスが非常に重要である理由と、協力的なデータ ガバナンス戦略を実装することが前進する唯一の方法である理由が理解できました。それでは、Snowflake のデータ レイクに適用するための推奨される手順を見てみましょう。

ステップ 1: 検出とクリーニング

最新のパターン認識、データ プロファイリング、およびデータ品質ツールを使用して、データ セットの品質を確保するために何が必要かを把握して判断します。データが環境に入ったらすぐに適用すれば、データの内容を理解し、より意味のあるものにすることができます。検出およびクリーンアップ フェーズには、次のツールと機能を含める必要があります。

  • データのカタログ化による自動プロファイリング。プロセスを各コア データセットに自動的に適用して体系化します。データのプロファイリングを自動的に行い、メタデータを作成および分類して、データの発見を容易にします。
  • セルフサービスのデータ準備。誰でもデータセットにアクセスして、データをクリーンアップ、正規化、変換、または強化できる可能性があります。
  • データ品質の運用は、データ ソースとデータ ライフ サイクルから始まり、最終的に信頼できるデータをデータ オペレーター、ユーザー、またはアプリケーションが利用できるようにします。
  • セルフサービスによる普及。すべてのプラットフォームとアプリケーションにわたって機能を提供し、開発者からビジネス アナリストまですべての人に提供します。

ステップ 2: 整理して力を与える

信頼できるデータを共有可能な環境に一元化する利点は、実行可能になると、組織の時間とリソースを節約できることです。これは、次の方法で行うことができます。

  • データ カタログを整理し、信頼できる保護されたデータの単一ソースを作成して、記録されたデータとその系統を制御します。この情報には、データがどこから来たのか、誰がアクセスしたのか、さまざまなデータ セット間の関係がどのようなものであったかを含める必要があります。 データ系統 データ ソースから最終的な送信先までのデータ フローの追跡の概要と、GDPR や CCPA などのプライバシー規制への準拠について説明します。
  • 人々がデータを管理、修復、保護できるようにします。データ管理者を指定してデータを維持し、データの検索と使用を簡単かつ魅力的にするためのバックオフィス機能がサポートされています。準備は正確に識別できる人に任せ、機密データはそれを見るべき人に任せます。
  • データの改善に仲間を巻き込みます。データ スチュワードシップなどの共同データ管理機能を使用して、データ品質に全員が関与する調整されたワークフローと管理アクティビティを作成できます。

ステップ 3: 自動化と有効化

検出およびクリーニングされたすべてのデータが一元的に整理され、主要な利害関係者がデータの共同管理に関与してデータの信頼性とコンプライアンスを維持した後、自動化フェーズを実装するときが来ました。データ処理の自動化は、スケーラブルなワークフローを維持するためだけでなく、反復的で退屈で非生産的な手動タスクを排除するためにも不可欠です。

  • 機械学習を使用して修復と重複排除から学習し、データ パイプラインに適用する次善のアクションを提案するか、ユーザーから暗黙の知識を取得して自動化によって大規模に実行します。
  • 自動保護を使用または暗号化します。個人を特定できる情報を閲覧権限のない人に開示することなく、開発、分析などのために組織内でデータを選択的に共有します。
  • 全員を有効にします。利害関係者のコミュニティ向けの使いやすいアプリケーションを活用して、すべての人のためのプラットフォームを構築します。
  • API サービスを使用して、貴重なデータセットをデータ レイクから基幹業務アプリケーションにプルします。データ ガバナンスの取り組みによって作成された信頼できるデータから恩恵を受けるアプリケーションにデータをパイプライン化し、貴重なインテリジェンスを基幹業務アプリケーションにフィードバックします。

必然的に、より多くの組織がデジタル トランスフォーメーション戦略を展開し、クラウド データ統合に移行するにつれて、データ ガバナンスに大きな関心を持つようになります。前述したように、Snowflake は最新のクラウド データ ウェアハウス ソリューションを提供します。このソリューションでは、形式や起源に関係なく、ビッグ データの移行からビッグ データ プロジェクトまで、あらゆるものに対応するデータ レイクを構築できます。これは、信頼できる唯一の情報源からすべてのデータを読み込んでアクセスできることを考えると、大きな利点です。

とはいえ、堅牢なデータ ガバナンス戦略が実施されていない限り、データ レイクで提供される情報が信頼できるという保証はありません。データ ガバナンスは、適切な検出とクレンジング、スチュワードシップ、品質、およびセルフサービスによってのみ真に達成できます。

結論

記事をお読みいただきありがとうございます。この記事が Snowflake データ ガバナンスの理解を深めるのに役立つことを願っています。スノーフレーク データ ガバナンスについて詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得して視覚的に表示できるだけでなく、ユーザーがデータ系統を CSV 形式で提供し、視覚的に表示することもできます。 (2022 年 6 月 21 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す