データレイク ガバナンス: 利点、課題、および開始方法

成功しました データガバナンス プログラムは、ポリシー、標準、およびプロセスを活用して作成します 高品質のデータ そして、それが組織全体で適切に利用されるようにします。データ ガバナンスは当初、リレーショナル データベースと従来型の構造化データに重点を置いていました。 データ ウェアハウス、しかし、状況は変わりました。ビジネスに正確な分析が必要なデータ レイク環境がある場合は、適切なデプロイも必要です。 データレイク 全体的なガバナンス計画の一部としてのガバナンス。

しかし、データ レイクは、あらゆる分野でさまざまな課題を提示します。 エンタープライズ データ管理、データ ガバナンスを含みます。以下では、主なガバナンスの課題のいくつかと、データレイクを効果的に管理することの利点について説明します。

まず、データ レイクとは何かを定義しましょう。データ レイクとは、多くの場合、さまざまな構造化、非構造化、および半構造化されたデータ タイプを含む、大量の生データを保持するデータ プラットフォームを指します。通常、Hadoop、Spark、およびその他のビッグ データ テクノロジの上に構築されます。

ほとんどのデータ ウェアハウスはリレーショナル テーブルにデータを格納しますが、データ レイクはフラット スキーマを使用します。各データ要素には一意の識別子が割り当てられ、一連のメタデータ タグでマークされます。したがって、データ レイクはデータ ウェアハウスほど構造化されていません。通常、データは元の形式で保持され、データ レイクに読み込まれるときではなく、特定の分析目的のために必要に応じて並べ替え、整理、およびフィルター処理されます。

データレイク ガバナンス

データレイク ガバナンス

データレイクとデータスワンプ:

データ レイクが適切に管理されていないと、湖ではなく沼地になる可能性があります。データは、適切な監視とログ記録なしでプラットフォームにダンプされるため、データ管理およびガバナンス チームがデータ レイクの内容を追跡することが困難になります。これにより、データの品質、一貫性、信頼性、およびアクセシビリティの問題が発生する可能性があります。

結果として、 データサイエンティスト, データエンジニア、および他のエンド ユーザーは、分析アプリケーションに関連するデータを見つけることができない場合があります。さらに悪いことに、データの沼地は分析エラーにつながり、最終的にはビジネス上の意思決定の失敗につながる可能性があります。データ セキュリティとプライバシー保護が適切に適用されず、組織のデータ資産とビジネスの評判が危険にさらされる可能性があります。この沼地の状況を回避するために、企業はデータ レイク環境を管理する必要があります。

データレイク ガバナンスの利点:

効果的なデータ ガバナンスにより、企業はデータ品質を向上させ、ビジネス上の意思決定にデータを最大限に活用できるようになります。これにより、運用の改善、より強力なビジネス戦略、および財務パフォーマンスの向上につながる可能性があります。他のタイプのシステムと同じ原則がガバナンス データ レイクにも適用されます。データ レイク ガバナンスによって提供される具体的なメリットには、次のようなものがあります。

  1. 高度な分析のために関連データへのアクセスを増やします。 適切に管理されたデータ レイクでは、データ サイエンティストやその他の分析チームが、機械学習、予測分析、その他のデータ サイエンス アプリケーションに必要なデータを簡単に見つけることができます。
  2. 分析目的でデータを準備する時間を短縮します。 通常、データ レイク内のデータは未加工の形式で保持され、特定のアプリケーションがそれを必要とすることがわかっているため、規制された環境ではデータ準備プロセスを短縮できます。たとえば、事前にデータをクリーニングすると、後でデータ エラーやその他の問題を修正する時間が短縮されます。
  3. IT およびデータ管理のコストを削減します。 データレイクが制御不能になるのを防ぐことで、必要なデータ処理とストレージ 資力 減らすことができます。また、データの正確性、簡潔さ、および一貫性を向上させることで、全体的なデータ管理のニーズを軽減します。
  4. 機密データのセキュリティと規制順守を改善します。 データ レイクの一般的な使用例は、マーケティングと販売を支援することです。したがって、通常、顧客に関する機密情報が含まれています。データ レイクの強力なガバナンスは、このデータが適切に保護され、悪用されないようにするのに役立ちます。

データレイクガバナンスの課題:

データ ガバナンスの関連データ管理分野には、データ品質、 メタデータ管理、およびデータ セキュリティであり、これらはすべてデータ レイクのガバナンスとその課題に影響を与えます。ここでは、データ レイクのデプロイで発生する 5 つの一般的なデータ ガバナンスの課題を紹介します。

  1. 正しいデータ ソースを特定して維持します。 多くのデータ レイク実装では、ソース メタデータがキャプチャされないか、まったく利用できないため、データ レイク コンテンツの有効性が疑わしいものになっています。たとえば、記録システムまたはデータセットのビジネス所有者がリストされていないか、明らかに冗長なデータがデータ アナリストに問題を引き起こす可能性があります。少なくとも、データ レイク内のすべてのデータのソース メタデータを文書化し、それがどこから来たのかを把握できるようにユーザーが利用できるようにする必要があります。
  2. メタデータ管理の問題。 メタデータは、データセットのコンテンツにコンテキストを提供し、アプリケーションでの理解と使用を容易にする重要な部分です。しかし、多くのデータ レイク展開では、収集されたデータに正しいデータ定義が適用されません。さらに、生データは通常、データ レイクに読み込まれるため、多くの企業では、データを検証したり、組織のデータ標準を適用したりするための手順が整っていません。メタデータが適切に管理されていないため、データ レイク内のデータは分析にはほとんど役に立ちません。
  3. データ ガバナンスとデータ品質には調整が欠けています。 データレイクのガバナンスとデータ品質への取り組みが調整されていないと、データレイクに入力されるデータの品質が低下する可能性があります。データを使用してビジネス上の意思決定を分析および推進すると、結果が不正確になり、データ レイクに対する信頼が失われ、組織全体でデータに対する一般的な不信感が生じる可能性があります。効果的なデータレイクの実装には、 データ品質アナリスト およびエンジニアは、データ ガバナンス チームおよびビジネスと緊密に連携します データスチュワード データ品質ポリシーを適用し、データを分析し、その品質を向上させるために必要な措置を講じます。
  4. データ ガバナンスとデータ セキュリティの間の調整の欠如。 この場合、ガバナンス プロセスに適切に適用されていないデータ セキュリティ基準とポリシーは、プライバシー規制によって保護されている個人データやその他の種類の機密データへのアクセスに問題を引き起こす可能性があります。データ レイクはかなりオープンなデータ ソースになるように設計されていますが、セキュリティとアクセス制御は依然として必要であり、データ ガバナンス チームとデータ セキュリティ チームは、データ レイクの設計と読み込みプロセス、および継続的なデータ ガバナンスの取り組みについて協力する必要があります。
  5. 同じデータ レイクを使用するビジネス ユニット間の競合。 部署が異なれば、同様のデータに対して異なるビジネス ルールが適用される場合があり、その結果、データの不一致を調整して正確な分析を行うことができなくなる可能性があります。エンタープライズ ビジネス用語集を含む、データ ポリシー、標準、手順、および定義のエンタープライズ ビューを備えた堅牢なデータ ガバナンス プログラムを持つことで、複数のビジネス ユニットがデータ レイクを使用するときに発生する問題を軽減できます。企業に複数のデータ レイクがある場合、各データ レイクをデータ レイク ガバナンス プロセスに含め、ビジネス データ スチュワードを割り当てる必要があります。

データレイクの管理を開始するには?

他のタイプのシステムでのデータ ガバナンスと同様に、データ レイク ガバナンスの一般的な最初の手順は次のとおりです。

  1. データ レイクを管理するためのビジネス ケースを文書化します。これには、データ品質の指標や、管理作業のメリットを測定するその他の方法が含まれます。
  2. 経営幹部やビジネス スポンサーを見つけて、ガバナンスの取り組みに対する承認と資金を得ることができます。
  3. データ ガバナンス構造がまだ整っていない場合は、ガバナンス チーム、データ スチュワードシップ、データ ガバナンス委員会 (ビジネス リーダーやその他の関連するデータ所有者で構成される) を含む構造を作成します。
  4. ガバナンス委員会と協力して、データ レイク環境のデータ標準とガバナンス ポリシーを策定します。

もう 1 つの適切な最初のステップは、データ カタログを構築して、エンド ユーザーがデータ レイクに格納されているデータを見つけて理解できるようにすることです。または、他のデータ資産のカタログが既にある場合は、それを拡張してデータ レイクを含めることができます。データ カタログは、メタデータをキャプチャし、ユーザーが必要なデータを見つけるために検索できる使用可能なデータのインベントリを作成します。また、組織のデータ ガバナンス ポリシーに関する情報や、ルールと制限を適用するためのメカニズムをカタログに埋め込むこともできます。

結論として、データ レイクの価値は、データ環境の設計、読み込み、および維持にメタデータ管理、データ品質、およびデータ セキュリティ プロセスだけでなく、強力なデータ ガバナンスを含めることによって大幅に向上させることができます。これらすべての分野で経験豊富な専門家が積極的に関与することも重要です。そうしないと、データ レイクがデータの沼地のようになってしまう可能性があります。

結論

この記事をお読みいただきありがとうございます。この記事が、データ レイク ガバナンスの理解を深めるのに役立つことを願っています。データ レイクのガバナンスについて詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 7 月 3 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す