データ リネージの手法、ベスト プラクティス、およびツール

とは データ系統?は何ですか データ系統技術、ベスト プラクティス、およびツールこの記事では、これらの質問に 1 つずつお答えします。

データ リネージは、企業の IT システムを通過するデータの通過を文書化し、データがシステム間でどのように移動するかを示し、プロセスのさまざまな用途に変換します。それは使用しています メタデータ (データに関するデータ) エンド ユーザーとデータ管理の専門家がデータ資産の履歴を追跡し、そのビジネス上の重要性や技術的属性に関する情報を取得できるようにします。

たとえば、データ系列の記録が役立ちます データサイエンティスト、 他の データアナリスト、およびビジネス ユーザーは、使用するデータを理解し、それが自分の情報ニーズに関連していることを確認します。データ系統も重要な役割を果たします データガバナンス、 主人 データ管理、およびコンプライアンス プログラム。これらのイニシアチブでは特に、2 つの重要なデータ ガバナンス手順を簡素化します。 データ品質 問題とデータセットの変更の影響。

データ リネージの手法、ベスト プラクティス、およびツール

データ リネージの手法、ベスト プラクティス、およびツール

データ系列情報は、主にオペレーティング システム (データ処理時) から収集されます。 データ ウェアハウスデータレイク – BI および分析アプリケーション用のデータセットが保存される場所。詳細なドキュメントに加えて、データ フロー ダイアグラムとダイアグラムを作成して、ビジネス プロセスにマッピングされたデータ系列を視覚的に表示できます。リネージュ情報へのエンド ユーザー アクセスを簡素化するために、多くの場合、リネージ情報に組み込まれます。 データカタログには、データ資産とそれらに関連付けられたメタデータが一覧表示されます。

データ系統が重要な理由

データ系統に関する情報は、データの管理と分析の取り組みにとって重要です。リネージュの詳細は、企業がデータを効果的に管理および使用するのに役立ちます。これらの詳細にアクセスできなければ、企業がデータの潜在的なビジネス価値を十分に活用することは困難です。

以下は、 データ リネージが提供するメリット:

より正確で有用な分析。分析チームとビジネス ユーザーに、データがどこから来て、何を意味するかを認識させることで、データ リネージは、BI とデータ サイエンスの使用に必要なデータをより迅速に見つける能力を向上させます。これにより、より優れた分析結果が得られ、データ分析の取り組みにより、ビジネス上の意思決定を促進するための有意義な情報が得られる可能性が高くなります。

より良いデータ ガバナンス。データ リネージは、データを追跡し、ガバナンス プロセスの他の重要な部分を実行するのにも役立ちます。これは、データ ガバナンス マネージャーとチーム メンバーが、データが有効で、クリーンで、一貫性があり、適切に保護、管理、使用されていることを確認するのに役立ちます。

より厳格なデータ セキュリティとプライバシー保護。企業は、データ系列情報を使用して、特に強力なセキュリティを必要とする機密データを特定できます。また、セキュリティおよびデータ プライバシー ポリシーに従ってさまざまなレベルのユーザー アクセスを設定し、企業のリスク管理戦略の一環として潜在的なデータ リスクを評価するためにも使用できます。

規制順守を改善します。データ リネージはより優れたセキュリティ保護を提供し、企業がデータ プライバシー法やその他の規制に確実に準拠するのに役立ちます。また、十分に文書化されたデータ系列により、内部コンプライアンス監査とコンプライアンス レベルのレポートを簡単に実行できます。

データ管理を簡素化します。データ品質の向上に加えて、データリネージは他のさまざまなデータ管理タスクを容易にします。例としては、データ移行の管理、データ サイロの解体、データ セット内のギャップの検出と対処などがあります。

データ系統、データ分類、およびデータの来歴

データ系列は、データ分類とデータ来歴という 2 つのデータ管理プロセスにも密接に関連しています。それらが何であるか、それらがデータ系統とどのように異なり、どのように関連しているかを見てみましょう。

  • データ分類。 これには、主にセキュリティとコンプライアンスの目的で、データをその特性に基づいてさまざまなカテゴリに割り当てることが含まれます。分類は、個人情報、専有情報、機密情報、公開情報など、機密性に従ってデータを分類するために使用されます。そうすることで、より高いレベルのセキュリティとより厳しいアクセス制御を必要とするデータセットを、そうでないデータセットから分離します。データ系列は、データセットの分類に役立つデータセットに関する情報を提供します。
  • データの来歴。 データ系統と同義であると見なされることもあれば、ソース システムやデータがどのように生成されたかなど、データの出所に焦点を絞ったものと見なされることもあります。この場合、データ系統とデータの来歴は連携して機能し、後者はデータの出所とその意味に関する高レベルのドキュメントを提供します。

データ系統とデータ ガバナンス

データ ガバナンスの本質は、企業のデータ ポリシーを作成し、人々がそれらのポリシーを確実に遵守するようにすることです。このようなポリシーは、データ保護、検証、および使用に関する指示を含む意図にまたがることができます。データ ガバナンス マネージャーと データスチュワード ビジネス ユーザーのデータ ニーズを収集し、意思決定データ ガバナンス委員会のメンバーと協力して、共通のデータ定義について合意し、データ品質指標を指定し、ポリシーと関連手順を策定する必要があります。

ただし、データ ガバナンス ポリシーの定義と展開の間にはギャップがあり、このギャップを埋めることは大きな課題です。ここでデータ リネージの出番です。データ ソースとフローを文書化することで、ガバナンス チームはデータがシステム内をどのように移動し、どのように変更および使用されるかを監視できます。リネージュ情報は、適切なデータ セキュリティとアクセス制御を確実に実施し、ガバナンス ポリシーに従ってデータを保存、維持、使用するのに役立ちます。

データ系統は、ガバナンスに関連する特定のタスクを簡素化することもできます。たとえば、システムのどこでデータ エラーが発生したかを特定する方法がないと、データ スチュワードやデータ品質アナリストがエラーを特定して修正することが難しくなる可能性があります。これには次のような結果があります。データの欠陥が発見されない場合、企業は一貫性のない、または不正確な分析結果に悩まされ、悪いビジネス上の意思決定につながる可能性があります。

データ エラーの根本原因の分析では、リネージ レコードによって、データ セットが通過した一連の処理段階が可視化されます。企業は、各段階で品質レベルをチェックして、データ エラーの原因を特定できます。エラーが最初に発見された場所からさかのぼって、データ スチュワードは、データが以前の期待を満たしているか、その時点でエラーが含まれていたかを確認できます。データ ガバナンス プログラムに関与するスタッフは、データが入口では準拠しているが、出口では欠陥のある段階を特定することで、不良データを修正するだけでなく、エラーの根本原因を排除できます。

データ リネージは、影響分析を実行して、ソース データの形式と構造の変化によって引き起こされる問題を把握する場合にも役立ちます。これは、ますます動的になる今日のデータ環境で一般的な問題です。

データが変更されると、下流で意図しない結果が生じる可能性があります。データの作成または収集の時点から作業することで、データ スチュワードはデータ系統のドキュメントに依存して、データの依存関係を追跡し、変更によって影響を受ける処理段階を特定するのに役立ちます。その後、これらの段階を再設計して、変更に対応し、システム間でデータの一貫性を保つことができます。

主要なデータ リネージ テクニック

企業はさまざまな手法を使用して、データ系統情報を収集および記録できます。それらは必ずしも相互に排他的ではなく、アプリケーションの要件とデータ環境の性質に応じて、企業は複数の系列テクノロジを使用する場合があります。利用可能な方法は次のとおりです。

データ リネージの手法、ベスト プラクティス、およびツール

データ リネージの手法、ベスト プラクティス、およびツール

主要なデータ リネージ テクニック – 1. データ タグ。メタデータを調べることで、ラベルをデータセットに適用して、データ系列の目的でデータセットを説明および特徴付けすることができます。タグ付けは、データ スチュワード、他のデータ ガバナンス チーム メンバー、およびエンド ユーザーが手動で行うことも、ソフトウェアによって自動的に行うこともできます。例えば、 データ系統ツール また、データ ガバナンス ソフトウェアに組み込まれているリネージ機能には、多くの場合、ユーザーが実行してデータセットにラベルを付けることができる自動アルゴリズムが含まれています。

主要なデータ リネージ テクニック – 2. パターン ベースのリネージ。このアプローチでは、類似したデータ要素、行、列など、複数のデータセットでパターンを探します。それらの存在は、データセットが相互に関連しており、データフローの一部である可能性があることを示していますが、データ値または属性の違いは、データがあるシステムから別のシステムに移動したときにデータが変換されたことを示しています。 データ変換 データ フローは、データ リネージュ レコードの一部として記録できます。

主要なデータ リネージ テクニック – 3. 解析ベースのリネージ。この場合、データ リネージ ツールは、データ変換ロジック、ランタイム ログ ファイル、データ統合ワークフロー、およびその他のデータ処理コードを解析して、リネージ情報を識別して抽出します。解析は、さまざまなシステムでデータ系統を追跡するためのエンドツーエンドのアプローチを提供し、スキーマベースの系統よりも正確になる可能性がありますが、より複雑になることもあります。

Key Data Lineage Techniques – 4. もう 1 つのアプローチは完全に手動です。ビジネス ユーザー、BI アナリスト、データ サイエンティスト、データ スチュワード、データ統合開発者、およびその他のスタッフにインタビューして、データがシステム内をどのように移動し、使用および変更されるかを理解します。収集された情報は、データ フローと変換をマッピングするために使用できます。おそらく、より自動化された手法を展開する前のデータ系統計画の開始点として使用できます。

データ系統のベスト プラクティス

データ リネージ プロセスを順調に進め、データセットに関する正確で有用な情報を確実に提供するためのベスト プラクティスを次に示します。

  • ビジネス エグゼクティブとユーザーを最初から関与させます。データ ガバナンス プログラムを成功させるには、経営陣のサポートと関与が必要であり、データ リネージにも同じことが当てはまります。上級管理職のサポートへのアクセスは、承認と資金調達の要件です。ビジネス マネージャーと従業員も関与して、データ管理チームがビジネス プロセスでデータがどのように使用されるかを完全に理解し、データ系列情報の関連性と有効性を検証する必要があります。
  • ビジネスおよび技術データの系統を文書化します。ビジネス リネージは、データがどこから来て、どのように流れるか、およびそのビジネス コンテキストに細心の注意を払います。 Technology Lineage は、データ変換、統合、およびパイプラインの詳細と、テーブル、列、およびクエリ レベルの系統ビューの組み合わせを提供します。これら 2 つの情報を収集することで、一方ではビジネス ユーザーと分析チームに有益な情報が提供され、他方ではデータ アーキテクト、データ モデラー、データ品質アナリスト、およびその他の IT プロフェッショナルに有益な情報が提供されます。
  • データ系統を実際のビジネスおよび IT ニーズに関連付けます。データ リネージは学術的な演習であってはなりません。期待されるメリットを生み出すには、より効果的なデータ ガバナンス、データ品質の向上、およびその他のデータ管理のメリットだけでなく、より優れたビジネス上の意思決定と戦略を実現するのに役立つ必要があります。そうしないと、無駄な投資になる可能性があります。
  • データ リネージに対する企業全体のアプローチを展開します。また、特定のデータセットのデータ系列プロセスに焦点を当てることは、それほど有用ではありません。本当に成果を上げるには、系統の取り組みをサポートする単一のメタデータ リポジトリを使用して、企業のすべてのデータを含む包括的な取り組みを行う必要があります。
  • 埋め込まれたデータ系列情報を含むデータ カタログを作成します。関連するデータを見つけて理解することは、多くの場合、BI および分析のユーザーにとって大きな課題です。データ カタログを構築することにより、データ管理チームは利用可能なデータ資産のインベントリを提供できます。これには系統情報も含まれます。

データリネージュツールで何を探すべきですか?

手動でメタデータを収集し、データ系統を文書化するには、多額の投資が必要です。 資力.また、エラーが発生しやすく、大きな問題を引き起こす可能性があります。特に、企業が事業運営を推進するためにデータ分析にますます依存するようになっているためです。したがって、データ ガバナンスをより適切に行うには、データ系統表現を管理し、企業全体で自動的にマッピングするツールを探す必要があります。

購入の可能性について技術的評価プロセスを進めることにした場合は、次のことができるデータ リネージ ツールを探す必要があります。

  • 広範囲のデータ ソースとデータ製品にローカルでアクセスし、そこに含まれるメタデータを調査し、データ ガバナンスのために収集します。これには、ますます人工知能と機械学習アルゴリズムが使用されます。
  • キャプチャされたメタデータを一元化されたリポジトリに集約します。
  • データ型を推測し、参照データの一般的な使用法をさまざまなシステムのデータ要素に一致させます。
  • 集約されたメタデータの簡素化されたプレゼンテーションをエンド ユーザーに提供し、メタデータの説明を検証するためのコラボレーションをサポートします。
  • データが組織のシステムをどのように流れるかのエンド ツー エンドのマッピング。
  • データ系統の視覚的表現を生成します。
  • 系統レコードを照会できるアプリケーションを開発者が構築できるように、API を提供します。
  • データ要素名を処理のさまざまな段階での用途にマップする逆索引を作成します。
  • データ ソース ポイントから下流のターゲットまでのデータの流れをすばやく追跡するための検索機能を提供します。
  • ユーザーは順方向および逆方向のデータ フローを監視できます。

結論

この記事をお読みいただき、ありがとうございます。この記事が、データ リネージの手法、ベスト プラクティス、およびツールについての理解を深めるのに役立つことを願っています。データ リネージの手法とツールについて詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。 Gudu SQLFlow 詳細については。

現在市場で入手可能な最高のデータ系統ツールの 1 つとして、Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的な表示を実行できるだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 8 月 8 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す