データ系統について知っておくべきこと
とは データ系統?データ系統の特徴は何ですか?データリネージュはどのような用途に使用されますか?データ系統収集の方法は何ですか?上記の質問に対する答えを探しているなら、あなたは正しい場所に来ました.この記事では、について詳しく説明します データ系統について知っておくべきことすべて.
データ系統について知っておくべきことすべて – データ系統とは?
データの生成、処理と統合、流通、そして最終的な終焉の全プロセスにおいて、データ間の関係が自然に形成されます。このデータ間の関係は、データ系統関係と呼ばれる人間社会における同様の関係を利用して表現されます。データ系統は、 メタデータ.
データソースから現在のテーブルまでのテーブルとフィールドの系統パス、系統フィールド間の関係が満たされているかどうか、懸念のデータの一貫性、およびテーブル設計の合理性を分析するために使用できます。アップストリーム データの変更がダウンストリーム データに与える影響を分析し、ダウンストリーム データに変更が発生した場合にアップストリームの問題の原因を追跡するために使用できます。
データリネージについて知っておくべきこと - データリネージの特徴
- 帰属: 一般的に、特定のデータは特定の組織または個人に属し、データには帰属があります。
- マルチソース: 同じデータが複数のソースを持つことができます。複数のデータを処理することで1つのデータを生成することができ、この処理プロセスは複数回行うことができます。
- トレーサビリティ: データの系統関係は、データのライフ サイクルを反映し、データの生成から消滅までのプロセス全体をトレーサビリティとともに反映します。
- 階層的: データ系列の関係は階層的です。データの分類、誘導、要約などのデータの記述情報が新しいデータを形成し、さまざまな程度の記述情報がデータのレベルを形成します。
データリネージについて知っておくべきことすべて - データリネージの使用
- データのトレーサビリティ: データ リネージの関係は、データの内外を反映しており、データのソースを追跡し、データ処理プロセスを追跡するのに役立ちます。データが異常な場合、異常の原因を追跡し、リスクを適切なレベルに制御する必要があります。特に企業の発展に伴い、多くのデータソースとさまざまなレベルの品質があり、必然的にデータ結果に影響を与えます.したがって、データのトレーサビリティ機能は非常に価値があります。
- 影響分析: データ アプリケーションの増加に伴い、データ フロー チェーンはますます長くなります。ソースのコア ビジネスの変更については、下流の分析アプリケーションを同期させる必要があります。影響分析を行わないと、各データサービスに異常なアクセスが発生します。これは、多くの場合、影響評価を促進するための開発部門の中心的な要件です。
- データの価値: データの価値をどのように測定するかは非常に難しい問題です。データの価値を評価するには、根拠が必要です。データ系列は、評価を容易にするためにいくつかの側面で参照データを提供します。 データオーディエンス: データの要求者が多いほど、データの価値が高くなります。
マグニチュードを更新:更新データ量が多いほど、データの値が大きくなります。
更新頻度: 更新頻度が高いほど、データの価値が高くなります。 - 品質評価: これは、 データ分析 アプリケーション、および最終結果データの品質を制御する必要があります。データの問題が見つかった場合は、さらにデータソースを追跡し、品質の問題の原因を分析して解決する必要があります。データ系統図から、データ処理プロセスを簡単に取得でき、考えられる品質問題を分析できます。
- ライフ サイクル: データ系統を通じて、データのライフ サイクル全体を直感的に取得できます。価値の低いデータについては、階層化、アーカイブ、または破棄を検討してください。
- コンプライアンス要件: これは、多くの場合、上級管理職が必要とします。規制遵守のためには、データ フローのすべてのポイントとソースが、規制が必要な重要なポイントです。したがって、データ間の関係を包括的に理解する必要があります。
- セキュリティ管理: これは多くの場合、データがどのように使用されているかを理解する必要があるセキュリティ コンプライアンスですか?聴衆は誰ですか?これらはすべてデータ系統から入手できます。これらは、パーミッション管理 (テーブル レベル、フィールド レベルの承認) の基盤も提供するため、より高いレベルからのデータ セキュリティが保証されます。メタデータ内のセキュリティ識別子 (たとえば、どのデータを減感する必要があるかなど) と組み合わせて、ドメイン全体のセキュリティ管理と制御を実行できます。
- アーキテクチャ設計: データ系統は、データ処理の観点からデータを理解する可能性を提供します。一部のシナリオでは、これは完全に理にかなっています。たとえば、特定の古いプロジェクトが終了し、新しいプロジェクトを引き継ぐ必要がある場合、データ フロー マッピング テーブルがないと、整理に多くの時間がかかり、移行の完全性と正確性を確保することが困難になります。 .
- データ資産: 会社の経営陣にとって、全体的なデータ フローは、データ系統によって理解できます。これは、企業のデータ資産戦略の策定に非常に役立ちます。
- 研究開発ニーズ: データ研究開発担当者にとって、データ系統があれば、データ処理ロジックを見つけて理解し、問題を解決するのに便利です。
データ系統について知っておくべきことすべて - データ系統収集の方法
- 自動解析: 現在、自動解析が主な収集方法です。具体的な方法は、SQL ステートメント、ストアド プロシージャ、ETL プロシージャ、およびその他のファイルを解析することです。複雑なコードとアプリケーション環境などの理由により、国際メーカーの経験によると、自動分析は 70-95% の企業データをカバーできますが、現在 100% を達成することは不可能です。
- システム追跡: つまり、データ処理フローのプロセスにおいて、データ処理プログラムはデータ系統情報の送信を担当します。たとえば、注釈セクションで系統などの説明を追加します。このアプローチの利点は、収集が正確で、タイムリーで、きめの細かいサポートであることです。もちろん、不利な点は邪魔になることです。ただし、企業が統合処理プラットフォームを採用している場合は、この方法を強くお勧めします。
- 機械学習: この方法は、データ セット間の依存関係に基づいてデータの類似性を計算します。この方法のメリットはツールや業務に依存しないこと、デメリットは正解率を人手で確認する必要があることです。
- 手動収集: 最後の 1 つは、R&D によってデータ系統を手動で整理する「ユニバーサル」な方法です。
データリネージについて知っておくべきことすべて - データリネージの適用
データ リネージの機能に基づいて、次のアプリケーションが一般的に使用されます。
- テーブル/フィールドを指定して、その前方マルチレベル オブジェクトをトレースします。
- テーブル/フィールドを指定して、後方のマルチレベル オブジェクトを関連付けます。
- 単一のオブジェクトに限定されず、より大きなスケール (たとえば、プロジェクト内など) から全体的なデータ フローを理解できます。これは、ホット オブジェクトの分析、データ クリーニングなどに適しています。
- つまり、「操作」の観点から、その前後の操作を分析します。これは、トラブルシューティング、品質分析などに役立ちます。
- 私たちの通常の血統の感覚に加えて、より一般化された血統があります。オブジェクト間のデータ レベルの関係だけでなく、参照レベルの関係、つまりテーブル、ビュー、モデル、レポート、ジョブなどを含むがこれらに限定されないオブジェクト間の関連する使用もあります。これは、データの価値評価、データ資産管理などに意味があります。
- 従来のデータ探索では、多くの場合、データ階層の定義に従って完了します。データ系統がある場合は、別の探索方法、つまり、データ処理ロジックに従って段階的に探索する方法が提供されます。
結論
この記事をお読みいただきありがとうございます。お役に立てば幸いです。データ リネージについて詳しく知りたい場合は、次のサイトをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。
その一つとして 一番 データ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得して視覚的に表示できるだけでなく、ユーザーがデータ系統を CSV 形式で提供して視覚的に表示することもできます。 (Ryan によって 2022 年 8 月 29 日に公開されました。)
3 コメント
コメントを残す
これを読んで楽しんでいる場合は、以下の他の記事をご覧ください。
[…] 現在市場で入手可能なツールである Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的に表示するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、実行できる […]
[…] 現在市場で入手可能なツールである Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的に表示するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、実行できる […]
[…] 記事をお読みいただきありがとうございます。データ系統について知りたい場合は、Gudu SQLFlow にアクセスして詳細を確認することをお勧めします。最高のデータの 1 つとして […]