データ リネージが重要な理由と、それが非常に困難な理由

変化はリスクをもたらします。これは、私たちのほとんどがキャリアの早い段階で学ぶ、ソフトウェア開発の基本原則の 1 つです。しかし、これらの繰り返しの人生の教訓にもかかわらず、それは常に来ているようです.たとえ小さな変化であっても、変化の影響を予測できないことは、多くの場合、否定的な結果につながります。この問題は、相互接続された IT システムの複雑さが増すにつれて悪化します。小さな変更であっても、変更の上流または下流のシステムにどのように影響するかを予測することはますます困難になっています。 データ系統 これを達成しますが、それをうまく行うのは非常に困難です。

データ系統が重要な理由

データ系統が重要な理由

データリネージが重要な理由

古い世界では、データはサイロに存在し、データ間の接続ポイントは比較的少なかった.しかし今日、データは複数のシステム間で複数の方向に流れています。これらのシステムの多くは外部組織とデータを共有します。つまり、情報は内部システムにも流れます。その結果、1 つの変更が他の複数のシステムに与える影響を無視することが、かつてないほど容易になっています。

たとえば、顧客が迅速かつ簡単に新しいサービス コールを要求できるモバイル アプリケーションを会社が提供しているとします。以前は、顧客が所有する製品のバリエーションを指定できました。設計チームは、CRM データベースに既にその情報があるため、モバイル アプリのユーザーからこの情報を収集する必要はないと判断しました。

あなたの仕事はアプリケーションを簡素化することだったので、その入力フィールドを削除し、CRM から顧客の製品情報を抽出するクエリに置き換えました。理論的には、生成された作業指示書には、フィールド サービス担当者が仕事を完了するために必要なすべての情報が含まれている必要があります。

残念ながら、問題があります。CRM システムの一部の顧客製品レコードに null 値が含まれています。モバイル アプリケーションはこの情報を探していましたが、チケット システムに無効な結果を提供しました。フィールド サービス担当者は、次のサービス コールの準備方法がわかりません。

これは比較的単純なように聞こえます データ品質 問題 – 誰かが CRM データをもっと徹底的にレビューしていれば、予見できたかもしれない問題です。ただし、CRM データベースの null 値が後で導入された場合、それでも問題は解決しない可能性があります。たとえば、新しく買収した会社の顧客データを CRM システムに組み込む場合、それらの新しいレコードに関連付けられた製品情報がない可能性があります。

これらの問題は予測が難しく、すぐには明らかにならない場合があります。マーケティング チームが顧客セグメンテーションの基準を再定義することを決定したときに何が起こるか想像してみてください。顧客カテゴリを指定するために新しいデータ フィールドが追加され、すべての顧客値が入力されます。古いフィールドは推奨されません。

しかし、マーケティング部門は知らないうちに、同社の経営陣はまだ古いデータを見ていました。彼らが使用するダッシュボードは、廃止されたフィールドのデータに依存します。毎日新しい顧客が追加されていますが、廃止されたフィールドに値を入力する人は誰もいません。その結果、経営陣は偏ったデータを見ています。突然、トップ マネジメントは、組織の他の部分とは大きく異なる KPI を追跡するようになります。さらに悪いことに、問題が発生してから数週間または数か月後まで、誰も問題の存在に気付きませんでした。

次に、同様のシナリオを想像してみてください。ただし、ソース システムは、エグゼクティブ ダッシュボードにデータを入力する代わりに、データを AI アルゴリズムにフィードし、e コマース サイトで顧客のレコメンデーションを促進します。 AI が欠陥のあるデータでトレーニングされた場合、またはデータが何らかの形で大幅に変更された場合、テクノロジーの有効性に大きな影響を与える可能性があります。この場合、顧客のレコメンデーション エンジンが歪められます。

データ系統の課題への対処

データ系統ツール 潜在的な上流および下流への影響の完全なロードマップを提供することにより、変更の影響を理解するための体系的なアプローチを提供します。

これは、リスク削減とコスト管理に相当します。変更が他のシステムにどのように影響するかを予測できれば、前述の問題を回避できます。これにより、無駄な労力が減り、市場投入までの時間が短縮され、コストが削減されます。開発プロセスの早い段階で問題が特定されれば、問題はより迅速かつ安価に解決されるという原則は、誰もが知っていることです。データ系統は重要なミッシング リンクを提供し、QA に到達する前に問題を特定できます。

するメリットもあります データガバナンス そしてコンプライアンス。欧州連合が 2016 年に一般データ保護規則 (GDPR) を可決したとき、個人を特定できる情報 (PII) を含むシステムに一連の新しい要件を課しました。顧客がデータの削除を依頼した場合、法的にはその依頼に従う義務があります。しかし、この変化の上流と下流で何が起こるのでしょうか?それは何かを壊しますか?それとも、顧客の PII の一部がシステムの別の場所に残り、法律を遵守できなくなるのでしょうか?

データ系統は、上流と下流の影響を検出するプロセスを自動化することで、これらの問題に対処します。変更の原因とデータがどのように現在の状態に達したかを判断するのに役立つ明確な監査可能性を提供します。

列レベルのデータ系列は、SQL クエリを解析して何がどのように変更されたかを正確に特定する必要があるため、特に困難です。これは、データベース ログを活用することを意味します。データベースは特に難しい場合があります。各 SQL ダイアレクトは時間の経過とともに進化するため、 データ系統ツール これらの変化に対応するために進化する必要があります。

相互接続されたシステムがその範囲をさらに拡大し、情報の流れが加速するにつれて、列レベルのデータ系統はさらに重要になります。今日では、時間、労力、お金を節約できる非常に便利なツールです。まもなく、データリネージが不可欠になります。

結論

この記事をお読みいただきありがとうございます。この記事を読んで、データ リネージが重要な理由と、それが非常に困難な理由について理解を深めていただければ幸いです。データ リネージについて詳しく知りたい場合は、次のサイトをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

現在市場で入手可能な最高のデータ系統ツールの 1 つとして、Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的な表示を実行できるだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 7 月 23 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す