2022 年に検討すべき 5 つのオープンソース データ リネージ ツール

の本質 データガバナンス 企業がデータポリシーを作成し、人々がそれらのポリシーを遵守できるようにすることを目的としています。これらのポリシーは、データ保護、検証、および使用に関するガイドラインを含む、データ関連のさまざまなプロセスに対応しています。 データスチュワード ビジネス ユーザーからデータ要件を求め、データ ガバナンス評議会のメンバーと協力して、共通のデータ定義について合意する必要があります。 データ品質 測定基準を作成し、関連するポリシーを明確にし、コンプライアンスを測定する方法を開発します。

最高のオープン ソース データ リネージ ツール

最高のオープン ソース データ リネージ ツール

ただし、データ ガバナンス ポリシーの定義とその実装の間の架け橋を構築することは、多くの場合、手ごわい課題です。これらの戦略の目的は、ビジネス ワークフロー全体でデータ資産の品質を制御および監視することですが、重要なデータ品質管理責任を持つデータ スチュワードは、多くの場合、適切なトレーニングを受けていないか、資格を持っていません。これは、 データ系統ツール この記事では、 5 つの最高のオープンソース データ リネージ ツール 2022年の市場で見つけることができます。

最高のオープンソース データ リネージ ツール – 1. Tokenn

トークンの概要:

トークンはクラウド向けに構築されています データ ウェアハウスデータレイクであり、Google BigQuery、AWS Redshift、および Snowflake でホストされているデータベースおよびデータ ウェアハウスから列レベルのデータ系統を取得できるようにするための専用のアプローチを採用しています。さらに、 資力 SparkSQL、AWS Athena、Presto などは開発中です。 Tokenn は、ほとんどのオープン ソース データ カタログおよび ETL フレームワークとうまく連携するため、かなりの統合機能を備えています。

トークン データ リネージュの機能:

Token は少し前にリリースされたもので、最新のデータ エンジニアリングと設計パターンが考慮されています。そのような例の 1 つは、建物に加えて データ系統 DBCAT (データ ディレクトリ) から、Tokern を使用すると、クエリ履歴または ETL スクリプトからデータ系列を構築することもできるため、BI および ETL ツールの統合に最適です。 Tokenn は、データ カタログと系列を PostgreSQL データベースに格納します。ユーザーは、SQL を使用してさらに分析するためにこのデータベースにアクセスしたり、他の視覚化および分析エンジンにフィードしたりできます。

可視化エンジン Kedro-Viz と NetworkX と呼ばれるネットワーク グラフ分析ライブラリは、Tokenn の優れた可視化および分析機能の背後にあります。これらのライブラリは、列レベルの系列データを追跡、視覚化、および分析するのに役立ちます。 Token の SDK または API を使用して系統データを操作することもできます。

最先端のデータ系列機能に加えて、Tokern は PIICatcher を使用して、PII (個人を特定できる情報) と PHI (個人の健康情報) の検出を提供します。組み込みツールは、正規表現を、Spacy や Stanford NER などの PII 検出用のいくつかの標準 NLP ライブラリと組み合わせます。

最高のオープン ソース データ リネージ ツール – 2. Egeria

エゲリア概要:

世界初のオープン ソース メタデータ標準として説明されている Egeria は、データ エンジニアリング ツールをシームレスに統合して、信頼できる一貫したメタデータ ビューを実現する方法を提供します。メタデータのカタログ化と検索に加えて、この標準により、ユーザーはデータ系列の追跡、データ品質チェック、PII 識別などのためのより高度なソリューションを構築できます。

多くのデータ エンジニアリング アーキテクチャには、さまざまなデータ ツール間で回避可能な大量のやり取りが含まれます。 Egeria はこれをやめ、すべてが Egeria を通過するスポーク アンド ホイール モデルを採用しています。このように、ユーザーは 1 つのツールを使用して会話するだけで済みます。

Egeria データ リネージュの機能:

Egeria のデータ系統は、よく知られているオープン スタンダードを利用して、OpenLineage と呼ばれるデータ系統をキャプチャして保存します。 OpenLineage はまた、追跡データの水平および垂直系統を提供することにより、データに対するより深い洞察を提供します。

Egeria は、ソース システムによって発行された Kafka イベントをリッスンして、データ系統情報を取得します。データ系統情報を取得した後、Egeria は、Egeria ができない系統図の照合とリンクを系統管理者に指示します。その後、系統は商業消費に適しています。

Egeria のデータ系列機能は、データの検出と管理、メタデータの来歴などの機能とうまく連携しています。これらの機能と Egeria の系列設計およびアーキテクチャにより、Egeria は魅力的でよく考え抜かれたデータ ガバナンスおよびデータ系列ツールになります。

最高のオープン ソース データ リネージ ツール – 3. Pachyderm

厚皮動物の概要:

先ほど述べた Tokenn と同様に、Pachyderm は別の特殊なデータ リネージ ツールです。クラウド データ ウェアハウスに焦点を当てるのではなく、開発者が言語でフレームワークに依存しない方法で機械学習パイプラインを構築できるようにすることを目的としています。

データ オブジェクトの系列を維持するために、lakeFS や Git などのバージョン管理システムが実装されています。これらのオブジェクトへの変更 (コミットを考えてください) は、イベントの完全で不変の監査証跡を維持するために、Pachyderm によってキャプチャおよび保存されます。監査証跡を使用すると、表示および分析用のデータ リネージ マップを作成でき、デバッグまたはコンプライアンスの理由でいつでもデータとコードを再現できます。

Pachyderm データ系統の機能:

Pachyderm は、シームレスなデータ系統の追跡とデータのバージョン管理を実現するために、PFS (Pachyderm File System) と呼ばれるカスタム ファイル システムで AWS S3 などのオブジェクト ストアを使用する中央リポジトリを使用します。 PFS は、オブジェクト ストア (S3 など) が完全な履歴を持つデータの唯一の真のソースになるのに役立ちます。

Pachyderm はまた、データ ソースに不変性を適用することで、系統イベントとデータ オブジェクトにグローバル ID を割り当てることができます。 Pachyderm を使用すると、不変のデータ系統図を UI で DAG として扱うことができます。これらの機能は両方とも ML パイプを使用する場合に有益であり、結果を入力まで追跡する必要があります。

Pachyderm は、最も広く使用されているデータベース、データ ウェアハウス、およびデータ レイクと統合します。さらに、SQL ベースの取り込みツールを使用して、任意のデータベースから Pachyderm にデータをインポートできます。ただし、Pachyderm には汎用のデータ リネージ ツールとしての制限があります。そのため、Pachyderm の企業顧客のほとんどが MLOps、非構造化データ ETL、および NLP ワークロードを処理するために使用しています。

最高のオープン ソース データ リネージ ツール – 4. OpenLineage

OpenLineage の概要:

OpenLineage は、WeWork がオープンした後、Marquez の開発を引き継いだ DataKin によって設立されました。 DataKin は、2021 年半ばに OpenLineage プロジェクトをサンドボックス プロジェクトとして Linux Foundation に引き渡しました。 OpenLineage は、データの可観測性の分野でユビキタスな OpenTelemetry に強く影響を受け、データ リネージの収集と分析のためのオープン スタンダードを確立することを目指しています。

OpenLineage 機能:

統合は、OpenLineage の設計と使命の中心です。 ETL フレームワーク、データ オーケストレーション エンジン、メタデータ ディレクトリ、データ品質エンジン、およびデータ系統ツールと統合されます。 OpenLineage は JSONSchema を API 定義として使用し、さまざまな言語とフレームワークをサポートします。 Egeria は人気のあるデータ ツールの 1 つであり、そのコア メタデータ レイヤーは OpenLineage 上に構築されています。

Marquez は UI とメタデータ リポジトリを提供し、メタデータ コレクション API は OpenLineage から提供されるため、WeWork の Marquez は OpenLineage のアーキテクチャの中心でもあります。 OpenLineage は、GraphQL および REST API 経由でも公開されます。

OpenLineage は、既存のほとんどのデータ エンジニアリング スタックで簡単に使用でき、データ系統を包括的に収集、追跡、および分析できるように、エキサイティングで価値のある機能を幅広く提供するため、魅力的な選択肢です。

最高のオープン ソース データ リネージ ツール – 5. TrueDat

TrueDat の概要:

完全なデータ ガバナンス ソリューションである TrueDat を使用すると、データを詳細に分類、検索、追跡できます。 TrueDat は、そのデータ リネージ機能により、データのライフ サイクル全体を視覚化するのにも役立ち、時間の経過に伴うデータの移動についての洞察を得ることができます。

TrueDat は 2017 年に BlueTab (IBM 企業) によって構築され、それ以来活発に開発されており、最新バージョンの V4.39 が 2022 年 3 月にリリースされました。

TrueDat データ系統の機能:

TrueDat を使用すると、データ系統を使用してデータベースの変更の影響を分析し、レポートのビジネス ロジックをよりよく理解できます。ポイントインタイムの可視性を使用して、データ オブジェクトの系統を追跡できます。高度な分析のために、リネージ オブジェクトにフィルターを適用して、リネージ ダイアグラムの特定の部分を調べることもできます。 UI に表示されるグラフィック表現に加えて、収集したデータ系統情報を CSV ファイルにダウンロードできます。 TrueDat は一連の優れたデータ ガバナンスとリネージ機能を提供するため、データ リネージの問題を解決する真の候補です。

結論

この記事をお読みいただきありがとうございます。 最高のオープン ソース データ系統ツール.データ リネージについて詳しく知りたい場合は、次のサイトをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 7 月 14 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す