2022 年の 4 つの最高のオープンソース データ カタログ ツール

根本的に、データドリブンな組織のニーズ データ カタログ ツール. データカタログ 組織のすべてのデータとそのデータに関するコンテキストにアクセスできる単一の環境を作成するのに役立ち、組織が洞察時間を短縮し、高品質のデータ主導のビジネス上の意思決定を迅速に下せるようにします。あなたが探しているなら 最高のオープン ソース データ カタログ ツール、それからあなたは正しい場所に来ました。この投稿では、次のリストをまとめました。 2022 年最高のオープンソース データ カタログ ツール あなたの人生を楽にするために。

最高のオープン ソース データ カタログ ツール

最高のオープン ソース データ カタログ ツール

最高のオープン ソース データ カタログ ツール – 1. Apache Atlas

オープンソースとして メタデータ管理 ツールおよびガバナンス プラットフォームである Apache Atlas は、データ ガバナンス イニシアチブの傘下で Hortonworks によって育成されています。

2015 年に Apache Foundation Incubator に参加し、2017 年にはトップ プログラムに成長しました。Apache Atlas は、メタデータを使用してデータのカタログ化、並べ替え、発見、ガバナンス、コラボレーション。

Apache Atlas の主な機能:

  1. メタデータの分類: Apache Atlas を使用すると、PII、機密データ、およびその他の機密データを自動的に分類できます。データ資産は、複数の分類に関連付けることができます。これらのポリシーは系統を通じても伝播され、派生データが同じ分類およびセキュリティ制御を確実に継承するようにします。
  2. メタデータのタイプとインスタンス: Apache のドキュメントによると、「タイプ」とは、特定のタイプのメタデータ オブジェクトを Atlas に保存してアクセスする方法の定義です。 データスチュワード 技術メタデータとビジネス メタデータを定義します。
  3. 検索と系統: Apache Atlas の直感的な UI により、タイプ、カテゴリ、属性値、またはフリー テキストごとにデータ タイプを定義済みおよび一時的に探索できます。さらに、データ ソースまたは明示的なデータがどのように構築され、どのように進化してきたかの履歴を保持します。
  4. セキュリティとデータ マスキング: Apache Atlas は主にデータ ガバナンス ツールであり、エンティティ インスタンスに対するアクセス制御を設定したり、分類を追加/更新/削除したりするためのメタデータ アクセスのきめ細かなセキュリティを可能にします。

ベスト オープン ソース データ カタログ ツール – 2. Amundsen Lyft

Lyft のエンジニアリング チームによって最初に構築されたオープン ソースのデータ カタログ プラットフォームとして、Amundsen は内部使用のために開始された 1 年後の 2019 年 10 月にソースを公開しました。

Amundsen には寄稿者とユーザーの結束したコミュニティがあり、データの民主化、ガバナンス、およびメタデータ サービスのイニシアチブを促進するために、このオープン ソース データ カタログ ツールの上に構築された他の組織によって広く採用されています。

アムンセンの主な機能:

  1. 信頼できるデータを簡単に見つける: Amundsen は、単純なテキスト検索でさまざまなソースからデータを検索するのに役立ち、検索結果にはオンライン メタデータも表示されます。
  2. 自動化および精選されたメタデータ: データ資産をクリックすると、その詳細な説明と動作がユーザーに表示されます。これらはそれぞれ手動でキュレーションされ、自動生成されます。
  3. 同僚とコンテキストを共有する機能: データ資産の説明を更新できるため、同僚が特定のデータ資産の詳細なコンテキストを探して行ったり来たりする必要がなくなります。
  4. データの使用から学び、理解する: ユーザーは、どのデータ資産が頻繁に使用、所有、またはブックマークされているかを確認できます。また、特定のテーブルで構築されたダッシュボードを見ることで、テーブルに関連する最も一般的なクエリを確認することもできます。

最高のオープン ソース データ カタログ ツール – 3. LinkedIn DataHub

LinkedIn のエンジニアリング チームによって開発されたオープン ソースのメタデータ管理プラットフォームである DataHub は、LinkedIn がデータのカタログ化、発見、可観測性、系統の課題に取り組む 2 番目の試みです。

DataHub の前に、彼らは 2016 年に WhereHows と呼ばれるオープン ソースのデータ ディレクトリ ツールを構築しました。DataHub は 2019 年に発表され、2020 年にソースがオープンになりました。構築できるその他のもの。

DataHub の主な機能:

  1. 自動メタデータ取り込み: LinkedIn DataHub では、メタデータは API または Kafka ストリーム プッシュを介してさまざまなソースから取り込まれます。
  2. 簡単なデータ検出: エンド ユーザーにとって最も高いレベルでは、DataHub フロント エンドは、メタデータの検索、参照、および表示/編集の 3 種類の対話をサポートします。
  3. コンテキストを通じてデータを理解する: DataHub の各データ エンティティには、そのデータ エンティティに関連付けられたすべてのメタデータを表示するプロファイル ページが付属しており、そのデータ コンテキストを開発するために必要な情報をユーザーに提供します。

最高のオープン ソース データ カタログ ツール – 4. Netflix Metacat

2018 年 6 月に Netflix とオープン ソースによって構築された共同メタデータ管理サービスとして、Metacat はデータの並べ替え、発見、処理、および管理を簡素化することを目指しています。

Metacat は主に、Netflix のすべてのデータ資産への単一のアクセス ソースを形成します。 Metacat はオープン ソースのデータ カタログですが、他の人がそのスキーマを効果的に使用して拡張するための重要な一般知識が不足しているようです。

Metacat の主な機能:

  1. データの抽象化と相互運用性: Metacat は共通の抽象化レイヤーを形成し、Netflix の複数のクエリ エンジンを介してデータセットにアクセスできます。
  2. ビジネスおよびユーザー定義のメタデータ ストア: Metacat は、データ資産に関するビジネスおよびユーザー定義のメタデータを文書化するのに役立ち、データ ユーザーにデータ資産に関するより多くの情報と、それらを処理する方法に関する標準的な規則が確実に提供されるようにします。
  3. データの発見: Metacat は、ElasticSearch を介してデータのスキーマ メタデータとビジネス/ユーザー定義のメタデータを提供します。これは、テキスト検索によるクエリに役立ちます。
  4. データ変更の監査と通知: メタデータの変更または更新をキャプチャし、ユーザーの注意が必要なイベントのプッシュ通知を有効にします。

オープン ソース データ カタログ ツールの利点は何ですか?

高品質のデータ カタログを使用すると、すべてのデータを適切に分類できるだけでなく、さまざまなデータ タイプ間のデータ フローを適切に追跡し、改善可能なデータ フローの欠陥を示すことさえできます。

もう 1 つの優れた機能は、機密データも管理できることです。このツールは、機密データが最も多く表示されている場所を特定できるため、漏洩のリスクが軽減されます。ハイエンドのデータ カタログ ツールの中には、データの管理方法を理解し、大量のデータを処理するのに役立つ機械学習機能を提供するものもあります。しかし、なぜオープン ソースのデータ ディレクトリ ツールを使用するのでしょうか。

オープンソースのデータ カタログ ツールは依然として高品質のソフトウェアであり、安価で、無料の場合もありますが、拡張性が高く、多くのカスタマイズ オプションを提供し、制限なく動作するため、大量のデータに最適です。

さらに、企業や組織として、更新を 1 人の開発者に依存することを心配する必要はありません。開発者を雇ってオープンソース ソフトウェアをさらに開発したり、ニーズに合わせて簡単にカスタマイズしたりできるからです。

結論

この記事をお読みいただきありがとうございます。 最高のオープン ソース データ カタログ ツール オープンソース データ カタログ ツールの詳細については、次のサイトをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 7 月 16 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す