2022 年の 7 つの最高のオープンソース データ ガバナンス ツール
良いオープンソースを見つける データ ガバナンス ツール 多くの理由で困難になる可能性があります。まず第一に、何かを決める上での最大のハードルは、 データガバナンス 標準化されたアプローチの欠如です。目標が明確に定義されていません。さらに、ほとんどのオープン ソース ツールのデータ ガバナンス機能は不明です。ドキュメント ページと GitHub リポジトリを精査して、特定のツールが特定のユース ケースに適しているかどうかを判断する必要があります。
さらに、ほとんどのオープン ソース ツールのデータ ガバナンス機能は不明であるため、ドキュメント ページと GitHub リポジトリを精査して、特定のツールが特定のユース ケースに適しているかどうかを判断する必要があります。評価プロセスを簡素化するために、2022 年に最適なオープンソース データ ガバナンス ツールのリストをまとめました。
![最高のオープンソース データ ガバナンス ツール](https://www.gudusoft.com/wp-content/uploads/2022/07/Best_Open_Source_Data_Governance_Tools.png)
最高のオープンソース データ ガバナンス ツール
最高のオープンソース データ ガバナンス ツール – 1. アムンセン
Amundsen はもともと Lyft で構築され、現在は LF AI & Data Foundation によってホストおよび維持されています。データ ガバナンスに関しては、主にデータ セキュリティと、データのプライバシーと主権に関する法律の遵守に対応しています。アイデアは、メタデータ層ですべてのデータにタグを付けて分類することです。
Amundsen を使用すると、メタデータを検索して、誰がデータを使用しているか、どのくらいの頻度でデータを使用しているかを知ることができます。これらのデータ アクセス パターンを見ることでデータの感覚をつかむことができますが、このアプローチはより反応的です。より積極的なアプローチでは、チーム、役割、個人、システムなどのデータ アクセス ポリシーに基づいて、人々がデータにアクセスできないように、きめの細かいアクセス制御が必要です。
アムンセンには役割ベースのアクセス制御である RBAC はまだありませんが、メタデータのタグ付けや分類など、重要なデータ ガバナンス機能がいくつかあります。
デフォルトの Neo4J バックエンドで利用できるデータ ガバナンス機能が限られているため、Amundsen は Apache Atlas のサポートを追加することにしました。 Apache Atlas は最も成熟した メタデータ管理 プラットフォーム、さまざまなシステムで多くの機能が試され、テストされており、データのカタログ化とガバナンス ソリューションに信頼性をもたらしています。アムンセンは、 データ系統 およびラベル/バッジの伝播 (系統を使用)。
Neo4j または Atlas バックエンドは、通常、ほとんどの企業に適しています。一部の人々は、データのカタログ化およびガバナンス ソリューションからより高度な機能を求めています。
最高のオープンソース データ ガバナンス ツール – 2. DataHub
LinkedIn が DataHub を作成したのは、WhereHows がメタデータの検索および発見ツールに対する需要の高まりに対する実行可能なソリューションではなくなったためです。 DataHub の前に、LinkedIn は、WhereHows と組み合わせて他のツールを使用して、いくつかのデータ ガバナンス機能を追加していました。
DataHub を使用すると、メタデータに対するきめ細かいアクセス制御を行うことができます。アクセスは、Web UI および GraphQL API から宣言できるポリシーによって駆動されます。 DataHub の戦略は、プラットフォームとメタデータの 2 つのレベルで適用されます。プラットフォーム ポリシーを使用すると、DataHub のユーザー権限を制御できます。たとえば、ユーザーが表示および使用できる機能とその範囲を制御できます。
これらのポリシーは、個々のユーザーまたはグループに適用できます。一方、メタデータ ポリシーを使用すると、さまざまなメタデータ エンティティ、チャート、データ ソース、ダッシュボードなどにアクセスできるユーザーと、それらに対して実行できるアクションを制御できます。ただし、DataHub では現在、読み取り権限を制御することはできません。
他のいくつかの機能は DataHub ロードマップの一部ですが、明確に定義されたタイムラインはまだありません。主要なデータ ガバナンス機能の 1 つは、エンティティと側面 (PDL レコード) に対する役割ベースのアクセス制御である RBAC です。 RBAC は、メタデータに対するより細かいアクセス制御を提供するだけでなく、より優れたラベル管理、データ プレビュー アクセス制御などにも役立ちます。
ガバナンス/プライバシーに関して: DataHub は、データ セット レベルの分類、管理されたデータ移動、自動データ削除、データ エクスポートなどをサポートします。同社は、ロードマップの一部として、一部のコンプライアンス機能をオープンソース化する予定です。
最高のオープンソース データ ガバナンス ツール – 3. Apache Atlas
データ ガバナンス機能を統合した最初のオープン ソース データ カタログの 1 つである Apache Atlas プロジェクトは、Hadoop エコシステム専用に構築されたことは言うまでもなく、開発サイクルがやや遅かったです。 Hive と統合されたあらゆるもので動作します。
Apache Atlas は特に分類に優れており、データの機密性、有効期限、品質のカテゴリをその場で作成できます。これにより、Apache Atlas のもう 1 つの一般的な機能であるデータ リネージにたどり着きます。 Atlas は真のデータ リネージュを実装しています。つまり、リネージュは運用可能です。
リネージ データを使用することで、Apache Atlas はメタデータ プロパティをリネージ階層内のエンティティに伝達できます。これは、他のデータ ガバナンス ツールには見られない機能です。
Apache Atlas には、多くの DE データ プライバシーおよびセキュリティ機能もあります。たとえば、エンティティとカテゴリに対するきめ細かいアクセス制御があり、データの承認とマスキングのために Apache Ranger とうまく連携します。これらの機能を連携させると、効果的なデータ プライバシーおよびセキュリティ ネットワークが形成され、データをシールドしたり、PII や機密データなどとして分類したりできます。特に、PII や機密データにアクセスできるユーザーを制御するフレームワークも提供します。
最高のオープンソース データ ガバナンス ツール – 4. Magda
CSIRO (オーストラリア連邦科学産業研究機構) のデータ サイエンス部門である Data61 によって開発された MAGDA は、Making Australian Government Data Available の頭字語です。 CSIRO は Magda をデプロイして、オーストラリアの連邦および州政府からの 70,000 以上のデータセットを含むオープン データ ポータルを作成し、他の人が使用できるようにプロジェクトをオープンソース化しました。
Magda の最も豊富で最も成熟した機能は引き続き検索と発見ですが、データ セット トピックのタグ付けと定義に対する強力なサポートも提供します。さらに、Magda には、スプレッドシートやインタラクティブなグラフなど、組み込みのデータ プレビュー オプションがあります。 Amundsen などの他のツールは、Superset と統合する必要があります。 1 つの注意点: データ プレビュー用のスーパーセットなどのツールと統合すると、よりスケーラブルになります。
Magda は現在 RBAC (役割ベースのアクセス制御) をサポートしていませんが、アクセスを厳密に制御できる機能をサポートしています。 資力 マグダに飲み込まれた。 Magda は Kubernetes を使用して、クラウドから独立した状態を維持しています。オープン ポリシー ブローカー標準を使用してアクセス ポリシーを管理します。これにより、役割ベース、属性ベースなど、さまざまなタイプのアクセス制御が容易になります。
最高のオープンソース データ ガバナンス ツール – 5. オープン メタデータ
2021年8月発表、 メタデータを開く スキーマ ファーストのアプローチを使用してメタデータを標準化するための仕様を定義します。これは、一元化されたメタデータ ストアと、データ スタックで一般的なコネクタをサポートする取り込みフレームワークで構成されます。
オープン メタデータは、タグ付けに異なるアプローチを採用しているため、データ所有者にデータ セットのタグを付けることができます。また、重要性に基づいてデータ セットを複数のレイヤーにタグ付けすることもできます。オープン メタデータは、すべてのメタデータ バージョン管理も実装しています。つまり、データベース エンティティ (テーブル、ビュー、モード)、タグ、データ セットの所有権、詳細情報、およびビジネス語彙に関連するバージョン管理のためのすべてのメタデータ、変更に関するすべての情報、誰が変更をいつ変更するかなど。
最高のオープンソース データ ガバナンス ツール – 6.Egeria
2019 年に開始され、Linux Foundation の AI およびデータ部門によって維持されている Egeria は、ツールとプラットフォーム間でベンダー中立の方法でメタデータを簡単に交換できるように設計されています。他のツールは SDKS と API を介してこれを行いますが、それらの機能は限られていますが、Egeria はプラットフォームの独立性、拡張性の容易さ、およびデータのアクセシビリティの原則に基づいて構築されているため、これを適切に実行します。
これまで見てきた他のすべてのツールは、主にユーザーの観点からメタデータ管理とガバナンスの問題に対処していますが、Egeria はユーザーとシステムの問題を解決しようとし、さまざまなデータ ツールとうまく連携します。
Egeria では、ガバナンス リージョン、有効期限、メタデータのアーカイブ、メタデータの来歴などを通じて、メタデータを非常にきめ細かく制御できます。その一部は Egeria に固有のものです。また、800 を超える定義済みの メタデータの種類.ビジネス ニーズに基づいて独自のタイプを定義することもできます。つまり、Egeria はビジネス ニーズに適応するのに十分な柔軟性を備えています。
最高のオープンソース データ ガバナンス ツール – 7. Truedat
最後に、おそらく唯一の成熟した TrueDat オープンソースのデータ ガバナンス ツール は、データ ソリューション プロバイダーとしての市場のニーズを理解し、データ ガバナンス スペースのギャップを見つけた後、BlueTab (現在の IBM) によって作成されました。
TrueDat には、上記の他のツールと重複する一連の機能があります。 データカタログ、検索エンジン、データ系統機能など。それでも、最も人気のある機能は、 ビジネス用語 データ管理、データ所有権管理、分類などに重点を置いたきめ細かい制御により、チーム間でデータを共有する機能。
このリストで TrueDat を完全に独自のものにする機能は他にもあります。そのうちの 1 つは、Snowflake データ共有に似たデータ共有機能で、チームがより効果的に共有およびコラボレーションすることを容易にします。さらに、高度なセキュリティとデータの制御を確保するために、サブスクリプションと通知機能を使用して変更イベントを監査証跡に記録し、リアルタイムで監視できます。
結論
私たちの記事をお読みいただきありがとうございます。最高のオープンソース データ ガバナンス ツールを探しているときに、この記事が役立つことを願っています。オープンソース データ ガバナンス ツールの詳細については、こちらをご覧ください。 Gudu SQLFlow 詳細については。
その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的に表示するだけでなく、ユーザーが以下を提供できるようにします。 データ系統 CSV形式でビジュアル表示を行います。 (2022 年 7 月 16 日に Ryan により公開)
これを読んで楽しんでいる場合は、以下の他の記事をご覧ください。