メタデータアーキテクチャの進化

メタデータ管理 の基礎であり、源である データガバナンス システム。技術開発のさまざまな段階で、エンタープライズデータガバナンスにおけるそのステータスと役割は大きく異なります。今日、データにはマルチソース、異質性、価値の相違という特徴があり、これらの特徴はデータの狂った成長の過程で加速され、増幅されます。さらに、企業のコンピューティング能力が一般的に大幅に向上した後、より大きな価値を発揮するために、より深い方法でデータをマイニングすることが強く期待されています。

エンタープライズデータのサポートチームとして、日常生活で最も多く耳にする質問は、「正しいデータセットを取得する方法」です。高度にスケーラブルなデータストレージやリアルタイムコンピューティングなどを構築してきましたが、開発と分析に適したデータセットを見つけるのにチームがまだ時間を浪費していることに気付きました。つまり、データ資産の管理がまだ不足しています。実際、上記の問題に対するオープンソースソリューション、つまりデータ検出ツールとメタデータ管理ツールを提供している企業は数多くあります。

ただし、さまざまな段階のさまざまな企業のビジネスおよび技術開発のニーズによって制限されるため、企業が関連する管理プラットフォームを構築するための機能、アプリケーション、および焦点の方向性の選択は、しばしば大きく異なります。この記事は、アーキテクチャの進化を紹介することを目的としています メタデータ管理ツール.

簡単に言うと、メタデータ管理とは、メタデータを使用してデータ資産を効率的に編成および管理することです。また、データプロフェッショナルがメタデータを収集、整理、アクセス、強化し、データマップ、データ仕様、コスト管理、品質検査、セキュリティ監査などの上位層アプリケーションをサポートするのにも役立ちます。

30 年前、データ資産は Oracle データベース内の単なるテーブルであった可能性があります。しかし、現代の企業では、当惑するほどさまざまな種類のデータ資産があります。これは、リレーショナルデータベーステーブル、非リレーショナルデータベース内のオブジェクト、リアルタイムストリーミングデータの一部、インジケータ、ポートレート、または BI ツールのダイヤルまたはパネルである場合があります。

最新のメタデータ管理システムは、すべてのタイプのデータ資産をカバーし、データワーカーが関連するデータ資産をより有効に活用できるようにする必要があります。したがって、今日適用可能なメタデータ管理システムのコア機能は次のとおりです。

検索と発見: データテーブル、フィールド、タグ、使用情報;
アクセス制御: アクセス制御グループ、ユーザー、ポリシー。
データ系統: パイプラインの実行、クエリ;
コンプライアンス: データのプライバシー/コンプライアンスの注釈タイプの分類。
データ管理: データソース構成、取り込み構成、保持構成、データパージポリシー。
AI の解釈可能性、再現性: 機能の定義、モデルの定義、トレーニングの実行、問題の記述。
データ操作: パイプラインの実行、処理されたデータパーティション、データ統計。
データ品質: データ品質ルール定義、ルール実行結果、データ統計。

メタデータアーキテクチャの進化:

の初代 メタデータアーキテクチャ 一般的に抽出に基づいています。メタデータは、データソース (Hive、Kafka など) に接続してクエリを実行することによって取得され、外部ストレージとクエリサービスのみが必要です。これは通常、クエリ用のプライマリストレージ (通常は MySQL/Postgres)、クエリがリレーショナルデータベースの「再帰クエリ」制限に達したときに検索クエリを提供する検索インデックス (通常は Elasticsearch) に接続する従来のモノリシックフロントエンドです。クエリインデックスとしてグラフデータベース (通常は Neo4j) を使用するようにアップグレードする必要があります。

メタデータアーキテクチャ

このメタデータアーキテクチャの利点は明らかです。アーキテクチャがシンプルで、ストレージと検索エンジンだけですばやく構築でき、高効率で低コストです。しかし、欠点も明らかです。データソースのパフォーマンスにかなりの影響を与え、抽出時間、頻度、および負荷に関する多くの要件があります。さらに、リアルタイム要件がますます高くなるにつれて、このメタデータアーキテクチャはますます適用できなくなりつつあります。

オープンソース製品の Amundsen は第一世代のアーキテクチャを持っていますが、非常に強力な検索ランキングを達成する機能に焦点を当てています。

の 第2世代 メタデータアーキテクチャ サービス分割に基づく 3 層アプリケーションアーキテクチャです。このアーキテクチャは、モノリシックアプリケーションをメタデータサービスから分離します。このサービスは、プッシュメカニズムを使用してメタデータをシステムに書き込むことができる API と、メタデータをプログラムで読み取る必要があるプログラム用のメタデータ読み取り API を提供します。

メタデータアーキテクチャ

このアーキテクチャの利点は、メタデータプロデューサーとメタデータサービスの間にブリッジを構築し、リアルタイムの問題を解決するプッシュメソッドに基づいて実装されることです。欠点は、ログがないことです。何か問題が発生した場合、確実にブートストラップ (再作成) したり、検索およびグラフのインデックスを修正したりすることが困難になる場合があります。第 2 世代のメタデータシステムは、多くの場合、企業のデータ資産の信頼できる検索および発見ポータルとなり、データワーカーの主要なニーズに対応します。Marquez は第 2 世代のメタデータアーキテクチャを採用しています。

の 第 3 世代のメタデータアーキテクチャ は、ログプッシュ + モデル分離に基づく、イベントベースのメタデータ管理アーキテクチャです。ユーザーは、ニーズに応じてさまざまな方法でメタデータデータベースを操作し、拡張メタデータモデルを定義できます。

メタデータアーキテクチャ

その主な利点は次のとおりです。柔軟性、高いスケーラビリティ、低待機時間の検索、メタデータ属性でフルテキストおよびランキング検索を実行する機能、メタデータの関係をサポートするグラフクエリ、およびフルスキャンと分析機能。欠点は、従属コンポーネントが多く、運用と保守のコストが高いことです。第 3 世代のメタデータアーキテクチャの代表的なシステムは、Altas と DataHub です。

今日のメタデータ管理プラットフォームの状況 (非オープンソースを含む) の単純な視覚的表現:

結論

この記事をお読みいただきありがとうございます。この記事が、メタデータアーキテクチャの進化をよりよく理解するのに役立つことを願っています。メタデータについて詳しく知りたい場合は、こちらをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプトファイルを分析し、データ系統を取得して視覚的に表示できるだけでなく、ユーザーがデータ系統を CSV 形式で提供し、視覚的に表示することもできます。 (2022 年 6 月 29 日に Ryan により公開)

メタデータアーキテクチャの進化

メタデータアーキテクチャの進化:

結論

Gudu SQLFlow Live を試す

ビジネス向けマスターデータ管理の上位 6 つのメリット

21 ベストデータマイニングツールとソフトウェア 2022 | Gudu SQLFlow

組織がメタデータを記録および管理する理由

データ系統について知っておくべきこと

データガバナンスの 15 のベストプラクティス | Gudu SQLFlow

AIの今後の発展におけるデータガバナンスの意義

Leave A Comment コメントをキャンセル

メタデータ アーキテクチャの進化 | Gudu SQLFlow

メタデータ アーキテクチャの進化

メタデータ アーキテクチャの進化:

結論

Gudu SQLFlow Live を試す

週刊ニュースレターを購読する

Leave A Comment コメントをキャンセル

Related Posts

メタデータアーキテクチャの進化 | Gudu SQLFlow

メタデータアーキテクチャの進化

メタデータアーキテクチャの進化: