エンタープライズ データに最適なデータ カタログを選択する方法

データカタログ エンタープライズ データ管理戦略の重要な部分になっていますが、適切なデータ カタログを選択することは簡単なことではありません。決定を下す前に、市場に出回っているさまざまなオプションと、何を優先すべきかを理解する必要があります。データカタログは メタデータ管理ツール 企業が大量のデータを見つけて管理するのに役立ちます。データ カタログの背後にある考え方は、メタデータを 1 か所に集中させ、データベース全体のデータの完全なビューを提供することです。

また、特定の各データ ポイントの場所に関する情報も含まれています。サプライヤーを選択する前に、企業は市場とそのニーズと期待を理解する必要があります。この記事は、企業データに最適なデータ カタログを選択するのに役立ちます。

最適なデータカタログを選択するには?

最適なデータカタログを選択するには?

データカタログはなぜ重要なのですか?

Gartner のシニア リサーチ ディレクターである Joe Maguire 氏によると、データ カタログ ツールに対する企業の需要には、主に 3 つのソースがあります。

企業によるデータ カタログの使用の最大の要因は、メタデータ管理がますます困難になっていることです。データ スキーマはより複雑であり、メタデータを手動で収集して記述するにはデータ量が多すぎます。

「アーキテクチャを簡素化するために設計されたテクノロジーでさえ、 データレイク さまざまなデータを格納するための単一のアーキテクチャ コンポーネントを提供するため、複雑になる可能性があります。 メタデータ管理」とマグワイアは言いました。

データ量の増加に直面して、一部の企業はメタデータ管理を拡張していません。

「データ レイクのメタデータを無視することで、データが雑然としていて誰もそれをきれいにすることができないデータ レイクを説明するために、人々は『データの沼地』という用語を造らなければなりませんでした」と Maguire 氏は述べています。

2 つ目の要因は、企業がセルフサービス分析とデータ サイエンスを追求するにつれて、データ ガバナンスの必要性が高まっていることです。これは、データ カタログの需要の増加にもつながります。メタデータはデータ ガバナンスの基盤であり、データ カタログによってメタデータへのアクセスが容易になります。

3 つ目の要因は、この市場がその価値を証明したことです。ベンダーの製品はますます多様化しており、データ ガバナンスとメタデータ管理を必要とする企業を実際に支援することができます。自動メタデータ検出などの機能 データ系統、およびデータ管理アクティビティのサポートにより、データ カタログは企業にとって魅力的なものになります。

データ カタログ カテゴリ

Maguire 氏によると、データ カタログについて議論する場合、最も重要な違いは、エンタープライズ データ カタログと組み込みデータ カタログの違いを理解することです。

「エンタープライズ データ カタログは、さまざまなメタデータ サイロからのメタデータを統合するように設計されていますが、組み込みデータ カタログは、他の製品で利用可能な一連のメタデータ管理機能です」と Maguire 氏は述べています。

エンタープライズ データ カタログのオプションは、DBMS、データ ウェアハウス、または BI プラットフォームです。埋め込まれたデータ カタログは、メタデータ サイロ (エンタープライズ データ カタログが統合しようとするメタデータ サイロ) を作成します。

以下は、最も一般的なデータ カタログです。

  1. スタンドアロン データ カタログ.これらのデータ カタログは、普遍的で独立したビジネス指向であり、データ管理、分析、およびデータ ガバナンスに広く使用できます。このオプションは、複数のユース ケースでデータを分類する必要がある企業に適しています。現在独立したデータ カタログを提供しているベンダーには、Alation、Collibra、Informatica、Data.World などがあります。
  2. カタログ機能を提供するメタデータ管理ツール.最新のデータ カタログは、主に以下を対象としています。 データスチュワードデータアナリスト メタデータ管理タスクを自動化する人。強化されたデータ カタログに関する最新のレポートで、Gartner は、一部のベンダーがメタデータ管理ツールをデータ カタログとしてブランド変更していると警告しています。適切なツールを選択するために、独自の調査を行う必要があります。
  3. データ カタログ機能を備えたデータ レイク サポート ツール.企業がデータ レイクを構築し続けるにつれて、検索可能で再利用可能なデータが必要になります。これにより、ベンダーは自社製品のデータ カタログの側面を強化するようになりました。 Zaloni と Cloudera Navigator の両方がこのカテゴリに分類されます。データレイクの採用に躊躇している企業は、これらのベンダーを検討できます。

ビジネスがエンタープライズ データ カタログまたは埋め込みデータ カタログの選択に落ち着いたら、機能の検索に進むことができます。優れたデータ カタログは、多くの機能を提供する必要があります。

優れたデータ カタログは何を提供する必要がありますか?

企業として、どの製品が自社のデータに最も関連があるかを判断するのは自社のチーム次第です。サプライヤのデータ カタログは特定の特性を共有しており、最初に品質を評価する必要があります。

データカタログの重要な機能は検索機能です。柔軟な検索とフィルター オプションがないと、ユーザーはデータ エンジニアリングや分析の目的でデータセットを見つけることができません。データ カタログは、多数のリンクされたデータ資産からメタデータを収集する必要もあります。また、データのカタログ化に関連する手動タスクを処理するための自動化とデータ インテリジェンスも提供する必要があります。 AI と機械学習は、レコメンデーションでデータを補強できます。

データ カタログは、企業内のデータ アーキテクチャのさまざまなコンポーネントにも接続する必要があります。エンタープライズ データ カタログは、 データウェアハウス メタデータについては、Maguire 氏は述べています。データ カタログは、データ ウェアハウスがデータ ウェアハウス サイロからデータを統合する方法と同様に、メタデータ サイロからメタデータを統合します。

データ カタログのもう 1 つの重要な機能は、DBMS、BI ツール、データ ウェアハウスなどのさまざまなコンポーネントからメタデータを取得するためのコネクタを提供することです。データカタログは、次の 4 つをサポートしています メタデータの種類:

  • データ モデル、ストレージ スキーマ、ファイル レイアウト、および API を説明するテクニカル メタデータ。
  • データに対するさまざまな操作の結果として生じるデータ系統、パフォーマンス、およびログ ファイル出力を記述する操作メタデータ。
  • の 2 種類があります。 ビジネス メタデータ. 1 つは、ビジネス データ語彙の内容など、ビジネスを説明するメタデータです。もう 1 つは、データ スチュワード、データ管理者、セルフサービス アナリストなどのビジネス ロールがデータ資産とどのようにやり取りするかを説明することです。データ スチュワードは特定のデータ資産に対して責任を負います。
  • ソーシャル メタデータは、特定のデータ資産の証明や保証、またはデータ カタログ内のエントリに対するユーザー生成のその他の注釈などの知識を構成します。

データ カタログの一般的なサプライヤー:

市場には多くのエンタープライズ データ カタログと組み込みデータ カタログがあり、これらのオプションには多くの場合、類似した機能や重複する機能があります。以下は、データ カタログ オプションの簡単な比較です。

  1. アレーションデータカタログ。 Alation は、AI を使用して企業内のデータのコンテキストをキャプチャするスタンドアロンのデータ カタログ ツールです。これは、すべての従業員にとって使いやすいオプションと考えられています。
  2. Qlik カタログ。 Qlik のデータ カタログには、生データの変換を支援する自動化されたデータ準備ツールとメタデータ ツールも備わっています。また、ユーザーがデータセットを検索して公開できるデータ マートも備えています。
  3. Cloudera データ カタログ。 Cloudera のデータ カタログを使用すると、ユーザーは自分のデータを検出、ログ、監視できます。同時に、この製品により、ユーザーはアクセスを監査し、機密情報を不正アクセスから保護することができます。
  4. コリブラのカタログ。 このオプションは、ビジネス エンド ユーザーを念頭に置いて構築された別の独立したデータ カタログです。これは、データの検索と理解を容易にする検索可能なリポジトリです。また、管理者が役割と責任を文書化することもできます。
  5. IBM ワトソンのナレッジ カタログ。 これは、AI モデルのガバナンスとデータのためのオープンなスマート データ カタログです。このオプションは、リアルタイムのデータ仮想化サポート、動的データ マスキング、および自動メタデータ生成をユーザーに提供します。
  6. オラクル クラウド インフラストラクチャ。 オラクル製品は、ユーザーが多面的な検索とフィルターを通じてさまざまなソースからデータを検索し、データ資産に関する技術メタデータを収集できるようにする検索と探索のオプションを提供します。

結論

この記事をお読みいただきありがとうございます。企業データに最適なデータ カタログを見つけるのに役立つことを願っています。最適なデータ カタログについて詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得して視覚的に表示できるだけでなく、ユーザーがデータ系統を CSV 形式で提供し、視覚的に表示することもできます。 (2022 年 7 月 2 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す