メタデータとは

メタデータ 構造化された一貫した方法で他のデータを説明するデータであるため、大量のデータを長期間にわたって収集、保存、および分析できます。 データ ウェアハウス ビッグデータを保存するときに、簡単に取得および管理できるようにメタデータが必要です。データ ウェアハウスは、データ ソース全体で標準化され、クリーンで一貫性のある構造化データを使用します。メタデータは、このデータの収集と保存の一貫性を確保するため、ビジネス オーナーと データアナリスト データに簡単にアクセスして洞察を得ることができます。

メタデータとは

メタデータとは

効果的 メタデータの管理 企業がデータ資産をより効率的に管理し、それらを利用できるようにするのに役立つため、信頼性が高く柔軟なビッグデータ「エコシステム」の不可欠な部分です。 データサイエンティスト と他のアナリスト。

メタデータの分類と例:

1. 技術メタデータ

1)。物理的なメタデータ: 物理を説明するメタデータ 資力、サーバー、オペレーティング システム、コンピュータ ルームの場所、その他の情報など。

2)。データ ソース メタデータ: データ ソースを説明するメタデータ。通常は次の 4 種類の情報が含まれます。

  • データソースアドレス (IP、PORT など);
  •  物理トポロジ (例: アクティブ/スタンバイ、役割など);
  • パーミッション (ユーザー名、パスワードなど);
  • ライブラリ名、バージョン、ドメイン名など

3)。ストレージ メタデータ: オブジェクト ストレージを記述するメタデータ。通常は、いくつかの主要な管理属性 (作成者、アプリケーション システム、ビジネス ユニット、ビジネス オーナーなど) を含む「狭い」メタデータでもあります。

  • ライフサイクル (作成時間、DDL 時間、バージョン情報など);
  • ストレージのプロパティ (場所、物理的なサイズなど);
  • データの特性 (例: データの偏り、平均長など);
  • 使用特性 (例: DML、リフレッシュ レートなど);
  • データ構造テーブル/パーティション (名前、タイプ、備考など);
  • 列 (名前、型、長さ、精度など);
  • インデックス (名前、タイプ、フィールドなど);
  • 制約 (型、フィールドなど)。

4)。計算メタデータ: データ計算のプロセスを記述するメタデータは、一般に次の 2 種類の計算に分類できます。ETL) またはデータ処理 (JOB)。各タイプの計算は、制御メタデータ (構成プロパティ、スケジューリング ポリシーなど) とプロセス メタデータ (依存関係、実行ステータス、実行ログなど) によってさらに分類できます。

5)。品質メタデータ: データの品質を説明するメタデータ。通常、 データ品質 一連の品質指標を定義することで反映されます。

6)。運用メタデータ: データが操作にどのように使用されるかを説明するメタデータのクラス。

  • データ生成 (例: 生成時間、ジョブ情報など);
  • テーブル アクセス (例: クエリ、関連付け、集計など)。
  •  テーブルの関連付け (関連付けられたテーブル、関連付けられたフィールド、関連付けられた型、関連付けられたカウントなど)。
  •  フィールド アクセス (クエリ、関連付け、集計、フィルタリングなど)。

7)。運用と保守のメタデータ: 通常、タスク、アラート、および障害を含む、システムの運用および保守レベルを説明するメタデータ。

8)。コスト メタデータ: データの保存と計算のコストを説明するメタデータ。

  • 計算コスト (CPU、MEM など)。
  • ストレージ コスト (スペース、圧縮率など)。

9)。標準メタデータ: データの標準化されたコンテンツを記述するメタデータ。

  • コード管理 (例: 変換ルール、外部インターフェースなど);
  • マッピングはデータ表示を管理します (例: スタイル、ルール、セマンティクス、単位など)。

10)。セキュリティ メタデータ: データ セキュリティの内容を説明するメタデータ。

セキュリティ レベル データの機密性 (たとえば、機密性、感度低下アルゴリズムなど)

11)。共有メタデータ: インターフェイス メソッド、形式、コンテンツなど、データを共有する方法について説明します。

2. ビジネスメタデータ

1)。モデル メタデータ: データ モデリングはビジネスの説明であり、モデルを通じてビジネスをよりよく理解できます。一般的なモデリング アプローチには、パラダイム モデル、次元モデル、多次元モデリングなどがあります。以下は、ビジネス ライン、セクター、プロセス データ ドメイン、サブジェクト ドメイン ディメンション、属性インデックス ファクト、メトリクス マーケット、およびアプリケーションなどのサイズ モデルの例です。

2)。アプリケーション メタデータ: これは、データ アプリケーション クラスを記述するメタデータを参照します。

3)。分析メタデータ: データ分析の観点からビジネスメタデータの記述を指します。たとえば、データ ドメイン、サブジェクト ドメイン、製品ライン、セクション、ビジネス プロセス、ビジネス ルールなどです。

3. メタデータの管理

管理メタデータは、人、プロセス責任、職務組織、部門など、企業内のデータ管理の内容を記述します。

メタデータの特徴:

  • メタデータはデータに関する構造化されたデータであり、必ずしもデジタル形式であるとは限らず、さまざまなソースから取得される可能性があります。
  • メタデータは、潜在的なユーザーがこれらのオブジェクトの存在と特性を完全に理解できないようにする、オブジェクト関連のデータです。
  • メタデータは、情報パッケージのエンコードされた説明です。
  • メタデータには、情報オブジェクトのコンテンツと場所を記述するために使用される一連のデータ要素が含まれており、ネットワーク環境での情報オブジェクトの検出と取得を容易にします。
  • メタデータは、情報オブジェクトを記述するだけでなく、リソースの使用環境、管理、処理、保存、および使用を記述します。
  • メタデータは、情報オブジェクトまたはシステムのライフサイクル中に自然に追加されます。
  • メタデータの従来の定義における「データ」とは、あらゆる統計、計算、科学的研究、技術的設計が行われる数値、またはデジタル化、定式化された情報であるトランザクション性の象徴です。コード化してグラフ化。

メタデータの利点

メタデータは、インターフェイス定義言語 (IDL) ファイル、ヘッダー、または外部コンポーネント参照メソッドを必要としない、より単純なプログラミング モデルの鍵となります。メタデータにより、.NET 言語は、開発者やユーザーには見えない、言語固有ではない方法で自動的に記述されます。さらに、属性を使用してメタデータを拡張できます。 メタデータには次のような主な利点があります:

1)。自己紹介: 共通言語ランタイム モジュールとアセンブリは自己記述型です。モジュールのメタデータには、別のモジュールと対話するために必要なすべての情報が含まれています。メタデータは COM で IDL の機能を自動的に提供し、ファイルを定義と実装の両方に使用できるようにします。ランタイム モジュールとアセンブリは、オペレーティング システムに登録する必要さえありません。その結果、ランタイムが使用する命令は常にコンパイル済みファイルの実際のコードを反映し、アプリケーションの信頼性が向上します。

2)。デザイン: メタデータは、コンパイルされたコードに関するすべての必要な情報を提供し、さまざまな言語で記述された PE ファイルからクラスを継承できるようにします。明示的なマーシャリングやカスタム相互運用コードの使用について心配することなく、任意のマネージ言語 (共通言語ランタイムの任意の言語) で記述された任意のクラスのインスタンスを作成できます。

組織がメタデータを記録して管理するのはなぜですか?

ほとんどの組織の情報アーキテクチャは、混み合って整理されていない書店の情報アーキテクチャに似ています。データはどこにでもあります。ほとんどの組織のデータは整理もカタログ化もされていないため、必要なデータを見つけるのが難しくなっています。

これが核となる問題です。つまり、データの検索可能性の欠如、つまりデータの可用性の欠如です。そして、問題は悪化するばかりです。 10 年以内に、組織のデータ量はギガバイトからテラバイト、ペタバイトにまで増加する可能性があります。 「データは新しい石油」の時代に、成功する組織はすべてのデータを見つけて使用し、競争上の優位性を得ることができなければなりません。メタデータ管理の記述および検索機能は、このデータを適切に見つけて使用するために重要です。

情報のコンテキストによって定義が変わる可能性があるため、メタデータの管理も重要です。さまざまなグループが「顧客」という言葉についてどのように考え、定義しているかをご覧ください。たとえば、IT、営業、またはコンプライアンスの担当者と話をすると、顧客が何を表しているか、データがどのように保存されているかについて、異なる見方や視点を持っている可能性があります。

IT にとって、顧客に関するデータは、会社の分析レポートとダッシュボードの実行、およびこのデータの保存に関する技術的側面に焦点を当てる場合があります。 IT 部門に「顧客」データの場所を定義するように依頼すると、彼らは次のように答えるかもしれません。 データレイク.このデータはデータ レイクにあり、報告する前に変換する必要があります。」したがって、彼らにとって、「顧客」データは非常に分析的であるか、過去のバックトラッキングを含んでいる可能性があります。

あなたの営業チームは、営業で顧客データをどのように使用するかなど、業務により集中している可能性があります。彼らにとって、顧客データは、アクティブな顧客またはアカウント レベルの顧客データ (会社名など) のみを意味し、会社がこれまでに所有したすべての顧客を意味するわけではありません。営業チームは、顧客データをスタッフ レベルのデータではなく、会社名として参照する場合があります。さらに、コンプライアンス部門は、データの主な用途が GDPR などの規制に準拠することであるため、顧客データを人事レベルで検討する場合があります。

お分かりのように、課題は定義だけではなく、これらの異なるチームやプロセス間での定義の不一致にあります。そしてその数は増え続けています。最適な分析を行うには、データを見つける必要があります。運用では、さまざまなアプリケーションすべてと、それらがデータを取得する場所を理解する必要があります。コンプライアンスに関しては、組織が規則に従っていることを確認する必要があります。 IT 部門にとっての主な関心事は、分析の生成と履歴の保存です。

メタデータ管理を使用すると、組織の各部分に、システム、データ、組織全体、および組織全体のデータの統合ビューを理解して管理するために必要なメタデータを提供できます。これが、組織が適切に機能し、最終的に物事を正しく行うことを保証する唯一の方法です。

結論

この記事をお読みいただきありがとうございます。 メタデータとは.メタデータについて詳しく知りたい場合は、こちらをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 6 月 24 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す