メタデータとは何ですか? どのように機能しますか? |

メタデータとは

メタデータ 構造化された一貫した方法で他のデータを説明するデータであるため、大量のデータを長期間にわたって収集、保存、および分析できます。 データウェアハウス ビッグデータを保存するときに、簡単に取得および管理できるようにメタデータが必要です。データウェアハウスは、データソース全体で標準化され、クリーンで一貫性のある構造化データを使用します。メタデータは、このデータの収集と保存の一貫性を確保するため、ビジネスオーナーと データアナリスト データに簡単にアクセスして洞察を得ることができます。

メタデータとは

効果的 メタデータの管理 企業がデータ資産をより効率的に管理し、それらを利用できるようにするのに役立つため、信頼性が高く柔軟なビッグデータ「エコシステム」の不可欠な部分です。 データサイエンティスト と他のアナリスト。

メタデータの分類と例：

1. 技術メタデータ

1)。物理的なメタデータ: 物理を説明するメタデータ資力、サーバー、オペレーティングシステム、コンピュータルームの場所、その他の情報など。

2)。データソースメタデータ: データソースを説明するメタデータ。通常は次の 4 種類の情報が含まれます。

データソースアドレス (IP、PORT など);
物理トポロジ (例: アクティブ/スタンバイ、役割など);
パーミッション (ユーザー名、パスワードなど);
ライブラリ名、バージョン、ドメイン名など

3)。ストレージメタデータ: オブジェクトストレージを記述するメタデータ。通常は、いくつかの主要な管理属性 (作成者、アプリケーションシステム、ビジネスユニット、ビジネスオーナーなど) を含む「狭い」メタデータでもあります。

ライフサイクル (作成時間、DDL 時間、バージョン情報など);
ストレージのプロパティ (場所、物理的なサイズなど);
データの特性 (例: データの偏り、平均長など);
使用特性 (例: DML、リフレッシュレートなど);
データ構造テーブル/パーティション (名前、タイプ、備考など)；
列 (名前、型、長さ、精度など)；
インデックス (名前、タイプ、フィールドなど)；
制約 (型、フィールドなど)。

4)。計算メタデータ: データ計算のプロセスを記述するメタデータは、一般に次の 2 種類の計算に分類できます。ETL) またはデータ処理 (JOB)。各タイプの計算は、制御メタデータ (構成プロパティ、スケジューリングポリシーなど) とプロセスメタデータ (依存関係、実行ステータス、実行ログなど) によってさらに分類できます。

5)。品質メタデータ: データの品質を説明するメタデータ。通常、 データ品質 一連の品質指標を定義することで反映されます。

6)。運用メタデータ: データが操作にどのように使用されるかを説明するメタデータのクラス。

データ生成 (例: 生成時間、ジョブ情報など);
テーブルアクセス (例: クエリ、関連付け、集計など)。
テーブルの関連付け (関連付けられたテーブル、関連付けられたフィールド、関連付けられた型、関連付けられたカウントなど)。
フィールドアクセス (クエリ、関連付け、集計、フィルタリングなど)。

7）。運用と保守のメタデータ: 通常、タスク、アラート、および障害を含む、システムの運用および保守レベルを説明するメタデータ。

8)。コストメタデータ: データの保存と計算のコストを説明するメタデータ。

計算コスト (CPU、MEM など)。
ストレージコスト (スペース、圧縮率など)。

9)。標準メタデータ: データの標準化されたコンテンツを記述するメタデータ。

コード管理 (例: 変換ルール、外部インターフェースなど);
マッピングはデータ表示を管理します (例: スタイル、ルール、セマンティクス、単位など)。

10)。セキュリティメタデータ: データセキュリティの内容を説明するメタデータ。

セキュリティレベルデータの機密性 (たとえば、機密性、感度低下アルゴリズムなど)

11)。共有メタデータ: インターフェイスメソッド、形式、コンテンツなど、データを共有する方法について説明します。

2. ビジネスメタデータ

1)。モデルメタデータ: データモデリングはビジネスの説明であり、モデルを通じてビジネスをよりよく理解できます。一般的なモデリングアプローチには、パラダイムモデル、次元モデル、多次元モデリングなどがあります。以下は、ビジネスライン、セクター、プロセスデータドメイン、サブジェクトドメインディメンション、属性インデックスファクト、メトリクスマーケット、およびアプリケーションなどのサイズモデルの例です。

2)。アプリケーションメタデータ: これは、データアプリケーションクラスを記述するメタデータを参照します。

3)。分析メタデータ: データ分析の観点からビジネスメタデータの記述を指します。たとえば、データドメイン、サブジェクトドメイン、製品ライン、セクション、ビジネスプロセス、ビジネスルールなどです。

3. メタデータの管理

管理メタデータは、人、プロセス責任、職務組織、部門など、企業内のデータ管理の内容を記述します。

メタデータの特徴：

メタデータはデータに関する構造化されたデータであり、必ずしもデジタル形式であるとは限らず、さまざまなソースから取得される可能性があります。
メタデータは、潜在的なユーザーがこれらのオブジェクトの存在と特性を完全に理解できないようにする、オブジェクト関連のデータです。
メタデータは、情報パッケージのエンコードされた説明です。
メタデータには、情報オブジェクトのコンテンツと場所を記述するために使用される一連のデータ要素が含まれており、ネットワーク環境での情報オブジェクトの検出と取得を容易にします。
メタデータは、情報オブジェクトを記述するだけでなく、リソースの使用環境、管理、処理、保存、および使用を記述します。
メタデータは、情報オブジェクトまたはシステムのライフサイクル中に自然に追加されます。
メタデータの従来の定義における「データ」とは、あらゆる統計、計算、科学的研究、技術的設計が行われる数値、またはデジタル化、定式化された情報であるトランザクション性の象徴です。コード化してグラフ化。

メタデータの利点

メタデータは、インターフェイス定義言語 (IDL) ファイル、ヘッダー、または外部コンポーネント参照メソッドを必要としない、より単純なプログラミングモデルの鍵となります。メタデータにより、.NET 言語は、開発者やユーザーには見えない、言語固有ではない方法で自動的に記述されます。さらに、属性を使用してメタデータを拡張できます。 メタデータには次のような主な利点があります:

1)。自己紹介: 共通言語ランタイムモジュールとアセンブリは自己記述型です。モジュールのメタデータには、別のモジュールと対話するために必要なすべての情報が含まれています。メタデータは COM で IDL の機能を自動的に提供し、ファイルを定義と実装の両方に使用できるようにします。ランタイムモジュールとアセンブリは、オペレーティングシステムに登録する必要さえありません。その結果、ランタイムが使用する命令は常にコンパイル済みファイルの実際のコードを反映し、アプリケーションの信頼性が向上します。

2)。デザイン： メタデータは、コンパイルされたコードに関するすべての必要な情報を提供し、さまざまな言語で記述された PE ファイルからクラスを継承できるようにします。明示的なマーシャリングやカスタム相互運用コードの使用について心配することなく、任意のマネージ言語 (共通言語ランタイムの任意の言語) で記述された任意のクラスのインスタンスを作成できます。

組織がメタデータを記録して管理するのはなぜですか?

ほとんどの組織の情報アーキテクチャは、混み合って整理されていない書店の情報アーキテクチャに似ています。データはどこにでもあります。ほとんどの組織のデータは整理もカタログ化もされていないため、必要なデータを見つけるのが難しくなっています。

これが核となる問題です。つまり、データの検索可能性の欠如、つまりデータの可用性の欠如です。そして、問題は悪化するばかりです。 10 年以内に、組織のデータ量はギガバイトからテラバイト、ペタバイトにまで増加する可能性があります。「データは新しい石油」の時代に、成功する組織はすべてのデータを見つけて使用し、競争上の優位性を得ることができなければなりません。メタデータ管理の記述および検索機能は、このデータを適切に見つけて使用するために重要です。

情報のコンテキストによって定義が変わる可能性があるため、メタデータの管理も重要です。さまざまなグループが「顧客」という言葉についてどのように考え、定義しているかをご覧ください。たとえば、IT、営業、またはコンプライアンスの担当者と話をすると、顧客が何を表しているか、データがどのように保存されているかについて、異なる見方や視点を持っている可能性があります。

IT にとって、顧客に関するデータは、会社の分析レポートとダッシュボードの実行、およびこのデータの保存に関する技術的側面に焦点を当てる場合があります。 IT 部門に「顧客」データの場所を定義するように依頼すると、彼らは次のように答えるかもしれません。 データレイク.このデータはデータレイクにあり、報告する前に変換する必要があります。」したがって、彼らにとって、「顧客」データは非常に分析的であるか、過去のバックトラッキングを含んでいる可能性があります。

あなたの営業チームは、営業で顧客データをどのように使用するかなど、業務により集中している可能性があります。彼らにとって、顧客データは、アクティブな顧客またはアカウントレベルの顧客データ (会社名など) のみを意味し、会社がこれまでに所有したすべての顧客を意味するわけではありません。営業チームは、顧客データをスタッフレベルのデータではなく、会社名として参照する場合があります。さらに、コンプライアンス部門は、データの主な用途が GDPR などの規制に準拠することであるため、顧客データを人事レベルで検討する場合があります。

お分かりのように、課題は定義だけではなく、これらの異なるチームやプロセス間での定義の不一致にあります。そしてその数は増え続けています。最適な分析を行うには、データを見つける必要があります。運用では、さまざまなアプリケーションすべてと、それらがデータを取得する場所を理解する必要があります。コンプライアンスに関しては、組織が規則に従っていることを確認する必要があります。 IT 部門にとっての主な関心事は、分析の生成と履歴の保存です。

メタデータ管理を使用すると、組織の各部分に、システム、データ、組織全体、および組織全体のデータの統合ビューを理解して管理するために必要なメタデータを提供できます。これが、組織が適切に機能し、最終的に物事を正しく行うことを保証する唯一の方法です。

結論

この記事をお読みいただきありがとうございます。 メタデータとは.メタデータについて詳しく知りたい場合は、こちらをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプトファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 6 月 24 日に Ryan により公開)