データ ウェアハウスのメタデータ管理
メタデータ管理 企業の基盤です データガバナンス との改善 データウェアハウス.データを頻繁に扱う人として、最初のタスクはメタデータ管理を理解することです。この記事では、メタデータの概念を整理し、データ ウェアハウスのメタデータ管理を紹介します。
データ ウェアハウスのメタデータ管理とは?
先に進む前に、把握しましょう メタデータとは と データ ウェアハウスとは.
メタデータは、中間データおよび中継データとも呼ばれ、データに関するデータです。ほとんどの場合、メタデータは、それらが表すさまざまな意味に従って、ビジネス メタデータとテクニカル メタデータに分けることができます。
あ データウェアハウス より良い意思決定を行うために分析できる情報の中央リポジトリです。通常、データはトランザクション システム、リレーショナル データベース、およびその他のソースから定期的にデータ ウェアハウスに流れ込みます。ビジネスアナリスト、 データエンジニア, データサイエンティスト、および意思決定者は、ビジネス インテリジェンス (BI) ツール、SQL クライアント、およびその他の分析アプリケーションを介してデータにアクセスします。
では、データ ウェアハウスのメタデータ管理とは何でしょう?
データ ウェアハウスのメタデータには、主に各テーマの定義、異なるレベル間のマッピング関係、監視データ ウェアハウスのデータ ステータス、およびタスクの実行ステータスが記録されます。 ETL.一般に、メタデータはメタデータ リポジトリを通じて一様に格納および管理されます。その主な目的は、データ ウェアハウスの設計、展開、運用、および管理における調整と一貫性を実現することです。
メタデータは、データ ウェアハウス管理システムの重要な部分です。メタデータ管理は、エンタープライズ データ ウェアハウスの重要なコンポーネントです。これは、データ ウェアハウスの構築の全プロセスを通じて実行され、データ ウェアハウスの構築、使用、および保守に直接影響します。
データ ウェアハウスにメタデータ管理が必要な理由
- データ ウェアハウスの構築に必須: データ ウェアハウスは、ETL ツールを介して外部データ、ビジネス データ、およびドキュメントから取得されます。明確で明確なルールがなければ、このプロセスを実現することは不可能です。
- データ ウェアハウス システムをすばやく理解するのに役立ちます: 一方では、データ ウェアハウスは基本的に、部門または企業の重要なプロジェクトであり、開発期間は長くなります。必然的に真ん中に人の流れができます。明確なメタデータがないと、システム全体、プロジェクト全体に大きな影響を与えます。一方、データ ウェアハウスは、データ担当者だけでなく、部門や会社全体の分析データのエクスポートとして機能します。ビジネスマンにとって DM 層は避けられないものであり、他の開発者にとって DIM は避けられないものです。データ ウェアハウス システムを説明する明確なメタデータがあれば、両者間の通信時間を大幅に節約できます。
- 効率的で正確なコミュニケーション: 一方で、メタデータ内の管理メタデータは、さまざまなユーザー、役割、部門のデータ権限を記録します。通知が必要なデータがある場合は、システムにすばやくクエリを送信して、大量のメールなどで通信できるため、通信リンクに人が不足したり、人が多すぎたりする状況を回避できます。一方、製品とのコミュニケーションや研究開発とのコミュニケーションでは、指標の意味や相互コミュニケーションの次元を業務メタデータに基づいて確認することで、コミュニケーションの曖昧さを根底から回避し、コミュニケーションの効率化を図ることができます。 .
- 保証 データ品質: 理想的なメタデータは、データ ウェアハウスの構造、ウェアハウスのスキーマ、ディメンション、メジャー、階層、あらゆる場所のデータベースの定義、およびデータベースの場所と内容を記述します。 データマート.したがって、どのデータが確実に正確で、どのデータが間違っている可能性があり、どのデータが確実に間違っているかを確実に判断できます。簡単に言えば、各フィールドには値の範囲、ビジネス定義、およびその他の情報が必要です。メタデータが定義されると、それをデータ品質の検出、評価などに適用して、データ品質管理プロセスを通じて企業のデータ品質を真に向上させることができます。
- データシステムの構築コストを削減: メタデータがしっかりと確立されていれば、情報がより正確かつ迅速に取得されるため、データ システムの構築が手直しされたり、手直しが少なくなったり、分析の作業負荷が軽減されたり、すべての関係者の統一された理解とコミュニケーションの効率が向上したりします。を強化し、開発コストを最小限に抑えます。
- 変更の影響をすばやく分析: メタデータは参照関係で一元的に維持および管理されるため、変更が発生した場合、メタデータ管理システムを使用して、影響を受けるビジネス機能、アプリケーション システム、関連する担当者、監督が関与しているかどうかをリアルタイムで分析できます。
- 将来に備える:ビッグデータ、人工知能、 データレイク、データ センター、およびビジネス インテリジェンスは、優れたメタデータ管理に依存して、その効果を発揮することができます。
メタデータ アプリケーションのシナリオ
- 影響分析: 開発中に、次の問題に遭遇することがよくあります: テーブルまたは ETL を変更したい場合、どのような影響がありますか?メタデータがない場合は、必要な回答を得るためにすべてのスクリプトとデータをトラバースする必要がある場合があります。ただし、成熟したメタデータ管理があれば、答えを直接得ることができ、多くの時間を節約できます。
- データ系統分析: データ リネージ分析は、データ オブジェクトから始まるすべての関連するメタデータ オブジェクトと、これらのメタデータ オブジェクト間の関係を見つけるために、データ処理プロセスを包括的に追跡するために使用される技術的手段です。メタデータ オブジェクト間の関係とは、具体的には、これらのメタデータ オブジェクトを表すデータ フローの入力と出力の関係を指します。メタデータ管理システムが形成された後、リネージ関係分析を通じて、データ ウェアハウス内のデータの健全性、データの分布、集中、およびデータの熱を分析できます。
- ETL 自動化管理: 倉庫では、ETL の大部分が退屈で反復的なステップです。たとえば、ソース システムの ODS レイヤーでは、テーブル入力 – テーブル出力。もう 1 つの例は ODS-DW です。SQL 入力 - データ クリーニング - データ処理 - テーブル出力。上記のルールは、実際にはメタデータの一部です。これは理論的には実現可能で、固定スクリプトを作成し、フロントエンド (または API インターフェース) を介してそれを選択します。このようにして、繰り返される ETL が自動的に管理され、ETL 開発の時間コストが削減されます。
- データ品質管理: データ クリーニングのロジックは、さまざまなデータ型と指定された特別な処理列に簡単に分けることができます。インテリジェントで高速なデータ クリーニングを実現するには、さまざまなデータ型のデフォルトのクリーニング ルールと、いくつかの特別な列の特別な処理ロジックを指定するだけで済みます。データ品質管理は、データ ガバナンスとメタデータ管理の交差点に属し、よりデータ ガバナンスに傾倒しています。
- データセキュリティ管理: アリが提唱するデータセンターでは、すべてのデータ インターフェイス インジケーターがデータ ウェアハウスからエクスポートされます。したがって、理論的には、このメタデータでメタデータ管理権限を構成するだけで、会社全体のデータ セキュリティ管理を実現できます。
結論
この記事をお読みいただきありがとうございます。 データ ウェアハウスのメタデータ管理.データ ウェアハウスのメタデータ管理について詳しく知りたい場合は、こちらをご覧になることをお勧めします。 Gudu SQLFlow 詳細については。
その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得して視覚的に表示できるだけでなく、ユーザーがデータ系統を CSV 形式で提供し、視覚的に表示することもできます。 (2022 年 6 月 25 日に Ryan により公開)
1 つのコメント
コメントを残す
これを読んで楽しんでいる場合は、以下の他の記事をご覧ください。
[…] クラウド データ マイニング テクノロジーにより、ユーザーは仮想統合データ ウェアハウスから重要な情報を取得できるため、ストレージとインフラストラクチャを削減できます […]