データマートとは 

データ市場 特定の専門家グループにサービスを提供する運用データおよびその他のデータ ソースからデータを収集するウェアハウスです。範囲に関しては、データは企業全体のデータベースまたはより専門的なデータベースから抽出されます。 データウェアハウス.データセンターのポイントは、分析、コンテンツ、パフォーマンス、および使いやすさの観点から、プロのユーザー グループの特定のニーズに対応できることです。データセンターのユーザーは、使い慣れた言葉でデータが表現されることを期待しています。

データ マート vs データ ウェアハウス:

データ ウェアハウスは、DSS (意思決定支援システム) 機能をサポートするように設計された、主題指向の統合データ コレクションです。データ ウェアハウスでは、各データ ユニットが特定の時間に関連付けられます。アトミック レベルのデータと軽く集約されたデータで構成されるデータ ウェアハウスは、ビジネス管理における意思決定プロセスをサポートする、トピック指向で、統合された、更新不可能 (安定) で、時間によって変化するデータのコレクションです。

データマート vs データウェアハウス

データマート vs データウェアハウス

次に、データ マートはエンタープライズ レベルのデータ ウェアハウスのサブセットであり、主に部門レベルのビジネスを対象としており、特定のトピックのみを対象としています。柔軟性とパフォーマンスの矛盾を解決するために、データ マートは、データ ウェアハウス アーキテクチャに追加された小さな部門またはワークグループ レベルのデータ ウェアハウスです。データ マートは、特定のユーザーのパフォーマンス ニーズを満たすために、事前に計算されたデータを格納します。データ ウェアハウスへのアクセスのボトルネックをある程度軽減できます。

データマートの特徴:

  • サイズが小さい。
  • 特定の用途があります。
  • 部門指向;
  • ビジネスユニットによって定義、設計、および開発されました。
  • ビジネスユニットによって管理および維持されます。
  • 迅速に実装できます。
  • 安く購入できます。
  • 迅速な投資回収;
  • ツールセットの緊密な統合。
  • データ ウェアハウスのより詳細な既存の要約サブセットを提供します。
  • 完全なデータ ウェアハウスにアップグレード可能。

データマートのデータ構造:

データ マート内のデータ構造は、多くの場合、スターまたはスノーフレーク構造として説明されます。スター構造は、ファクト テーブルとさまざまなサポート ディメンション テーブルの 2 つの基本部分で構成されます。

1.Fアクトテーブル

ファクト テーブルは、データ マートで最も密度の高いデータを表します。電話会社では、通常、通話に使用されるデータが最も高密度です。銀行では、通常、照合と現金自動預け払い機に関連するデータが最も集中しています。小売の場合、販売と在庫のデータが最も密集しています。

ファクト テーブルは、あらかじめ結合された複数の種類のデータの組み合わせです。たとえば、注文、販売、電話など、ファクト テーブルの目的を反映するエンティティの主キー、主キー情報、ファクト テーブルをディメンション テーブルに接続する外部キー、および外部キーによって保持される非キー外部データです。

この非キーの外部データが頻繁に使用される場合 データ分析 ファクト テーブルでは、ファクト テーブルのスコープに含まれます。ファクト テーブルは高度にインデックス化されています。ファクト テーブルに 30 から 40 のインデックスがあることは非常に一般的です。場合によっては、ファクト テーブルの各列にインデックスが付けられ、その結果、ファクト テーブルのデータが非常に読みやすくなります。ただし、その数は 資力 インデックスをインポートするために必要な要素を式に組み込む必要があります。通常、ファクト テーブル データは変更できませんが、データを入力することはできます。レコードが正しく入力されると、そのレコードは何も変更できなくなります。

2.寸法表

ディメンション テーブルは、ファクト テーブルを中心に構築されます。ディメンション テーブルには、外部キーを介してファクト テーブルにリンクされている集中的でないデータが含まれています。一般的なディメンション テーブルは、製品カタログ、顧客リスト、ベンダー リストなどを含むデータ マートに基づいています。

データ マートのデータは、エンタープライズ データ ウェアハウスから取得されます。 1 つの例外を除いて、すべてのデータは、データ マートにインポートされる前に、エンタープライズ データ ウェアハウスを通過する必要があります。これに対する例外は、データ マートで使用される特定のデータであり、データ ウェアハウスの他の場所では使用できません。通常、外部データはこのカテゴリに分類されます。これが当てはまらず、データが意思決定支援システムの他の場所で使用されている場合、データはエンタープライズ データ ウェアハウスを通過する必要があります。

データ マートには、通常、2 種類のデータが含まれています。 詳細データ集計データ.

1. 詳細データ

前述のように、データ マート内の詳細データはスター構造に含まれています。スター スキーマは、データがエンタープライズ データ ウェアハウスを通過する際に適切に集約されることに注意してください。この場合、エンタープライズ データ ウェアハウスには必要な基本データが含まれ、データ マートにはより大きな間隔サイズのデータが含まれます。しかし、データマートのユーザーの頭の中では、スター構造のデータは取得したときと同じくらい詳細です。

2. 集計データ

データ マートに含まれる 2 番目のタイプのデータは、集計データです。アナリストは通常、スター スキーマ内のデータからさまざまな集計データを作成します。典型的なロールアップは、販売地域の月間総売上です。集計の基盤は常に進化しているため、履歴データはデータ マートにあります。しかし、この履歴データの利点は、格納される一般化のレベルにあります。スター スキーマに保持される履歴データはほとんどありません。

データ マートは、エンタープライズ データ ウェアハウスに基づいて更新されます。 1週間に1回程度更新されることも珍しくありません。ただし、データ マートの更新時間は、主にデータ マートが属する部門のニーズによって決定され、1 週間未満または 1 週間以上になることがあります。

データ マートの種類:

1.独立

独立したデータ マートのデータは、特別なユーザーのニーズを満たすために確立された分析環境である運用データベースから取得されます。この種のデータ マートの開発サイクルは一般的に短く柔軟ですが、データ ウェアハウスから分離されているため、独立したデータ マートは情報の島の存在につながる可能性があり、データをグローバルな視点で分析することはできません。

2.部下

下位のデータ マートのデータは企業のデータ ウェアハウスから取得されるため、開発サイクルが長くなりますが、下位のデータ マートは独立したデータ マートよりもアーキテクチャが安定しているため、 データの品質 分析し、データの一貫性を確保します。

データ マートの利点:

  • これは、データの小さなサブセットのみを処理する必要があるデータ ウェアハウスにとって、最も費用対効果の高い代替手段の 1 つです。
  • ソースからデータを分離すると、データ マートが効率的になります。これは、全員がデータ ウェアハウスを使用するのではなく、特定のグループの人々が特定のソースからのデータで作業できるためです。
  • アクセスする必要があるサブセットがわかっている場合は、データ マートを使用してデータにすばやくアクセスできます。
  • 使いやすく、エンド ユーザーが簡単にクエリを実行できます。
  • データはグループごとに分離されるため、データ ウェアハウスよりも実装時のデータ マートに入る時間が短くなります。
  • 特定のトピックの履歴データを使用して、傾向を簡単に分析できます。

データ マートを実装する手順:

ステップ 1. 設計:

これは実装の最初のステップであり、技術情報とビジネス情報を収集するために必要なすべてのタスクとソースが特定されます。論理的な計画は後で実装され、レビューの後、これは物理的な計画に変換されます。また、ここでは、データを分割する方法や、日付やその他のファイルなどのフィールドを分割する方法など、データの論理的および物理的構造が決定されます。

ステップ 2. 構築:

これは実装の第 2 段階です。RDBMS を使用した物理データベースの生成は、設計プロセスと論理構造の一部として決定されます。スキーマ、インデックス、テーブル、ビューなどのすべてのオブジェクトを作成します。

ステップ 3. 設定:

これは 3 番目の段階で、データを取得するときにデータを入力します。データが移入される前に、必要なすべての変換が実装されます。

ステップ 4. アクセス: 

これは実装の次のステップです。入力されたデータを使用してクエリを実行し、レポートを作成します。エンド ユーザーはこの手順を使用して、クエリを使用してデータを理解します。

ステップ 5. 管理:

これは、データ マート実装の最終段階です。ここでは、アクセス管理、システムの最適化とチューニング、新しいデータの管理とデータ マートへの追加、障害シナリオを処理するための復旧シナリオの計画などのタスクが処理されます。

結論

私たちの記事を読んでいただきありがとうございます。楽しんでいただければ幸いです。詳しく知りたい方は データガバナンス、訪問することをお勧めします Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行するだけでなく、ユーザーが CSV 形式でデータ系統を提供し、視覚的な表示を実行できるようにします。 (2022 年 6 月 22 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す