Qu'est-ce qu'un Data Mart ? 

UN entrepôt de données Il s'agit d'un entrepôt de données qui collecte des données opérationnelles et d'autres sources de données au service d'un groupe spécifique de professionnels. En termes de périmètre, les données sont extraites d'une base de données d'entreprise ou d'une base de données plus spécialisée. entrepôt de donnéesL'intérêt d'un centre de données est de répondre aux besoins spécifiques des utilisateurs professionnels en termes d'analyse, de contenu, de performances et de simplicité d'utilisation. Les utilisateurs de centres de données s'attendent à ce que les données soient représentées dans des termes qui leur sont familiers.

Data Mart vs Data Warehouse :

Un entrepôt de données est un ensemble de données intégré et thématique, conçu pour soutenir la fonction SAD (Système d'Aide à la Décision). Dans un entrepôt de données, chaque unité de données est associée à un instant précis. Composé de données atomiques et de données légèrement agrégées, un entrepôt de données est un ensemble de données thématiques, intégrées, stables et variables dans le temps, destiné à soutenir le processus décisionnel en gestion d'entreprise.

Data Mart vs Data Warehouse

Data Mart vs Data Warehouse

Le datamart est un sous-ensemble de l'entrepôt de données d'entreprise, principalement orienté métier et dédié à un sujet spécifique. Afin de résoudre l'opposition entre flexibilité et performance, un datamart est un petit entrepôt de données, au niveau d'un service ou d'un groupe de travail, ajouté à l'architecture de l'entrepôt de données. Les datamarts stockent des données pré-calculées pour des utilisateurs spécifiques afin de répondre à leurs besoins de performance. Ils peuvent ainsi alléger dans une certaine mesure les goulots d'étranglement liés à l'accès aux entrepôts de données.

Caractéristiques du Data Mart :

  • de petite taille;
  • avoir des applications spécifiques ;
  • axé sur le département;
  • défini, conçu et développé par les unités commerciales ;
  • géré et entretenu par les unités commerciales ;
  • peut être mis en œuvre rapidement ;
  • moins cher à l'achat ;
  • reprise rapide des investissements ;
  • intégration étroite des ensembles d’outils ;
  • fournit un sous-ensemble récapitulatif préexistant plus détaillé de l'entrepôt de données ;
  • évolutif vers un entrepôt de données complet ;

La structure des données d'un datamart :

La structure des données d'un datamart est souvent décrite comme une structure en étoile ou en flocon. Une structure en étoile se compose de deux parties principales : une table de faits et diverses tables de dimensions.

1.Ftableau des actes

La table de faits décrit les données les plus denses du datamart. Dans un opérateur téléphonique, les données utilisées pour les appels sont généralement les plus denses. Dans les banques, les données relatives au rapprochement et aux distributeurs automatiques de billets sont généralement les plus denses. Dans le commerce de détail, les données de vente et de stock sont les plus denses, et ainsi de suite.

Une table de faits est une combinaison de plusieurs types de données pré-jointes, notamment : une clé primaire de l'entité qui reflète l'objectif de la table de faits, comme une commande, une vente, un appel téléphonique, etc., des informations de clé primaire, des clés étrangères qui connectent la table de faits à la table de dimension et des données externes non clés transportées par les clés étrangères.

Si ces données externes non clés sont fréquemment utilisées pour analyse de données Dans la table de faits, elle est incluse dans sa portée. Les tables de faits sont fortement indexées. Il est très courant d'avoir 30 à 40 index sur une table de faits. Parfois, chaque colonne de la table de faits est indexée, ce qui rend les données très faciles à lire. Cependant, le nombre de ressources Les éléments nécessaires à l'importation de l'index doivent être pris en compte dans l'équation. Normalement, les données de la table de faits ne peuvent pas être modifiées, mais elles peuvent être saisies. Une fois un enregistrement correctement saisi, aucune modification ne peut être apportée à cet enregistrement.

2. Tableau des dimensions

Les tables de dimension sont construites autour de tables de faits. La table de dimension contient des données non intensives liées à la table de faits via une clé étrangère. Les tables de dimension classiques sont basées sur des datamarts, notamment des catalogues de produits, des listes de clients, des listes de fournisseurs, etc.

Les données du datamart proviennent de l'entrepôt de données de l'entreprise. Toutes les données, à une exception près, doivent transiter par un entrepôt de données avant d'être importées dans un datamart. L'exception concerne les données spécifiques utilisées dans le datamart, qui ne peuvent être utilisées ailleurs dans l'entrepôt. Les données externes entrent généralement dans cette catégorie. Si ce n'est pas le cas et que les données sont utilisées ailleurs dans le système d'aide à la décision, elles doivent transiter par l'entrepôt de données de l'entreprise.

Les datamarts contiennent généralement deux types de données données détaillées et données agrégées.

1. Données détaillées

Comme décrit précédemment, les données détaillées du datamart sont structurées en étoile. Il est important de noter que ce schéma est bien agrégé lors de leur transit par l'entrepôt de données d'entreprise. Dans ce cas, l'entrepôt de données d'entreprise contient les données de base nécessaires, tandis que le datamart contient les données d'intervalle plus élevé. Cependant, dans l'esprit des utilisateurs du datamart, les données structurées en étoile sont aussi détaillées qu'au moment de leur acquisition.

2. Données agrégées

Le deuxième type de données contenues dans un datamart est celui des données agrégées. Les analystes créent généralement diverses données agrégées à partir de données présentées selon un schéma en étoile. Un cumul typique peut être le total des ventes mensuelles des territoires de vente. La base d'agrégation étant en constante évolution, les données historiques sont conservées dans le datamart. L'avantage de ces données historiques réside dans leur niveau de généralisation. Très peu de données historiques sont conservées dans le schéma en étoile.

Les datamarts sont mis à jour à partir des entrepôts de données de l'entreprise. Il n'est pas rare qu'ils soient mis à jour environ une fois par semaine. Cependant, leur fréquence de mise à jour peut être inférieure ou supérieure à une semaine, selon les besoins du service auquel ils appartiennent.

Types de datamart :

1. Indépendant

Les données d'un datamart indépendant proviennent de la base de données opérationnelle, un environnement analytique conçu pour répondre aux besoins spécifiques des utilisateurs. Le cycle de développement de ce type de datamart est généralement court et flexible, mais, étant séparé de l'entrepôt de données, un datamart indépendant peut entraîner la formation d'îlots d'information et empêcher l'analyse globale des données.

2. Subordonné

Les données du datamart subordonné proviennent de l'entrepôt de données de l'entreprise, ce qui prolongera le cycle de développement, mais le datamart subordonné est plus stable dans son architecture que le datamart indépendant, ce qui peut améliorer la qualité des données analyser et assurer la cohérence des données.

Avantages du Data Mart :

  • C'est l'une des alternatives les plus rentables pour les entrepôts de données où vous n'avez besoin de traiter qu'un petit sous-ensemble de données.
  • La séparation des données des sources rendra les data marts efficaces, car un groupe spécifique de personnes peut travailler sur des données provenant d'une source spécifique, plutôt que tout le monde utilisant l'entrepôt de données.
  • Si nous savons à quel sous-ensemble nous devons accéder, nous pouvons utiliser des datamarts pour accéder aux données plus rapidement.
  • Plus facile à utiliser, les utilisateurs finaux peuvent donc facilement l'interroger.
  • Étant donné que les données sont séparées en groupes, il faut moins de temps pour entrer dans le datamart de mise en œuvre que dans un entrepôt de données.
  • Les données historiques provenant de sujets spécifiques peuvent être utilisées pour une analyse facile des tendances.

Étapes pour mettre en œuvre un Data Mart :

Étape 1. Conception :

Il s'agit de la première étape de la mise en œuvre, au cours de laquelle toutes les tâches et sources nécessaires à la collecte d'informations techniques et commerciales sont identifiées. Un plan logique est ensuite mis en œuvre et, après examen, converti en plan physique. C'est également à ce stade que la structure logique et physique des données est définie, notamment le partitionnement des données et des champs, comme les dates ou tout autre fichier.

Étape 2. Construction :

Il s'agit de la deuxième étape de la mise en œuvre. La génération de la base de données physique à l'aide du SGBDR est définie dans le cadre du processus de conception et de la structure logique. Tous les objets tels que les schémas, les index, les tables, les vues, etc. sont créés.

Étape 3. Remplissage :

Il s'agit de la troisième étape, où vous renseignez les données au fur et à mesure de leur récupération. Toutes les transformations nécessaires sont implémentées avant le remplissage des données.

Étape 4. Accès : 

Il s'agit de l'étape suivante de l'implémentation : nous utiliserons les données renseignées pour interroger et créer un rapport. Les utilisateurs finaux utiliseront cette étape pour comprendre les données à l'aide de la requête.

Étape 5. Gestion :

Il s'agit de l'étape finale de la mise en œuvre du data mart, où des tâches telles que la gestion des accès, l'optimisation et le réglage du système, la gestion et l'ajout de nouvelles données au data mart et la planification de scénarios de récupération pour gérer les éventuels scénarios de défaillance sont traitées ici.

Conclusion

Merci d'avoir lu notre article et nous espérons qu'il vous a plu. Pour en savoir plus sur gouvernance des données, nous vous conseillons de visiter Gudu SQLFlow pour plus d'informations.

En tant que l'un des meilleurs outils de lignage de données Disponible sur le marché aujourd'hui, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, mais aussi obtenir lignée de données, et effectuer un affichage visuel, mais permettent également aux utilisateurs de fournir une lignée de données au format CSV et d'effectuer un affichage visuel. (Publié par Ryan le 22 juin 2022)

Essayez Gudu SQLFlow Live

Version SQLFlow Cloud

Abonnez-vous à la newsletter hebdomadaire

Un commentaire

  1. […] et les services marketing utilisent des data marts pour collecter des données à partir de sources telles que les clients et […]

Laissez un commentaire