Qu'est-ce que les métadonnées ?

Métadonnées il s'agit de données qui décrivent d'autres données de manière structurée et cohérente, de sorte que de grandes quantités de données peuvent être collectées, stockées et analysées au fil du temps. Entrepôts de données Les métadonnées sont nécessaires pour faciliter la récupération et la gestion du stockage de données volumineuses. Un entrepôt de données utilise des données structurées, standardisées, propres et cohérentes entre les sources. Les métadonnées garantissent l'uniformité de la collecte et du stockage de ces données, permettant ainsi aux propriétaires d'entreprise et aux analystes de données peut facilement accéder aux données et en tirer des informations.

Qu'est-ce que les métadonnées ?

Qu'est-ce que les métadonnées ?

Efficace gestion des métadonnées est un élément essentiel d’un « écosystème » de big data fiable et flexible, car il aide les entreprises à gérer plus efficacement leurs actifs de données et à les mettre à disposition scientifiques des données et d’autres analystes.

Classification des métadonnées et exemples :

1. Métadonnées techniques

1). Métadonnées physiques : Métadonnées décrivant les caractéristiques physiques ressources, tels que : les serveurs, les systèmes d'exploitation, l'emplacement des salles informatiques et d'autres informations.

2). Métadonnées de la source de données : Métadonnées décrivant la source des données, comprenant généralement quatre types d'informations :

  • Adresse de la source de données (par exemple IP, PORT, etc.) ;
  •  Topologie physique (par exemple actif/veille, rôles, etc.) ;
  • Autorisations (par exemple, nom d'utilisateur, mot de passe, etc.) ;
  • Nom de la bibliothèque, version, nom de domaine, etc.

3). Métadonnées de stockage : Métadonnées décrivant le stockage d'objets, généralement également des métadonnées « étroites », comprenant plusieurs types principaux d'attributs de gestion (par exemple, créateur, système d'application, unité commerciale, propriétaire de l'entreprise, etc.).

  • Cycle de vie (comme l'heure de création, l'heure DDL, les informations de version, etc.) ;
  • Propriétés de stockage (telles que l’emplacement, la taille physique, etc.) ;
  • Caractéristiques des données (par exemple, biais des données, longueur moyenne, etc.) ;
  • Utiliser des caractéristiques (par exemple DML, taux de rafraîchissement, etc.) ;
  • Table/partition de structure de données (par exemple nom, type, remarques, etc.) ;
  • Colonnes (par exemple nom, type, longueur, précision, etc.) ;
  • Index (par exemple nom, type, champ, etc.) ;
  • Contraintes (par exemple types, champs, etc.).

4). Métadonnées informatiques : Les métadonnées décrivant le processus de calcul des données peuvent généralement être classées en deux types de calculs : l'extraction de données (ETL) ou traitement de données (JOB). Chaque type de calcul peut être subdivisé en métadonnées de contrôle (par exemple, propriétés de configuration, politiques de planification, etc.) et métadonnées de processus (par exemple, dépendances, état d'exécution, journaux d'exécution, etc.).

5). Métadonnées de qualité : Métadonnées décrivant la qualité des données. Généralement, qualité des données se traduit par la définition d’une série de mesures de qualité.

6). Métadonnées opérationnelles : Une classe de métadonnées qui décrit comment les données sont utilisées pour les opérations.

  • Génération de données (par exemple, heure de génération, informations sur le travail, etc.) ;
  • Accès aux tables (par exemple requêtes, associations, agrégations, etc.) ;
  •  Associations de tables (par exemple, tables associées, champs associés, types associés, nombres associés) ;
  •  Accès aux champs (par exemple requête, association, agrégation, filtrage, etc.).

7). Métadonnées d'exploitation et de maintenance : Métadonnées décrivant le niveau de fonctionnement et de maintenance du système, comprenant généralement les tâches, les alertes et les pannes.

8). Métadonnées de coût : Métadonnées décrivant le coût du stockage et du calcul des données.

  • Coût de calcul (par exemple, CPU, MEM, etc.) ;
  • Coût de stockage (par exemple, espace, taux de compression, etc.).

9). Métadonnées standard : Métadonnées décrivant le contenu standardisé des données.

  • Gestion du code (par exemple règles de transformation, interfaces externes, etc.) ;
  • La cartographie gère l'affichage des données (par exemple les styles, les règles, la sémantique, les unités, etc.).

10). Métadonnées de sécurité : Métadonnées décrivant le contenu de la sécurité des données.

Sensibilité des données au niveau de sécurité (par exemple, sont-elles sensibles, algorithme de désensibilisation, etc.)

11). Métadonnées partagées : Il décrit comment partager des données, telles que les méthodes d'interface, le format et le contenu.

2. Métadonnées commerciales

1). Métadonnées du modèle : La modélisation des données décrit l'entreprise, et elle permet de mieux la comprendre. Les approches de modélisation courantes incluent les modèles paradigmatiques, dimensionnels et multidimensionnels. Vous trouverez ci-dessous un exemple de modèle de taille, par exemple : secteurs d'activité, domaines de données de processus, dimensions de domaine thématique, faits d'index d'attributs, marchés de mesures et applications.

2). Métadonnées de l'application : Il fait référence aux métadonnées décrivant la classe d'application de données.

3). Métadonnées d'analyse : Il s'agit de la description des métadonnées métier du point de vue de l'analyse des données. Par exemple, domaine de données, domaine thématique, gamme de produits, section, processus métier, règles métier, etc.

3. Gérer les métadonnées

Les métadonnées de gestion décrivent le contenu de la gestion des données au sein d'une entreprise, comme les personnes, les responsabilités des processus, les organisations professionnelles et les départements.

Fonctionnalités des métadonnées :

  • Les métadonnées sont des données structurées sur des données, qui ne sont pas nécessairement sous forme numérique et peuvent provenir de différentes sources.
  • Les métadonnées sont des données liées aux objets qui empêchent les utilisateurs potentiels d’avoir une compréhension complète de l’existence et des caractéristiques de ces objets.
  • Les métadonnées sont une description codée d'un paquet d'informations.
  • Les métadonnées contiennent un ensemble d'éléments de données utilisés pour décrire le contenu et l'emplacement des objets d'information, facilitant la découverte et la récupération d'objets d'information dans un environnement réseau.
  • Les métadonnées décrivent non seulement les objets d’information, mais également l’environnement d’utilisation, la gestion, le traitement, le stockage et l’utilisation des ressources.
  • Les métadonnées sont naturellement ajoutées au cours du cycle de vie d’un objet ou d’un système d’information.
  • Les « données » dans la définition conventionnelle des métadonnées sont le symbole de la nature transactionnelle, c’est-à-dire la valeur numérique sur la base de laquelle sont réalisées toutes sortes de statistiques, de calculs, de recherches scientifiques et de conceptions techniques, ou les informations qui sont numérisées, formulées, codées et graphisées.

Avantages des métadonnées

Les métadonnées sont essentielles à un modèle de programmation simplifié, qui ne nécessite plus de fichiers IDL (Interface Definition Language), d'en-têtes ni de méthodes de référence de composants externes. Elles permettent au langage .NET de se décrire automatiquement, de manière non spécifique au langage, invisible pour les développeurs et les utilisateurs. De plus, les métadonnées peuvent être étendues grâce à l'utilisation d'attributs. Les métadonnées présentent les principaux avantages suivants:

1). auto-description : Les modules et assemblys du Common Language Runtime sont autodescriptifs. Les métadonnées d'un module contiennent toutes les informations nécessaires à l'interaction avec un autre module. Ces métadonnées fournissent automatiquement les fonctionnalités d'IDL dans COM, permettant ainsi l'utilisation d'un fichier à la fois pour la définition et l'implémentation. Les modules et assemblys du runtime n'ont même pas besoin d'être enregistrés auprès du système d'exploitation. Par conséquent, les instructions utilisées par le runtime reflètent toujours le code réel du fichier compilé, améliorant ainsi la fiabilité de l'application.

2). conception : Les métadonnées fournissent toutes les informations nécessaires sur le code compilé pour vous permettre d'hériter de classes de fichiers PE écrits dans différents langages. Vous pouvez créer des instances de n'importe quelle classe écrite dans n'importe quel langage géré (n'importe quel langage pour le Common Language Runtime) sans vous soucier du marshaling explicite ni de l'utilisation d'un code d'interopérabilité personnalisé.

Pourquoi une organisation enregistre-t-elle et gère-t-elle ses métadonnées ?

L'architecture de l'information de la plupart des organisations ressemble à celle d'une librairie encombrée et désorganisée. Les données sont omniprésentes. La plupart des données des organisations ne sont ni organisées ni cataloguées, ce qui rend difficile la recherche des données recherchées.

C'est là le problème fondamental : le manque de recherche de données, et donc de disponibilité. Et le problème ne fait que s'aggraver. En dix ans, la quantité de données organisationnelles pourrait passer de gigaoctets à téraoctets, puis à pétaoctets. À l'ère où « les données sont le nouveau pétrole », les organisations performantes doivent être capables de trouver et d'exploiter toutes les données pour acquérir un avantage concurrentiel. Les capacités de description et de recherche de la gestion des métadonnées sont essentielles pour trouver et exploiter efficacement ces données.

La gestion des métadonnées est également importante, car les définitions peuvent varier selon le contexte de l'information. Observez comment différents groupes perçoivent et définissent le mot « client ». Par exemple, si vous discutez avec un professionnel de l'informatique, des ventes ou de la conformité, il se peut qu'il ait une vision ou un point de vue différent sur ce que représente le client et sur la manière dont les données sont stockées.

Pour l'IT, les données clients peuvent être utilisées pour l'exécution de rapports d'analyse et de tableaux de bord pour l'entreprise, ainsi que pour les aspects techniques de leur stockage. Si vous demandez à l'IT de définir l'emplacement des données « clients », il pourrait vous répondre : « Cela se trouve dans notre entrepôt de données d'entreprise pour le reporting, qui date de 2015. Nous disposons également de données clients issues de nouvelles acquisitions. » lac de données. Ces données se trouvent dans le lac de données et doivent être converties avant que nous puissions établir un rapport. » Ainsi, pour eux, les données « client » peuvent être très analytiques ou contenir des données historiques.

Votre équipe commerciale se concentre peut-être davantage sur les opérations, notamment sur l'utilisation actuelle des données clients dans le cadre des ventes. Pour elle, les données clients peuvent se limiter aux clients actifs ou aux données clients au niveau du compte (comme le nom de l'entreprise), et non à l'ensemble des clients que l'entreprise a déjà eus. Les équipes commerciales peuvent se référer aux données clients en utilisant le nom de l'entreprise plutôt que les données relatives au personnel. De plus, les services de conformité peuvent considérer les données clients au niveau du personnel, car leur utilisation principale est de se conformer à des réglementations telles que le RGPD.

Comme vous pouvez le constater, le défi ne réside pas seulement dans la définition, mais aussi dans l'incohérence des définitions entre ces différentes équipes et processus. Et les chiffres sont en augmentation. Vous devez être capable d'accéder à vos données pour une analyse optimale. En exploitation, vous devez comprendre les différentes applications et leur source de données. En matière de conformité, vous devez vous assurer que votre organisation respecte les règles ; pour le service informatique, la principale préoccupation est de générer des analyses et de préserver l'historique.

Grâce à la gestion des métadonnées, vous pouvez fournir à chaque service de votre organisation les métadonnées nécessaires pour comprendre et gérer vos systèmes, vos données et l'ensemble de votre organisation, ainsi qu'une vue unifiée des données à l'échelle de votre organisation. C'est la seule façon pour les organisations de fonctionner correctement et de garantir leur réussite.

Conclusion

Merci d'avoir lu notre article et nous espérons qu'il pourra vous aider à mieux comprendre qu'est-ce que les métadonnéesSi vous souhaitez en savoir plus sur les métadonnées, nous vous conseillons de visiter Gudu SQLFlow pour plus d'informations.

En tant que l'un des meilleurs outils de lignage de données Disponible sur le marché aujourd'hui, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, mais aussi obtenir lignée de données, et effectuer un affichage visuel, mais permettent également aux utilisateurs de fournir une lignée de données au format CSV et d'effectuer un affichage visuel. (Publié par Ryan le 24 juin 2022)

Essayez Gudu SQLFlow Live

Version SQLFlow Cloud

Abonnez-vous à la newsletter hebdomadaire

Laissez un commentaire