Comment choisir le meilleur catalogue de données pour vos données d’entreprise ?
Catalogues de données Les catalogues de données sont devenus un élément important de la stratégie de gestion des données d'entreprise, mais choisir le bon catalogue de données n'est pas chose aisée. Avant de prendre une décision, il est essentiel de comprendre les différentes options disponibles sur le marché et les priorités. Les catalogues de données sont outils de gestion des métadonnées qui aident les entreprises à trouver et à gérer de grandes quantités de données. L'idée derrière le catalogue de données est de centraliser les métadonnées en un seul endroit et de fournir une vue complète des données de la base de données.
Il contient également des informations sur l'emplacement de chaque point de données spécifique. Avant de choisir un fournisseur, les entreprises doivent comprendre le marché, ses besoins et ses attentes. Cet article vous aide à choisir le catalogue de données le plus adapté à votre entreprise.

Comment choisir le meilleur catalogue de données ?
Pourquoi le catalogue de données est-il important ?
Selon Joe Maguire, directeur de recherche senior chez Gartner, il existe trois principales sources de demande des entreprises en matière d'outils de catalogue de données.
Le principal facteur qui pousse les entreprises à utiliser des catalogues de données est la complexité croissante de la gestion des métadonnées. Le schéma de données est plus complexe et le volume de données est trop important pour permettre la collecte et la description manuelles des métadonnées.
« Même les technologies conçues pour simplifier l’architecture, telles que lacs de données qui fournissent un composant architectural unique pour stocker diverses données, peuvent compliquer gestion des métadonnées« , a déclaré Maguire.
Face à l’augmentation des volumes de données, certaines entreprises n’étendent pas leur gestion des métadonnées.
« C'est en ignorant les métadonnées du lac de données que les gens ont dû inventer le terme « marais de données » pour décrire un lac de données où les données sont encombrées et personne ne peut les nettoyer », a déclaré Maguire.
Le deuxième facteur est que le besoin de gouvernance des données augmente à mesure que les entreprises se tournent vers l'analyse et la science des données en libre-service. Cela entraîne également une demande accrue de catalogues de données. Les métadonnées constituent le fondement de la gouvernance des données, et les catalogues de données facilitent l'accès aux métadonnées.
Le troisième facteur est que ce marché a fait ses preuves. Les offres des fournisseurs se sont diversifiées et peuvent véritablement aider les entreprises qui ont besoin de gouvernance des données et de gestion des métadonnées. Des fonctionnalités telles que la découverte automatique des métadonnées, lignée de données, et le soutien aux activités de gestion des données rendent les catalogues de données attrayants pour les entreprises.
Catégorie du catalogue de données
Selon Maguire, lorsqu’on parle de catalogues de données, la différence la plus importante est de comprendre la différence entre les catalogues de données d’entreprise et les catalogues de données intégrés.
« Le catalogue de données d'entreprise est conçu pour consolider les métadonnées de divers silos de métadonnées, tandis que le catalogue de données intégré est l'ensemble des fonctionnalités de gestion des métadonnées disponibles dans d'autres produits », a déclaré Maguire.
Les catalogues de données d'entreprise peuvent être des SGBD, des entrepôts de données ou des plateformes de BI. Les catalogues de données intégrés créent des silos de métadonnées, que les catalogues de données d'entreprise tentent de consolider.
Voici les catalogues de données les plus courants :
- Catalogues de données autonomesCes catalogues de données sont universels, indépendants et orientés métier. Ils peuvent être largement utilisés pour la gestion, l'analyse et la gouvernance des données. Cette option convient aux entreprises qui doivent classer des données pour de multiples cas d'utilisation. Parmi les fournisseurs proposant actuellement des catalogues de données indépendants figurent Alation, Collibra, Informatica et Data.World.
- Un outil de gestion des métadonnées qui fournit des fonctionnalités de catalogueLes catalogues de données modernes sont principalement destinés à gestionnaires de données et analystes de données qui automatisent les tâches de gestion des métadonnées. Dans son dernier rapport sur les catalogues de données améliorés, Gartner prévient que certains fournisseurs rebaptisent leurs outils de gestion des métadonnées en catalogues de données. Il est conseillé de faire ses propres recherches pour choisir le bon outil.
- Outil de support Data Lake avec fonctionnalités de catalogue de donnéesAlors que les entreprises continuent de développer des lacs de données, elles ont besoin de données consultables et réutilisables. Cela a incité les fournisseurs à accroître la dimension catalogue de données dans leurs produits. Zaloni et Cloudera Navigator entrent dans cette catégorie. Les entreprises intimidées par l'adoption des lacs de données peuvent envisager ces fournisseurs.
Une fois que votre entreprise a choisi un catalogue de données d'entreprise ou un catalogue de données intégré, vous pouvez passer à la recherche de fonctionnalités. Un bon catalogue de données doit offrir de nombreuses fonctionnalités.
Que doit fournir un bon catalogue de données ?
En tant qu'entreprise, il appartient à votre équipe de déterminer les produits les plus pertinents pour vos données. Les catalogues de données des fournisseurs partagent certaines caractéristiques et doivent d'abord être évalués pour en évaluer la qualité.
Une fonction importante du catalogue de données est sa fonction de recherche. Sans options de recherche et de filtrage flexibles, les utilisateurs ne pourront pas trouver d'ensembles de données à des fins d'ingénierie et d'analyse. Les catalogues de données doivent également collecter des métadonnées à partir d'un grand nombre de données liées. Ils doivent également assurer l'automatisation et l'intelligence des données pour gérer les tâches manuelles liées au catalogage des données. L'IA et le machine learning peuvent enrichir les données avec des recommandations.
Le catalogue de données doit également être connecté aux différents composants de l'architecture de données de l'entreprise. Un catalogue de données d'entreprise peut être considéré comme un entrepôt de données Pour les métadonnées, a déclaré Maguire. Un catalogue de données consolide les métadonnées des silos de métadonnées, de la même manière qu'un entrepôt de données consolide les données des silos d'entrepôt de données.
Une autre fonction importante du catalogue de données est de fournir des connecteurs permettant d'obtenir des métadonnées à partir de divers composants tels que les SGBD, les outils BI et les entrepôts de données. Le catalogue de données prend en charge les quatre types de données suivants : types de métadonnées:
- Métadonnées techniques, décrivant le modèle de données, le schéma de stockage, la disposition des fichiers et l'API.
- Métadonnées opérationnelles qui décrivent la lignée des données, les performances et la sortie du fichier journal résultant de diverses opérations sur les données.
- Il existe deux types de métadonnées commerciales. L'une concerne les métadonnées qui décrivent l'activité, comme le contenu d'un vocabulaire de données métier. L'autre décrit la manière dont les rôles métier interagissent avec les données, comme les gestionnaires de données, les dépositaires de données et les analystes en libre-service, les gestionnaires de données étant responsables de données spécifiques.
- Les métadonnées sociales constituent des connaissances, telles que des attestations ou des approbations de certains actifs de données, ou d'autres annotations générées par l'utilisateur d'entrées dans le catalogue de données.
Fournisseurs courants de catalogue de données :
Il existe sur le marché de nombreux catalogues de données d'entreprise et intégrés, dont les fonctionnalités sont souvent similaires et se recoupent. Vous trouverez ci-dessous une brève comparaison des différentes options de catalogues de données.
- Catalogue de données d'alation. Alation est un outil de catalogage de données autonome qui utilise l'IA pour saisir le contexte des données d'une entreprise. Il est considéré comme une option facile à utiliser pour tous les employés.
- Catalogue Qlik. Le catalogue de données de Qlik propose également des outils automatisés de préparation des données et de métadonnées pour faciliter la transformation des données brutes. Il dispose également d'un datamart permettant aux utilisateurs de rechercher et de publier des ensembles de données.
- Catalogue de données Cloudera. Le catalogue de données de Cloudera permet aux utilisateurs de découvrir, d'enregistrer et de surveiller leurs données. Ce produit permet également de contrôler les accès et de protéger les informations sensibles contre tout accès non autorisé.
- Catalogue Collibra. Cette option est un autre catalogue de données indépendant, conçu pour les utilisateurs professionnels. Il s'agit d'un référentiel consultable qui facilite la recherche et la compréhension des données. Il permet également aux administrateurs de documenter les rôles et responsabilités.
- Catalogue de connaissances IBM Watson. Il s'agit d'un catalogue de données intelligent ouvert pour la gouvernance des modèles d'IA et des données. Cette option offre aux utilisateurs la prise en charge de la virtualisation des données en temps réel, le masquage dynamique des données et la génération automatique de métadonnées.
- Infrastructure cloud Oracle. Les produits Oracle offrent des options de recherche et d'exploration qui permettent aux utilisateurs de trouver des données à partir de diverses sources différentes grâce à des recherches et des filtres à multiples facettes, et de collecter des métadonnées techniques sur les actifs de données.
Conclusion
Merci d'avoir lu notre article et nous espérons qu'il vous aidera à trouver le catalogue de données le plus adapté à votre entreprise. Pour en savoir plus sur le meilleur catalogue de données, nous vous conseillons de consulter notre site. Gudu SQLFlow pour plus d'informations.
En tant que l'un des meilleurs outils de lignage de données Disponible sur le marché aujourd'hui, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, obtenir la lignée des données et effectuer un affichage visuel, mais également permettre aux utilisateurs de fournir la lignée des données au format CSV et d'effectuer un affichage visuel. (Publié par Ryan le 2 juillet 2022)
Si vous aimez lire ceci, alors n'hésitez pas à explorer nos autres articles ci-dessous :