Les 7 meilleurs outils de gouvernance des données open source en 2022

Trouver un bon open source outil de gouvernance des données peut être un défi pour de nombreuses raisons. Tout d'abord, le plus grand obstacle à toute décision concernant gouvernance des données L'absence d'approche standardisée est un problème : les objectifs ne sont pas clairement définis. De plus, les capacités de gouvernance des données de la plupart des outils open source sont floues. Il est nécessaire de consulter la documentation et le dépôt GitHub pour déterminer si un outil est adapté à un cas d'utilisation précis.

De plus, les capacités de gouvernance des données de la plupart des outils open source sont floues. Il est donc nécessaire de consulter la documentation et les dépôts GitHub pour déterminer si un outil est adapté à un cas d'utilisation précis. Pour simplifier votre évaluation, nous avons compilé une liste des meilleurs outils open source de gouvernance des données en 2022.

Meilleurs outils de gouvernance des données open source

Meilleurs outils de gouvernance des données open source

Meilleurs outils de gouvernance des données open source – 1. Amundsen

Amundsen a été initialement développé chez Lyft et est actuellement hébergé et maintenu par la LF AI & Data Foundation. En termes de gouvernance des données, il s'agit principalement de la sécurité des données et du respect des lois sur la confidentialité et la souveraineté des données. L'idée est d'étiqueter et de catégoriser toutes les données au niveau des métadonnées.

Grâce à Amundsen, vous pouvez rechercher des métadonnées et identifier qui les utilise et à quelle fréquence. L'analyse des modèles d'accès permet d'obtenir une idée des données, mais cette approche est plus réactive. Pour une approche plus proactive, des contrôles d'accès précis sont nécessaires afin d'empêcher l'accès aux données en fonction des politiques d'accès aux données de l'équipe, du rôle, de l'individu, du système, etc.

Bien que vous ne disposiez pas encore de RBAC, le contrôle d'accès basé sur les rôles dans Amundsen, vous disposez toujours de certaines fonctionnalités essentielles de gouvernance des données, telles que le balisage et la catégorisation des métadonnées.

En raison des capacités limitées de gouvernance des données offertes par le backend Neo4J par défaut, Amundsen a décidé d'ajouter la prise en charge d'Apache Atlas. Apache Atlas étant l'un des plus matures, gestion des métadonnées Plateformes, de nombreuses fonctionnalités ont été testées et éprouvées sur divers systèmes, apportant de la fiabilité aux solutions de catalogage et de gouvernance des données. Amundsen offre un excellent support pour lignée de données et propagation d'étiquettes/badges (en utilisant la lignée).

Les backends Neo4j ou Atlas conviennent généralement à la plupart des entreprises. Certaines entreprises recherchent des fonctionnalités plus avancées pour leurs solutions de catalogage et de gouvernance de données.

Meilleurs outils de gouvernance des données open source – 2. DataHub

LinkedIn a créé DataHub après que WhereHows ne soit plus une solution viable pour répondre à la demande croissante d'outils de recherche et de découverte de métadonnées. Avant DataHub, LinkedIn utilisait d'autres outils en conjonction avec WhereHows pour ajouter des fonctionnalités de gouvernance des données.

DataHub vous permet de contrôler précisément l'accès aux métadonnées. Cet accès est régi par des politiques que vous pouvez déclarer depuis l'interface Web et l'API GraphQL. La stratégie de DataHub s'applique à deux niveaux : la plateforme et les métadonnées. Les politiques de plateforme vous permettent de contrôler les autorisations des utilisateurs pour DataHub, par exemple les fonctionnalités et les limites de leur consultation et de leur utilisation.

Vous pouvez appliquer ces politiques à des utilisateurs individuels ou à des groupes. Les politiques de métadonnées, quant à elles, vous permettent de contrôler les utilisateurs ayant accès aux différentes entités de métadonnées, graphiques, sources de données, tableaux de bord, etc., ainsi que les actions qu'ils peuvent y effectuer. Cependant, DataHub ne permet actuellement pas de contrôler les autorisations de lecture.

Plusieurs autres fonctionnalités font partie de la feuille de route de DataHub, mais aucun calendrier précis n'a encore été défini. L'une des principales fonctionnalités de gouvernance des données est le RBAC (contrôle d'accès basé sur les rôles) pour les entités et les aspects (enregistrements PDL). Le RBAC offre non seulement un contrôle d'accès plus précis aux métadonnées, mais contribue également à une meilleure gestion des étiquettes, au contrôle d'accès à l'aperçu des données, et bien plus encore.

En termes de gouvernance et de confidentialité : DataHub prend en charge la classification des ensembles de données, le déplacement des données gérées, la suppression automatique des données, l'exportation des données, etc. L'entreprise prévoit de rendre open source certaines fonctionnalités de conformité dans le cadre de sa feuille de route.

Meilleurs outils de gouvernance des données open source – 3. Apache Atlas

Étant l'un des premiers catalogues de données open source à intégrer des fonctionnalités de gouvernance des données, le projet Apache Atlas a connu un cycle de développement plutôt lent, sans compter qu'il a été spécialement conçu pour l'écosystème Hadoop. Il est compatible avec tout ce qui est intégré à Hive.

Apache Atlas est particulièrement performant en matière de classification, avec la possibilité de créer instantanément des catégories de sensibilité, d'expiration et de qualité des données, ce qui nous amène au lignage des données, une autre fonctionnalité populaire d'Apache Atlas. Atlas met en œuvre un véritable lignage des données, c'est-à-dire un lignage opérationnel.

En utilisant des données de lignée, Apache Atlas peut propager les propriétés de métadonnées aux entités d'une hiérarchie de lignée, une fonctionnalité que vous ne trouverez pas dans d'autres outils de gouvernance des données.

Apache Atlas propose également plusieurs fonctionnalités de confidentialité et de sécurité des données DE. Par exemple, il offre un contrôle d'accès précis aux entités et aux catégories, et fonctionne parfaitement avec Apache Ranger pour l'autorisation et le masquage des données. Ensemble, ces fonctionnalités forment un réseau efficace de confidentialité et de sécurité des données, permettant de protéger les données ou de les classer comme PII, sensibles, etc. Il fournit également un cadre pour contrôler l'accès aux PII et aux données sensibles.

Meilleurs outils de gouvernance des données open source – 4. Magda

Développé par Data61, la branche data science du CSIRO (Commonwealth Scientific and Industrial Research Organisation of Australia), MAGDA est l'acronyme de « Making Australian Government Data Available ». Le CSIRO a déployé Magda pour créer un portail de données ouvertes contenant plus de 70 000 jeux de données provenant des gouvernements fédéral et des États australiens, et a mis le projet en open source pour que d'autres puissent l'utiliser.

Bien que les fonctionnalités les plus riches et les plus abouties de Magda restent la recherche et la découverte, le logiciel offre également un support performant pour le balisage et la définition des sujets d'ensembles de données. De plus, Magda intègre des options de prévisualisation des données, notamment des feuilles de calcul et des graphiques interactifs. D'autres outils, comme Amundsen, doivent être intégrés à Superset. Un bémol : l'intégration avec des outils comme Superset pour la prévisualisation des données est plus évolutive.

Bien que Magda ne prenne pas actuellement en charge le RBAC (contrôle d'accès basé sur les rôles), il prend en charge des fonctionnalités qui permettent un contrôle strict de l'accès aux ressources Intégré dans Magda. Magda utilise Kubernetes pour rester indépendant du cloud. Il utilise la norme Open Policy Broker pour gérer les politiques d'accès, ce qui facilite différents types de contrôle d'accès, tels que le contrôle basé sur les rôles, les attributs, etc.

Meilleurs outils de gouvernance des données open source – 5. Métadonnées ouvertes

Annoncé en août 2021, Métadonnées ouvertes définit des spécifications pour normaliser les métadonnées à l'aide d'une approche basée sur le schéma, composée d'un magasin de métadonnées centralisé et d'un cadre d'ingestion prenant en charge les connecteurs populaires dans la pile de données.

Open Metadata adopte une approche différente du balisage, permettant d'étiqueter les propriétaires de données avec des ensembles de données, et de les classer en plusieurs couches selon leur importance. Open Metadata implémente également le contrôle de version des métadonnées : les entités de base de données (tables, vues, mode), les balises, les informations détaillées sur la propriété de l'ensemble de données et le vocabulaire métier permettent de gérer toutes les métadonnées pour le contrôle de version, ainsi que toutes les informations sur les modifications, telles que l'auteur et la date de modification.

Meilleurs outils de gouvernance des données open source – 6.Egeria

Lancé en 2019 et maintenu par la division IA et Données de la Fondation Linux, Egeria est conçu pour échanger facilement des métadonnées entre outils et plateformes, indépendamment des fournisseurs. D'autres outils le font via des SDK et des API, mais leurs capacités sont limitées. Egeria, quant à lui, y parvient parfaitement grâce à ses principes d'indépendance vis-à-vis de la plateforme, de facilité d'extensibilité et d'accessibilité aux données.

Alors que tous les autres outils que nous avons vus jusqu'à présent abordent les problèmes de gestion et de gouvernance des métadonnées principalement du point de vue de l'utilisateur, Egeria essaie de résoudre les problèmes des utilisateurs et des systèmes, et fonctionne bien avec une variété d'outils de données.

Egeria vous offre un contrôle très précis de vos métadonnées grâce aux régions de gouvernance, aux dates de validité, à l'archivage et à la provenance des métadonnées, entre autres fonctionnalités, dont certaines sont exclusives à Egeria. Il est également important de noter qu'il inclut, entre autres, plus de 800 métadonnées prédéfinies. types de métadonnéesVous pouvez également définir vos propres types en fonction des besoins de votre entreprise, ce qui signifie qu'Egeria est suffisamment flexible pour s'adapter aux besoins de votre entreprise.

Meilleurs outils de gouvernance des données open source – 7. Truedat

Enfin, TrueDat, sans doute le seul système mature outil de gouvernance des données open source sur la liste, a été créé par BlueTab (maintenant IBM) après avoir compris les besoins du marché en tant que fournisseur de solutions de données et trouvé des lacunes dans l'espace de gouvernance des données.

TrueDat dispose d'un ensemble de fonctionnalités qui se chevauchent avec les autres outils mentionnés ci-dessus, notamment catalogues de données, moteurs de recherche, capacités de traçabilité des données, etc. Cependant, les fonctionnalités les plus populaires sont vocabulaire des affaires et la capacité de partager des données entre les équipes, avec des contrôles précis qui se concentrent sur la gestion des données et la gestion de la propriété des données, la classification, etc.

D'autres fonctionnalités rendent TrueDat unique dans cette liste, notamment un système de partage de données similaire à celui de Snowflake, qui facilite le partage et la collaboration entre les équipes. De plus, afin de garantir un niveau élevé de sécurité et de contrôle des données, des fonctionnalités d'abonnement et de notification permettent d'enregistrer les événements de modification dans les pistes d'audit et de les surveiller en temps réel.

Conclusion

Merci d'avoir lu notre article et nous espérons qu'il vous sera utile dans votre recherche des meilleurs outils open source de gouvernance des données. Pour plus d'informations sur les outils open source de gouvernance des données, nous vous conseillons de consulter notre site. Gudu SQLFlow pour plus d'informations.

En tant que l'un des meilleurs outils de lignage de données Disponible sur le marché aujourd'hui, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, obtenir la lignée des données et effectuer un affichage visuel, mais également permettre aux utilisateurs de fournir lignée de données au format CSV et effectuer un affichage visuel. (Publié par Ryan le 16 juillet 2022)

Essayez Gudu SQLFlow Live

Version SQLFlow Cloud

Abonnez-vous à la newsletter hebdomadaire

Laissez un commentaire