Die 7 besten Open-Source-Tools zur Datenverwaltung im Jahr 2022
Eine gute Open Source finden Daten-Governance-Tool kann aus vielen Gründen eine Herausforderung sein. In erster Linie ist die größte Hürde bei der Entscheidung über alles, was mit Datenverwaltung Das Fehlen eines standardisierten Ansatzes – die Ziele sind nicht klar definiert. Darüber hinaus sind die Data-Governance-Funktionen der meisten Open-Source-Tools unklar. Sie müssen die Dokumentationsseiten und das GitHub-Repository durchforsten, um festzustellen, ob ein bestimmtes Tool für einen bestimmten Anwendungsfall geeignet ist.
Darüber hinaus sind die Data-Governance-Funktionen der meisten Open-Source-Tools unklar. Daher müssen Sie die Dokumentationsseiten und GitHub-Repositories durchforsten, um festzustellen, ob ein bestimmtes Tool für einen bestimmten Anwendungsfall geeignet ist. Um Ihnen die Auswahl zu erleichtern, haben wir eine Liste der besten Open-Source-Data-Governance-Tools des Jahres 2022 zusammengestellt.

Die besten Open Source-Tools zur Datenverwaltung
Beste Open Source Data Governance Tools – 1. Amundsen
Amundsen wurde ursprünglich bei Lyft entwickelt und wird derzeit von der LF AI & Data Foundation gehostet und gepflegt. Im Bereich Data Governance befasst es sich hauptsächlich mit Datensicherheit und der Einhaltung von Datenschutz- und Souveränitätsgesetzen. Die Idee besteht darin, alle Daten auf Metadatenebene zu kennzeichnen und zu kategorisieren.
Mit Amundsen können Sie nach Metadaten suchen und herausfinden, wer die Daten wie oft nutzt. Sie können sich einen Eindruck von den Daten verschaffen, indem Sie sich die Datenzugriffsmuster ansehen. Dieser Ansatz ist jedoch eher reaktiv. Für einen proaktiveren Ansatz benötigen Sie feingranulare Zugriffskontrollen, um den Zugriff auf Daten basierend auf Team-, Rollen-, Einzel-, System- usw. Datenzugriffsrichtlinien zu verhindern.
Obwohl Sie in Amundsen noch nicht über RBAC (rollenbasierte Zugriffskontrolle) verfügen, verfügen Sie dennoch über einige wichtige Datenverwaltungsfunktionen, wie z. B. das Markieren und Kategorisieren von Metadaten.
Aufgrund der eingeschränkten Data-Governance-Funktionen des standardmäßigen Neo4J-Backends entschied sich Amundsen, Unterstützung für Apache Atlas hinzuzufügen. Da Apache Atlas einer der ausgereiftesten Metadatenverwaltung Plattformen, viele Funktionen wurden in verschiedenen Systemen erprobt und getestet und sorgen für Zuverlässigkeit bei Datenkatalogisierungs- und Governance-Lösungen. Amundsen bietet gute Unterstützung für Datenherkunft und Label-/Badge-Verbreitung (mithilfe der Herkunft).
Neo4j- oder Atlas-Backends eignen sich grundsätzlich für die meisten Unternehmen. Manche Unternehmen wünschen sich jedoch erweiterte Funktionen für ihre Datenkatalogisierungs- und Governance-Lösungen.
Beste Open-Source-Data-Governance-Tools – 2. DataHub
LinkedIn entwickelte DataHub, nachdem WhereHows die wachsende Nachfrage nach Tools zur Metadatensuche und -ermittlung nicht mehr befriedigen konnte. Vor DataHub nutzte LinkedIn bereits andere Tools in Verbindung mit WhereHows, um Datenverwaltungsfunktionen hinzuzufügen.
DataHub ermöglicht Ihnen eine feingranulare Zugriffskontrolle auf Metadaten. Der Zugriff wird durch Richtlinien gesteuert, die Sie über die Web-Benutzeroberfläche und die GraphQL-API deklarieren können. Die DataHub-Strategie greift auf zwei Ebenen: Plattform und Metadaten. Über Plattformrichtlinien können Sie Benutzerberechtigungen für DataHub steuern, beispielsweise welche Funktionen und in welchem Umfang Benutzer diese anzeigen und nutzen können.
Sie können diese Richtlinien auf einzelne Benutzer oder Gruppen anwenden. Metadatenrichtlinien hingegen ermöglichen es Ihnen, zu steuern, welche Benutzer Zugriff auf verschiedene Metadatenentitäten, Diagramme, Datenquellen, Dashboards usw. haben und welche Aktionen sie darauf ausführen können. DataHub ermöglicht Ihnen derzeit jedoch nicht, Leseberechtigungen zu steuern.
Mehrere weitere Funktionen sind Teil der DataHub-Roadmap, es gibt jedoch noch keinen klar definierten Zeitplan. Eine der wichtigsten Data-Governance-Funktionen ist RBAC, die rollenbasierte Zugriffskontrolle für Entitäten und Aspekte (PDL-Datensätze). RBAC bietet nicht nur eine feinere Zugriffskontrolle für Metadaten, sondern unterstützt auch ein besseres Label-Management, die Zugriffskontrolle für die Datenvorschau und vieles mehr.
In Bezug auf Governance/Datenschutz: DataHub unterstützt die Klassifizierung auf Datensatzebene, die kontrollierte Datenbewegung, die automatische Datenlöschung, den Datenexport und vieles mehr. Im Rahmen der Roadmap ist geplant, einige Compliance-Funktionen als Open Source bereitzustellen.
Beste Open-Source-Tools für Data Governance – 3. Apache Atlas
Als einer der ersten Open-Source-Datenkataloge mit integrierten Data-Governance-Funktionen hatte das Apache Atlas-Projekt einen eher langsamen Entwicklungszyklus, ganz zu schweigen davon, dass das Projekt speziell für das Hadoop-Ökosystem entwickelt wurde. Es funktioniert mit allen in Hive integrierten Systemen.
Apache Atlas eignet sich besonders gut für die Klassifizierung und ermöglicht die Erstellung von Kategorien für Datensensitivität, Ablaufdatum und Qualität im Handumdrehen. Damit kommen wir zur Datenherkunft, einer weiteren beliebten Funktion von Apache Atlas. Atlas implementiert echte Datenherkunft, d. h. die Herkunft ist operativ.
Durch die Verwendung von Herkunftsdaten kann Apache Atlas Metadateneigenschaften an Entitäten in einer Herkunftshierarchie weitergeben, eine Funktion, die Sie in anderen Datenverwaltungstools nicht finden.
Apache Atlas bietet außerdem zahlreiche DE-Datenschutz- und Sicherheitsfunktionen. Beispielsweise bietet es eine feingranulare Zugriffskontrolle für Entitäten und Kategorien und arbeitet optimal mit Apache Ranger zur Datenautorisierung und -maskierung zusammen. Im Zusammenspiel bilden diese Funktionen ein effektives Datenschutz- und Sicherheitsnetzwerk, das den Schutz oder die Klassifizierung von Daten als PII, sensibel usw. ermöglicht. Insbesondere bietet es Ihnen auch einen Rahmen zur Kontrolle des Zugriffs auf PII und sensible Daten.
Beste Open Source Data Governance Tools – 4. Magda
MAGDA wurde von Data61, dem Data-Science-Zweig der CSIRO (Commonwealth Scientific and Industrial Research Organisation of Australia), entwickelt und steht für „Making Australian Government Data Available“. Die CSIRO setzte Magda ein, um ein Open-Data-Portal mit über 70.000 Datensätzen der australischen Bundes- und Landesregierungen zu erstellen und stellte das Projekt als Open Source für andere zur Verfügung.
Obwohl Magdas umfangreichste und ausgereifteste Funktion weiterhin die Suche und Entdeckung ist, bietet es auch leistungsstarke Unterstützung für das Taggen und Definieren von Datensatzthemen. Darüber hinaus verfügt Magda über integrierte Datenvorschau-Optionen, darunter Tabellenkalkulationen und interaktive Diagramme. Andere Tools wie Amundsen müssen in Superset integriert werden. Ein Vorbehalt: Die Integration mit Tools wie Superset für die Datenvorschau ist skalierbarer.
Obwohl Magda derzeit keine rollenbasierte Zugriffskontrolle (RBAC) unterstützt, unterstützt es Funktionen, die eine strenge Kontrolle des Zugriffs auf Ressourcen in Magda aufgenommen. Magda nutzt Kubernetes, um Cloud-unabhängig zu bleiben. Es nutzt den Open Policy Broker Standard zur Verwaltung von Zugriffsrichtlinien, der verschiedene Arten der Zugriffskontrolle ermöglicht, z. B. rollenbasiert, attributbasiert usw.
Beste Open Source Data Governance Tools – 5. Offene Metadaten
Angekündigt im August 2021, Offene Metadaten definiert Spezifikationen zur Standardisierung von Metadaten mithilfe eines Schema-First-Ansatzes, der aus einem zentralen Metadatenspeicher und einem Aufnahmeframework besteht, das gängige Konnektoren im Datenstapel unterstützt.
Open Metadata verfolgt einen anderen Tagging-Ansatz. Er ermöglicht die Kennzeichnung von Dateneigentümern mit Datensätzen und die Kennzeichnung von Datensätzen in mehreren Ebenen basierend auf ihrer Wichtigkeit. Open Metadata implementiert zudem die gesamte Metadaten-Versionskontrolle. Das bedeutet, dass neben den Datenbankentitäten (Tabellen, Ansichten, Modus), dem Tag, den Eigentümern des Datensatzes, detaillierten Informationen und dem zugehörigen Fachvokabular alle Metadaten für die Versionskontrolle sowie alle Informationen zu Änderungen, z. B. wer die Änderung vorgenommen hat und wann, gespeichert werden.
Beste Open Source Data Governance Tools – 6.Egeria
Egeria wurde 2019 eingeführt und wird von der Abteilung für KI und Daten der Linux Foundation betreut. Es ermöglicht den einfachen und herstellerneutralen Austausch von Metadaten zwischen Tools und Plattformen. Andere Tools nutzen hierfür SDKs und APIs, deren Möglichkeiten jedoch begrenzt sind. Egeria hingegen leistet gute Arbeit, da es auf den Prinzipien der Plattformunabhängigkeit, der einfachen Erweiterbarkeit und der Datenzugänglichkeit basiert.
Während alle anderen Tools, die wir bisher gesehen haben, Probleme der Metadatenverwaltung und -verwaltung in erster Linie aus der Benutzerperspektive angehen, versucht Egeria, Probleme für Benutzer und Systeme zu lösen und funktioniert gut mit einer Vielzahl von Datentools.
Egeria bietet Ihnen eine sehr detaillierte und feingranulare Kontrolle über Ihre Metadaten durch Governance-Regionen, Gültigkeitsdaten, Metadatenarchivierung, Metadatenherkunft und vieles mehr, von denen einige nur bei Egeria verfügbar sind. Erwähnenswert ist auch, dass es über 800 vordefinierte Funktionen bietet, die jedoch nicht darauf beschränkt sind. MetadatentypenSie können auch Ihre eigenen Typen basierend auf Ihren Geschäftsanforderungen definieren. Dies bedeutet, dass Egeria flexibel genug ist, um sich an Ihre Geschäftsanforderungen anzupassen.
Beste Open Source Data Governance Tools – 7. Truedat
Schließlich TrueDat, wohl das einzige ausgereifte Open-Source-Tool zur Datenverwaltung auf der Liste, wurde von BlueTab (jetzt IBM) erstellt, nachdem das Unternehmen als Anbieter von Datenlösungen die Marktbedürfnisse erkannt und Lücken im Bereich der Datenverwaltung festgestellt hatte.
TrueDat verfügt über eine Reihe von Funktionen, die sich mit den anderen oben genannten Tools überschneiden, darunter Datenkataloge, Suchmaschinen, Datenherkunftsfunktionen und so weiter. Die beliebtesten Funktionen sind jedoch die Geschäftsvokabular und die Möglichkeit, Daten teamübergreifend zu teilen, mit feinkörnigen Kontrollen, die sich auf Datenverwaltung und Dateneigentumsverwaltung, Klassifizierung usw. konzentrieren.
Weitere Funktionen machen TrueDat in dieser Liste einzigartig. Eine davon ist die Datenfreigabefunktion ähnlich der von Snowflake, die Teams den Austausch und die effektivere Zusammenarbeit erleichtert. Um ein hohes Maß an Sicherheit und Kontrolle über die Daten zu gewährleisten, können Abonnement- und Benachrichtigungsfunktionen genutzt werden, um Änderungsereignisse in Prüfprotokollen aufzuzeichnen und in Echtzeit zu überwachen.
Abschluss
Vielen Dank für das Lesen unseres Artikels. Wir hoffen, er ist hilfreich für Sie bei der Suche nach den besten Open-Source-Data-Governance-Tools. Für weitere Informationen zu Open-Source-Data-Governance-Tools empfehlen wir Ihnen die Nutzung von Gudu SQLFlow für weitere Informationen.
Als einer der die besten Datenherkunftstools Gudu SQLFlow ist heute auf dem Markt erhältlich und kann nicht nur SQL-Skriptdateien analysieren, Datenherkunft ermitteln und visuelle Anzeigen durchführen, sondern ermöglicht es Benutzern auch, Datenherkunft im CSV-Format und führen Sie eine visuelle Anzeige durch. (Veröffentlicht von Ryan am 16. Juli 2022)
Wenn Ihnen dies gefällt, sehen Sie sich bitte auch unsere anderen Artikel unten an: