Die 5 besten Open-Source-Data-Lineage-Tools, die Sie 2022 in Betracht ziehen sollten

Die Essenz von Datenverwaltung Ziel ist es, Unternehmen bei der Erstellung von Datenrichtlinien zu unterstützen und deren Einhaltung sicherzustellen. Diese Richtlinien decken eine Reihe datenbezogener Prozesse ab, darunter Richtlinien für Datenschutz, Verifizierung und Nutzung. Datenverwalter müssen die Datenanforderungen von Geschäftsbenutzern einholen und mit den Mitgliedern des Data Governance Council zusammenarbeiten, um gemeinsame Datendefinitionen zu vereinbaren, festzulegen Datenqualität Messgrößen, formulieren Sie relevante Richtlinien und entwickeln Sie Methoden zur Messung der Einhaltung.

Die besten Open-Source-Tools zur Datenherkunft

Die besten Open-Source-Tools zur Datenherkunft

Die Definition von Data-Governance-Richtlinien und deren Umsetzung ist jedoch oft eine große Herausforderung. Ziel dieser Strategien ist die Kontrolle und Überwachung der Datenqualität in allen Geschäftsabläufen. Datenverwalter mit zentralen Aufgaben im Datenqualitätsmanagement sind jedoch oft nicht ausreichend geschult oder qualifiziert. Hier kommt die Datenherkunftstool kommt ins Spiel. In diesem Artikel stellen wir vor Die 5 besten Open-Source-Tools zur Datenherkunft die im Jahr 2022 auf dem Markt zu finden sind.

Beste Open Source Data Lineage Tools – 1. Tokern

Tokenn-Übersicht:

Tokern ist für die Cloud konzipiert Data Warehouses Und Datenseen, und verfolgt einen speziellen Ansatz, der es Ihnen ermöglicht, Datenherkunft auf Spaltenebene aus Datenbanken und Data Warehouses abzurufen, die auf Google BigQuery, AWS Redshift und Snowflake gehostet werden. Darüber hinaus mehr Ressourcen wie SparkSQL, AWS Athena und Presto befinden sich in der Entwicklung. Tokenn verfügt über beträchtliche Integrationsmöglichkeiten, da es mit den meisten Open-Source-Datenkatalogen und ETL-Frameworks gut funktioniert.

Funktionen der Tokern-Datenherkunft:

Token wurde vor einiger Zeit veröffentlicht und berücksichtigt die neuesten Datentechnik- und Designmuster. Ein Beispiel dafür ist, dass neben dem Bau Datenherkunft Tokenn ermöglicht Ihnen außerdem die Erstellung von Datenherkunftsverzeichnissen aus Abfrageverlauf oder ETL-Skripten. Dies eignet sich ideal für die Integration von BI- und ETL-Tools. Tokenn speichert den Datenkatalog und die Datenherkunft in einer PostgreSQL-Datenbank. Benutzer können auf diese Datenbank für weitere Analysen per SQL zugreifen oder die Daten in andere Visualisierungs- und Analyse-Engines einspeisen.

Die Visualisierungs-Engine Kedro-Viz und die Netzwerkgraphen-Analysebibliothek NetworkX bilden die Grundlage für die hervorragenden Visualisierungs- und Analysefunktionen von Tokenn. Diese Bibliotheken unterstützen Sie bei der Verfolgung, Visualisierung und Analyse von Herkunftsdaten auf Spaltenebene. Sie können außerdem über das SDK oder die API von Token mit Herkunftsdaten interagieren.

Zusätzlich zu seinen hochmodernen Datenherkunftsfunktionen nutzt Tokern PIICatcher zur Erkennung von PII (persönlich identifizierbaren Informationen) und PHI (persönlichen Gesundheitsinformationen). Das integrierte Tool kombiniert reguläre Ausdrücke mit mehreren Standard-NLP-Bibliotheken zur PII-Erkennung, wie beispielsweise Spacy und Stanford NER.

Beste Open Source Data Lineage Tools – 2. Egeria

Egeria-Übersicht:

Egeria gilt als weltweit erster Open-Source-Metadatenstandard und ermöglicht die nahtlose Integration von Data-Engineering-Tools für eine zuverlässige und konsistente Metadatenansicht. Neben der Katalogisierung und Suche von Metadaten ermöglicht der Standard Nutzern auch die Entwicklung fortschrittlicherer Lösungen zur Datenherkunftsverfolgung, Datenqualitätsprüfung, PII-Identifizierung und vielem mehr.

Viele Datentechnik-Architekturen erfordern viel unnötige Kommunikation zwischen verschiedenen Datentools. Egeria setzt hier auf ein Speichen-Rad-Modell, bei dem alles über Egeria läuft. So benötigen Benutzer nur noch ein Tool für die Kommunikation.

Funktionen der Egeria-Datenherkunft:

Die Datenherkunft in Egeria nutzt bekannte offene Standards zur Erfassung und Speicherung einer Datenherkunft namens OpenLineage. OpenLineage bietet Ihnen zudem einen besseren Einblick in Ihre Daten, indem es einen horizontalen und vertikalen Stammbaum der Tracking-Daten bereitstellt.

Egeria überwacht Kafka-Ereignisse, die vom Quellsystem ausgegeben werden, um Informationen zur Datenherkunft zu erfassen. Nach Erhalt der Datenherkunftsinformationen weist Egeria die Herkunftsmanager an, Herkunftsdiagramme abzugleichen und zu verknüpfen, die Egeria nicht erstellen kann. Anschließend ist die Herkunft für die kommerzielle Nutzung freigegeben.

Die Datenherkunftsfunktionen von Egeria sind optimal auf die Funktionen zur Datenermittlung und -verwaltung, zur Metadatenherkunft usw. abgestimmt. Diese Funktionen sowie das Design und die Architektur von Egeria machen es zu einem überzeugenden und durchdachten Tool für Datenverwaltung und Datenherkunft.

Beste Open-Source-Datenherkunftstools – 3. Pachyderm

Dickhäuter-Übersicht:

Wie das gerade erwähnte Tokenn ist auch Pachyderm ein spezialisiertes Tool zur Datenherkunft. Anstatt sich auf Cloud-Data Warehouses zu konzentrieren, ermöglicht es Entwicklern den sprach- und frameworkunabhängigen Aufbau von Machine-Learning-Pipelines.

Pachyderm implementiert ein Versionskontrollsystem wie lakeFS oder Git, um die Herkunft von Datenobjekten zu sichern. Änderungen an diesen Objekten (z. B. Commit) werden von Pachyderm erfasst und gespeichert, um ein vollständiges und unveränderliches Audit-Protokoll der Ereignisse zu gewährleisten. Audit-Protokolle ermöglichen Ihnen eine Datenherkunftskarte zur Ansicht und Analyse und ermöglichen Ihnen die jederzeitige Reproduktion von Daten und Code zu Debugging- oder Compliance-Zwecken.

Merkmale der Pachyderm-Datenherkunft:

Um eine nahtlose Datenherkunftsverfolgung und -versionierung zu gewährleisten, verwendet Pachyderm ein zentrales Repository, das Objektspeicher wie AWS S3 in einem benutzerdefinierten Dateisystem namens PFS (Pachyderm File System) nutzt. PFS macht Ihren Objektspeicher (z. B. S3) zur einzigen echten Quelle Ihrer Daten mit vollständigem Verlauf.

Pachyderm erzwingt außerdem Invarianz in Ihrer Datenquelle, wodurch es globale IDs für Herkunftsereignisse und Datenobjekte zuweisen kann. Pachyderm ermöglicht es Ihnen, unveränderliche Datenherkunftsdiagramme in der Benutzeroberfläche als DAGs zu behandeln. Beide Funktionen sind nützlich, wenn Sie mit ML-Pipes arbeiten und die Ergebnisse auf ihre Eingaben zurückführen möchten.

Pachyderm lässt sich in die gängigsten Datenbanken, Data Warehouses und Data Lakes integrieren. Darüber hinaus können Sie Daten aus jeder Datenbank mithilfe eines SQL-basierten Ingestion-Tools in Pachyderm importieren. Als universelles Data-Lineage-Tool weist Pachyderm jedoch Einschränkungen auf, weshalb die meisten Unternehmenskunden es für MLOps, ETL für unstrukturierte Daten und NLP-Workloads nutzen.

Beste Open-Source-Data-Lineage-Tools – 4. OpenLineage

OpenLineage-Übersicht:

OpenLineage wurde von DataKin gegründet, dem Unternehmen, das Marquez‘ Entwicklung übernahm, nachdem WeWork sie geöffnet hatte. DataKin übergab das OpenLineage-Projekt Mitte 2021 als Sandbox-Projekt an die Linux Foundation. Inspiriert von der allgegenwärtigen OpenTelemetry im Bereich der Datenbeobachtung zielt OpenLineage darauf ab, einen offenen Standard für die Erfassung und Analyse von Datenherkünften zu etablieren.

OpenLineage-Funktionen:

Integration ist ein zentraler Bestandteil von OpenLineages Design und Mission. Es integriert sich in das ETL-Framework, die Datenorchestrierungs-Engine, das Metadatenverzeichnis, die Datenqualitäts-Engine und die Data-Lineage-Tools. OpenLineage verwendet JSONSchema als API-Definition und unterstützt verschiedene Sprachen und Frameworks. Egeria ist eines der beliebtesten Datentools, dessen zentrale Metadatenebene auf OpenLineage basiert.

Marquez von WeWork bildet auch das Herzstück der OpenLineage-Architektur, da Marquez die Benutzeroberfläche und das Metadaten-Repository bereitstellt und die API zur Metadatenerfassung von OpenLineage stammt. OpenLineage steht Ihnen auch über GraphQL- und REST-APIs zur Verfügung.

OpenLineage ist eine attraktive Wahl, da es problemlos mit den meisten vorhandenen Datentechnik-Stacks verwendet werden kann und Ihnen eine breite Palette spannender und wertvoller Funktionen bietet, sodass Sie die Datenherkunft umfassend erfassen, verfolgen und analysieren können.

Beste Open-Source-Datenherkunftstools – 5. TrueDat

TrueDat-Übersicht:

Als umfassende Data-Governance-Lösung ermöglicht Ihnen TrueDat die detaillierte Kategorisierung, Suche und Nachverfolgung Ihrer Daten. Dank der Data-Lineage-Funktionen können Sie mit TrueDat außerdem den gesamten Lebenszyklus Ihrer Daten visualisieren und erhalten so Einblick in deren Entwicklung im Laufe der Zeit.

TrueDat wurde 2017 von BlueTab (einem IBM-Unternehmen) entwickelt und befindet sich seitdem in der aktiven Entwicklung. Die neueste Version V4.39 wurde im März 2022 veröffentlicht.

TrueDat Data Lineage-Funktionen:

Mit TrueDat können Sie die Auswirkungen von Datenbankänderungen anhand der Datenherkunft analysieren und Ihre Geschäftslogik im Reporting besser verstehen. Sie können die Herkunft eines Datenobjekts zeitpunktgenau verfolgen. Für erweiterte Analysen können Sie Filter auf Herkunftsobjekte anwenden, um bestimmte Teile des Herkunftsdiagramms zu untersuchen. Zusätzlich zur grafischen Darstellung in der Benutzeroberfläche können Sie die gesammelten Datenherkunftsinformationen in eine CSV-Datei herunterladen. Da TrueDat hervorragende Data-Governance- und Herkunftsfunktionen bietet, ist es ein echter Kandidat zur Lösung Ihrer Datenherkunftsprobleme.

Abschluss

Vielen Dank für das Lesen unseres Artikels und wir hoffen, dass er Ihnen dabei helfen kann, die die besten Open-Source-DatenherkunftstoolsWenn Sie mehr über die Datenherkunft erfahren möchten, empfehlen wir Ihnen, Gudu SQLFlow für weitere Informationen.

Als einer der die besten Datenherkunftstools Gudu SQLFlow ist heute auf dem Markt erhältlich und kann nicht nur SQL-Skriptdateien analysieren, Datenherkunft, und führen Sie eine visuelle Anzeige durch, ermöglichen Sie Benutzern aber auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuführen. (Veröffentlicht von Ryan am 14. Juli 2022)

Testen Sie Gudu SQLFlow Live

SQLFlow Cloud-Version

Abonnieren Sie den wöchentlichen Newsletter

Hinterlasse einen Kommentar