{"id":5110,"date":"2022-07-14T07:53:44","date_gmt":"2022-07-14T15:53:44","guid":{"rendered":"https:\/\/www.gudusoft.com\/?p=5110"},"modified":"2022-07-15T05:12:40","modified_gmt":"2022-07-15T13:12:40","slug":"best-open-source-data-lineage-tools","status":"publish","type":"post","link":"https:\/\/www.gudusoft.com\/de\/beste-open-source-datenherkunftstools\/","title":{"rendered":"Die 5 besten Open-Source-Data-Lineage-Tools, die Sie 2022 in Betracht ziehen sollten"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"background-color: rgba(255,255,255,0);background-position: center center;background-repeat: no-repeat;border-width: 0px 0px 0px 0px;border-color:#e8eaf0;border-style:solid;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start\" style=\"max-width:1310.4px;margin-left: calc(-4% \/ 2 );margin-right: calc(-4% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\" style=\"background-position:left top;background-repeat:no-repeat;-webkit-background-size:cover;-moz-background-size:cover;-o-background-size:cover;background-size:cover;padding: 0px 0px 0px 0px;\"><div class=\"fusion-text fusion-text-1\" style=\"line-height:26px;\"><h2>Die 5 besten Open-Source-Data-Lineage-Tools, die Sie 2022 in Betracht ziehen sollten<\/h2>\n<p>Die Essenz von <a href=\"https:\/\/www.gudusoft.com\/de\/was-ist-daten-governance\/\"><strong>Datenverwaltung<\/strong><\/a> Ziel ist es, Unternehmen bei der Erstellung von Datenrichtlinien zu unterst\u00fctzen und deren Einhaltung sicherzustellen. Diese Richtlinien decken eine Reihe datenbezogener Prozesse ab, darunter Richtlinien f\u00fcr Datenschutz, Verifizierung und Nutzung. <a href=\"https:\/\/www.gudusoft.com\/de\/datenverwalter\/\"><strong>Datenverwalter<\/strong><\/a> m\u00fcssen die Datenanforderungen von Gesch\u00e4ftsbenutzern einholen und mit den Mitgliedern des Data Governance Council zusammenarbeiten, um gemeinsame Datendefinitionen zu vereinbaren, festzulegen <a href=\"https:\/\/www.gudusoft.com\/de\/so-verbessern-sie-die-datenqualitat\/\"><strong>Datenqualit\u00e4t<\/strong><\/a> Messgr\u00f6\u00dfen, formulieren Sie relevante Richtlinien und entwickeln Sie Methoden zur Messung der Einhaltung.<\/p>\n<div id=\"attachment_5114\" style=\"width: 919px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-5114\" decoding=\"async\" class=\"size-full wp-image-5114\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools.png\" alt=\"Die besten Open-Source-Tools zur Datenherkunft\" width=\"909\" height=\"521\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-200x115.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-300x172.png 300w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-400x229.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-600x344.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-768x440.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-800x459.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools.png 909w\" sizes=\"(max-width: 909px) 100vw, 909px\" \/><p id=\"caption-attachment-5114\" class=\"wp-caption-text\">Die besten Open-Source-Tools zur Datenherkunft<\/p><\/div>\n<p>Die Definition von Data-Governance-Richtlinien und deren Umsetzung ist jedoch oft eine gro\u00dfe Herausforderung. Ziel dieser Strategien ist die Kontrolle und \u00dcberwachung der Datenqualit\u00e4t in allen Gesch\u00e4ftsabl\u00e4ufen. Datenverwalter mit zentralen Aufgaben im Datenqualit\u00e4tsmanagement sind jedoch oft nicht ausreichend geschult oder qualifiziert. Hier kommt die <a href=\"https:\/\/www.dpriver.com\/blog\/2022\/05\/11\/best-data-lineage-tools\/\"><strong>Datenherkunftstool<\/strong><\/a> kommt ins Spiel. In diesem Artikel stellen wir vor<strong> Die 5 besten Open-Source-Tools zur Datenherkunft<\/strong> die im Jahr 2022 auf dem Markt zu finden sind.<\/p>\n<h3>Beste Open Source Data Lineage Tools \u2013 1. Tokern<\/h3>\n<p><strong>Tokenn-\u00dcbersicht:<\/strong><\/p>\n<p>Tokern ist f\u00fcr die Cloud konzipiert <strong><a href=\"https:\/\/www.gudusoft.com\/de\/what-is-a-data-warehouse\/\">Data Warehouses<\/a><\/strong> Und <strong><a href=\"https:\/\/www.gudusoft.com\/de\/was-ist-ein-data-lake\/\">Datenseen<\/a><\/strong>, and takes a dedicated approach to enabling you to obtain column-level data lineage from databases and data warehouses hosted on Google BigQuery, AWS Redshift, and Snowflake. In addition, more resources such as SparkSQL, AWS Athena, and Presto are in development. Tokenn has considerable integration capabilities because it works well with most of the open source data catalogs and ETL frameworks.<\/p>\n<p><strong>Funktionen der Tokern-Datenherkunft: <\/strong><\/p>\n<p>Token wurde vor einiger Zeit ver\u00f6ffentlicht und ber\u00fccksichtigt die neuesten Datentechnik- und Designmuster. Ein Beispiel daf\u00fcr ist, dass neben dem Bau <a href=\"https:\/\/www.gudusoft.com\/de\/whats-data-lineage-why-important\/\"><strong>Datenherkunft<\/strong><\/a> Tokenn erm\u00f6glicht Ihnen au\u00dferdem die Erstellung von Datenherkunftsverzeichnissen aus Abfrageverlauf oder ETL-Skripten. Dies eignet sich ideal f\u00fcr die Integration von BI- und ETL-Tools. Tokenn speichert den Datenkatalog und die Datenherkunft in einer PostgreSQL-Datenbank. Benutzer k\u00f6nnen auf diese Datenbank f\u00fcr weitere Analysen per SQL zugreifen oder die Daten in andere Visualisierungs- und Analyse-Engines einspeisen.<\/p>\n<p>Die Visualisierungs-Engine Kedro-Viz und die Netzwerkgraphen-Analysebibliothek NetworkX bilden die Grundlage f\u00fcr die hervorragenden Visualisierungs- und Analysefunktionen von Tokenn. Diese Bibliotheken unterst\u00fctzen Sie bei der Verfolgung, Visualisierung und Analyse von Herkunftsdaten auf Spaltenebene. Sie k\u00f6nnen au\u00dferdem \u00fcber das SDK oder die API von Token mit Herkunftsdaten interagieren.<\/p>\n<p>Zus\u00e4tzlich zu seinen hochmodernen Datenherkunftsfunktionen nutzt Tokern PIICatcher zur Erkennung von PII (pers\u00f6nlich identifizierbaren Informationen) und PHI (pers\u00f6nlichen Gesundheitsinformationen). Das integrierte Tool kombiniert regul\u00e4re Ausdr\u00fccke mit mehreren Standard-NLP-Bibliotheken zur PII-Erkennung, wie beispielsweise Spacy und Stanford NER.<\/p>\n<h3>Beste Open Source Data Lineage Tools \u2013 2. Egeria<\/h3>\n<p><strong>Egeria-\u00dcbersicht:<\/strong><\/p>\n<p>Egeria gilt als weltweit erster Open-Source-Metadatenstandard und erm\u00f6glicht die nahtlose Integration von Data-Engineering-Tools f\u00fcr eine zuverl\u00e4ssige und konsistente Metadatenansicht. Neben der Katalogisierung und Suche von Metadaten erm\u00f6glicht der Standard Nutzern auch die Entwicklung fortschrittlicherer L\u00f6sungen zur Datenherkunftsverfolgung, Datenqualit\u00e4tspr\u00fcfung, PII-Identifizierung und vielem mehr.<\/p>\n<p>Viele Datentechnik-Architekturen erfordern viel unn\u00f6tige Kommunikation zwischen verschiedenen Datentools. Egeria setzt hier auf ein Speichen-Rad-Modell, bei dem alles \u00fcber Egeria l\u00e4uft. So ben\u00f6tigen Benutzer nur noch ein Tool f\u00fcr die Kommunikation.<\/p>\n<p><strong>Funktionen der Egeria-Datenherkunft:<\/strong><\/p>\n<p>Die Datenherkunft in Egeria nutzt bekannte offene Standards zur Erfassung und Speicherung einer Datenherkunft namens OpenLineage. OpenLineage bietet Ihnen zudem einen besseren Einblick in Ihre Daten, indem es einen horizontalen und vertikalen Stammbaum der Tracking-Daten bereitstellt.<\/p>\n<p>Egeria \u00fcberwacht Kafka-Ereignisse, die vom Quellsystem ausgegeben werden, um Informationen zur Datenherkunft zu erfassen. Nach Erhalt der Datenherkunftsinformationen weist Egeria die Herkunftsmanager an, Herkunftsdiagramme abzugleichen und zu verkn\u00fcpfen, die Egeria nicht erstellen kann. Anschlie\u00dfend ist die Herkunft f\u00fcr die kommerzielle Nutzung freigegeben.<\/p>\n<p>Die Datenherkunftsfunktionen von Egeria sind optimal auf die Funktionen zur Datenermittlung und -verwaltung, zur Metadatenherkunft usw. abgestimmt. Diese Funktionen sowie das Design und die Architektur von Egeria machen es zu einem \u00fcberzeugenden und durchdachten Tool f\u00fcr Datenverwaltung und Datenherkunft.<\/p>\n<h3>Beste Open-Source-Datenherkunftstools \u2013 3. Pachyderm<\/h3>\n<p><strong>Dickh\u00e4uter-\u00dcbersicht:<\/strong><\/p>\n<p>Wie das gerade erw\u00e4hnte Tokenn ist auch Pachyderm ein spezialisiertes Tool zur Datenherkunft. Anstatt sich auf Cloud-Data Warehouses zu konzentrieren, erm\u00f6glicht es Entwicklern den sprach- und frameworkunabh\u00e4ngigen Aufbau von Machine-Learning-Pipelines.<\/p>\n<p>Pachyderm implementiert ein Versionskontrollsystem wie lakeFS oder Git, um die Herkunft von Datenobjekten zu sichern. \u00c4nderungen an diesen Objekten (z. B. Commit) werden von Pachyderm erfasst und gespeichert, um ein vollst\u00e4ndiges und unver\u00e4nderliches Audit-Protokoll der Ereignisse zu gew\u00e4hrleisten. Audit-Protokolle erm\u00f6glichen Ihnen eine Datenherkunftskarte zur Ansicht und Analyse und erm\u00f6glichen Ihnen die jederzeitige Reproduktion von Daten und Code zu Debugging- oder Compliance-Zwecken.<\/p>\n<p><strong>Merkmale der Pachyderm-Datenherkunft:<\/strong><\/p>\n<p>Um eine nahtlose Datenherkunftsverfolgung und -versionierung zu gew\u00e4hrleisten, verwendet Pachyderm ein zentrales Repository, das Objektspeicher wie AWS S3 in einem benutzerdefinierten Dateisystem namens PFS (Pachyderm File System) nutzt. PFS macht Ihren Objektspeicher (z. B. S3) zur einzigen echten Quelle Ihrer Daten mit vollst\u00e4ndigem Verlauf.<\/p>\n<p>Pachyderm erzwingt au\u00dferdem Invarianz in Ihrer Datenquelle, wodurch es globale IDs f\u00fcr Herkunftsereignisse und Datenobjekte zuweisen kann. Pachyderm erm\u00f6glicht es Ihnen, unver\u00e4nderliche Datenherkunftsdiagramme in der Benutzeroberfl\u00e4che als DAGs zu behandeln. Beide Funktionen sind n\u00fctzlich, wenn Sie mit ML-Pipes arbeiten und die Ergebnisse auf ihre Eingaben zur\u00fcckf\u00fchren m\u00f6chten.<\/p>\n<p>Pachyderm l\u00e4sst sich in die g\u00e4ngigsten Datenbanken, Data Warehouses und Data Lakes integrieren. Dar\u00fcber hinaus k\u00f6nnen Sie Daten aus jeder Datenbank mithilfe eines SQL-basierten Ingestion-Tools in Pachyderm importieren. Als universelles Data-Lineage-Tool weist Pachyderm jedoch Einschr\u00e4nkungen auf, weshalb die meisten Unternehmenskunden es f\u00fcr MLOps, ETL f\u00fcr unstrukturierte Daten und NLP-Workloads nutzen.<\/p>\n<h3><strong>Beste Open-Source-Data-Lineage-Tools \u2013 4. OpenLineage<\/strong><\/h3>\n<p><strong>OpenLineage-\u00dcbersicht:<\/strong><\/p>\n<p>OpenLineage wurde von DataKin gegr\u00fcndet, dem Unternehmen, das Marquez\u2018 Entwicklung \u00fcbernahm, nachdem WeWork sie ge\u00f6ffnet hatte. DataKin \u00fcbergab das OpenLineage-Projekt Mitte 2021 als Sandbox-Projekt an die Linux Foundation. Inspiriert von der allgegenw\u00e4rtigen OpenTelemetry im Bereich der Datenbeobachtung zielt OpenLineage darauf ab, einen offenen Standard f\u00fcr die Erfassung und Analyse von Datenherk\u00fcnften zu etablieren.<\/p>\n<p><strong>OpenLineage-Funktionen:<\/strong><\/p>\n<p>Integration ist ein zentraler Bestandteil von OpenLineages Design und Mission. Es integriert sich in das ETL-Framework, die Datenorchestrierungs-Engine, das Metadatenverzeichnis, die Datenqualit\u00e4ts-Engine und die Data-Lineage-Tools. OpenLineage verwendet JSONSchema als API-Definition und unterst\u00fctzt verschiedene Sprachen und Frameworks. Egeria ist eines der beliebtesten Datentools, dessen zentrale Metadatenebene auf OpenLineage basiert.<\/p>\n<p>Marquez von WeWork bildet auch das Herzst\u00fcck der OpenLineage-Architektur, da Marquez die Benutzeroberfl\u00e4che und das Metadaten-Repository bereitstellt und die API zur Metadatenerfassung von OpenLineage stammt. OpenLineage steht Ihnen auch \u00fcber GraphQL- und REST-APIs zur Verf\u00fcgung.<\/p>\n<p>OpenLineage ist eine attraktive Wahl, da es problemlos mit den meisten vorhandenen Datentechnik-Stacks verwendet werden kann und Ihnen eine breite Palette spannender und wertvoller Funktionen bietet, sodass Sie die Datenherkunft umfassend erfassen, verfolgen und analysieren k\u00f6nnen.<\/p>\n<h3>Beste Open-Source-Datenherkunftstools \u2013 5. TrueDat<\/h3>\n<p><strong>TrueDat-\u00dcbersicht:<\/strong><\/p>\n<p>Als umfassende Data-Governance-L\u00f6sung erm\u00f6glicht Ihnen TrueDat die detaillierte Kategorisierung, Suche und Nachverfolgung Ihrer Daten. Dank der Data-Lineage-Funktionen k\u00f6nnen Sie mit TrueDat au\u00dferdem den gesamten Lebenszyklus Ihrer Daten visualisieren und erhalten so Einblick in deren Entwicklung im Laufe der Zeit.<\/p>\n<p>TrueDat wurde 2017 von BlueTab (einem IBM-Unternehmen) entwickelt und befindet sich seitdem in der aktiven Entwicklung. Die neueste Version V4.39 wurde im M\u00e4rz 2022 ver\u00f6ffentlicht.<\/p>\n<p><strong>TrueDat Data Lineage-Funktionen:<\/strong><\/p>\n<p>Mit TrueDat k\u00f6nnen Sie die Auswirkungen von Datenbank\u00e4nderungen anhand der Datenherkunft analysieren und Ihre Gesch\u00e4ftslogik im Reporting besser verstehen. Sie k\u00f6nnen die Herkunft eines Datenobjekts zeitpunktgenau verfolgen. F\u00fcr erweiterte Analysen k\u00f6nnen Sie Filter auf Herkunftsobjekte anwenden, um bestimmte Teile des Herkunftsdiagramms zu untersuchen. Zus\u00e4tzlich zur grafischen Darstellung in der Benutzeroberfl\u00e4che k\u00f6nnen Sie die gesammelten Datenherkunftsinformationen in eine CSV-Datei herunterladen. Da TrueDat hervorragende Data-Governance- und Herkunftsfunktionen bietet, ist es ein echter Kandidat zur L\u00f6sung Ihrer Datenherkunftsprobleme.<\/p>\n<h3>Abschluss<\/h3>\n<p>Vielen Dank f\u00fcr das Lesen unseres Artikels und wir hoffen, dass er Ihnen dabei helfen kann, die <strong>die besten Open-Source-Datenherkunftstools<\/strong>Wenn Sie mehr \u00fcber die Datenherkunft erfahren m\u00f6chten, empfehlen wir Ihnen, <a href=\"https:\/\/www.gudusoft.com\/de\/\"><strong>Gudu SQLFlow<\/strong><\/a> f\u00fcr weitere Informationen.<\/p>\n<p>Als einer der\u00a0<strong>die besten Datenherkunftstools<\/strong>\u00a0Gudu SQLFlow ist heute auf dem Markt erh\u00e4ltlich und kann nicht nur SQL-Skriptdateien analysieren,\u00a0<strong>Datenherkunft<\/strong>, und f\u00fchren Sie eine visuelle Anzeige durch, erm\u00f6glichen Sie Benutzern aber auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuf\u00fchren.\u00a0<strong>(Ver\u00f6ffentlicht von Ryan am 14. Juli 2022)<\/strong><\/p>\n<\/div><\/div><\/div><style type=\"text\/css\">.fusion-body .fusion-builder-column-0{width:100% !important;margin-top : 0px;margin-bottom : 0px;}.fusion-builder-column-0 > .fusion-column-wrapper {padding-top : 0px !important;padding-right : 0px !important;margin-right : 1.92%;padding-bottom : 0px !important;padding-left : 0px !important;margin-left : 1.92%;}@media only screen and (max-width:1024px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}@media only screen and (max-width:640px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}<\/style><\/div><style type=\"text\/css\">.fusion-body .fusion-flex-container.fusion-builder-row-1{ padding-top : 0px;margin-top : 0px;padding-right : 0px;padding-bottom : 0px;margin-bottom : 0px;padding-left : 0px;}<\/style><\/div>","protected":false},"excerpt":{"rendered":"","protected":false},"author":27,"featured_media":5118,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[178],"tags":[286,137,155,55,139,285,136,59,210,288,75,290,289,287,291],"_links":{"self":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/5110"}],"collection":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/users\/27"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/comments?post=5110"}],"version-history":[{"count":10,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/5110\/revisions"}],"predecessor-version":[{"id":5123,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/5110\/revisions\/5123"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/media\/5118"}],"wp:attachment":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/media?parent=5110"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/categories?post=5110"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/tags?post=5110"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}