Die 4 besten Open-Source-Datenkatalog-Tools im Jahr 2022
Grundsätzlich braucht jede datengesteuerte Organisation Datenkatalog-Tools. Datenkataloge Helfen Sie dabei, eine zentrale Umgebung zu schaffen, in der alle Daten und der Kontext einer Organisation abgerufen werden können. So können Unternehmen ihre Analysezeit verkürzen und schnell hochwertige, datenbasierte Geschäftsentscheidungen treffen. Wenn Sie auf der Suche nach die besten Open-Source-Datenkatalog-Tools, dann sind Sie hier genau richtig. In diesem Beitrag haben wir eine Liste der Die besten Open-Source-Datenkatalog-Tools im Jahr 2022 um Ihnen das Leben zu erleichtern.

Die besten Open-Source-Datenkatalog-Tools
Beste Open-Source-Datenkatalog-Tools – 1. Apache Atlas
Als Open Source Metadatenverwaltung Das Tool und die Governance-Plattform Apache Atlas werden von Hortonworks unter dem Dach der Data Governance Initiative inkubiert.
Es wurde 2015 dem Apache Foundation Incubator beigetreten und entwickelte sich 2017 zu einem Top-Programm. Apache Atlas gilt allgemein als einer der Bausteine moderner Datenplattformen, da es schon früh die Vision verfolgte, mithilfe von Metadaten die Herausforderungen der Datenkatalogisierung, -sortierung, -ermittlung, -verwaltung und -zusammenarbeit zu lösen.
Hauptfunktionen von Apache Atlas:
- Metadatenklassifizierung: Mit Apache Atlas können Sie personenbezogene Daten, sensible Daten und andere sensible Daten automatisch klassifizieren. Datenbestände können mehreren Klassifizierungen zugeordnet werden. Diese Richtlinien werden auch über die Herkunft weitergegeben, um sicherzustellen, dass abgeleitete Daten dieselben Klassifizierungs- und Sicherheitskontrollen erhalten.
- Metadatentypen und -instanzen: Laut der Apache-Dokumentation ist ein „Typ“ eine Definition, wie ein bestimmter Typ von Metadatenobjekt in Atlas gespeichert und abgerufen wird. Dies ermöglicht Datenverwalter um technische und geschäftliche Metadaten zu definieren.
- Suche und Herkunft: Die intuitive Benutzeroberfläche von Apache Atlas ermöglicht die vordefinierte und temporäre Untersuchung von Datentypen nach Typ, Kategorie, Attributwert oder Freitext. Darüber hinaus wird der Verlauf der Datenquelle bzw. der expliziten Daten und ihrer Entwicklung im Laufe der Zeit gespeichert.
- Sicherheit und Datenmaskierung: Apache Atlas ist in erster Linie ein Datenverwaltungstool, das eine feinkörnige Sicherheit des Metadatenzugriffs ermöglicht, um die Zugriffskontrolle über Entitätsinstanzen einzurichten sowie Klassifizierungen hinzuzufügen/aktualisieren/entfernen usw.
Beste Open-Source-Datenkatalog-Tools – 2. Amundsen Lyft
Amundsen ist eine Open-Source-Datenkatalogplattform, die ursprünglich vom Entwicklungsteam von Lyft entwickelt wurde. Im Oktober 2019, ein Jahr nach der Einführung für den internen Gebrauch, wurde der Quellcode freigegeben.
Amundsen verfügt über eine geschlossene Community aus Mitwirkenden und Benutzern und wird von vielen anderen Organisationen übernommen, die auf diesem Open-Source-Datenkatalog-Tool aufbauen, um ihre Initiativen zur Demokratisierung, Verwaltung und Metadatendienstleistung von Daten voranzutreiben.
Hauptfähigkeiten von Amundsen:
- Vertrauenswürdige Daten leicht finden: Amundsen hilft dabei, Daten aus einer Vielzahl von Quellen mit einfachen Textsuchen zu finden, und die Suchergebnisse zeigen sogar Online-Metadaten an.
- Automatisierte und kuratierte Metadaten: Wenn auf ein Datenobjekt geklickt wird, werden dem Benutzer dessen detaillierte Beschreibung und Verhalten angezeigt, die manuell kuratiert bzw. automatisch generiert werden.
- Möglichkeit, Kontext mit Kollegen zu teilen: Beschreibungen von Datenbeständen können aktualisiert werden, sodass Kollegen nicht mehr ständig hin- und herblättern müssen, um mehr Kontext für einen bestimmten Datenbestand zu finden.
- Aus der Datennutzung lernen und verstehen: Benutzer können sehen, welche Datenbestände häufig verwendet werden, sich in ihrem Besitz befinden oder mit Lesezeichen versehen sind. Sie können sogar die häufigsten Abfragen in Bezug auf Tabellen sehen, indem sie sich die Dashboards ansehen, die für eine bestimmte Tabelle erstellt wurden.
Beste Open-Source-Datenkatalog-Tools – 3. LinkedIn DataHub
DataHub ist eine Open-Source-Plattform zur Metadatenverwaltung, die vom Entwicklungsteam von LinkedIn entwickelt wurde. Dabei handelt es sich um den zweiten Versuch von LinkedIn, die Herausforderungen der Datenkatalogisierung, -ermittlung, -beobachtung und -herkunft zu bewältigen.
Vor DataHub entwickelten sie 2016 ein Open-Source-Datenverzeichnistool namens WhereHows. DataHub wurde 2019 angekündigt und 2020 als Open Source veröffentlicht. Daher unterhält LinkedIn zwei verschiedene Versionen von DataHub – eine für den internen Gebrauch und eine Open Source für andere, die erstellt werden können.
Hauptfunktionen von DataHub:
- Automatisierte Metadatenaufnahme: Im LinkedIn DataHub werden Metadaten aus verschiedenen Quellen über API oder Kafka-Stream-Push aufgenommen.
- Einfache Datenermittlung: Auf der höchsten Ebene für Endbenutzer unterstützt das DataHub-Frontend drei Arten der Interaktion: Suchen, Durchsuchen und Anzeigen/Bearbeiten von Metadaten.
- Daten durch Kontext verstehen: Jede Datenentität auf DataHub verfügt über eine Profilseite, auf der alle mit dieser Datenentität verknüpften Metadaten angezeigt werden und die dem Benutzer die Informationen liefert, die er zum Entwickeln dieses Datenkontexts benötigt.
Beste Open-Source-Datenkatalog-Tools – 4. Netflix Metacat
Metacat ist ein gemeinsamer Metadatenverwaltungsdienst, der von Netflix entwickelt und im Juni 2018 als Open Source freigegeben wurde. Ziel ist es, das Sortieren, Auffinden, Verarbeiten und Verwalten von Daten zu vereinfachen.
Metacat bietet in erster Linie einen zentralen Zugriff auf alle Datenbestände von Netflix. Obwohl Metacat ein Open-Source-Datenkatalog ist, scheint es an ausreichendem öffentlichen Wissen zu mangeln, um das Schema effektiv nutzen und erweitern zu können.
Hauptfunktionen von Metacat:
- Datenabstraktion und Interoperabilität: Metacat bildet eine gemeinsame Abstraktionsschicht und auf Datensätze kann über die verschiedenen Abfrage-Engines von Netflix zugegriffen werden.
- Geschäfts- und BENUTZERDEFINIERTE Metadatenspeicher: Metacat hilft bei der Dokumentation von geschäftlichen und benutzerdefinierten Metadaten zu Datenbeständen und stellt sicher, dass Datenbenutzer mehr Informationen zu Datenbeständen sowie Standardregeln für den Umgang mit diesen erhalten.
- Datenermittlung: Metacat stellt Schema-Metadaten und geschäftliche/benutzerdefinierte Metadaten für Daten über ElasticSearch bereit und erleichtert so die Abfrage über die Textsuche.
- Datenänderungsprüfung und -benachrichtigung: Erfasst sämtliche Änderungen oder Aktualisierungen der Metadaten und ermöglicht Push-Benachrichtigungen für solche Ereignisse, die möglicherweise die Aufmerksamkeit des Benutzers erfordern.
Was sind die Vorteile von Open-Source-Datenkatalog-Tools?
Mithilfe hochwertiger Datenkataloge können Sie nicht nur alle Ihre Daten richtig kategorisieren, sondern auch Datenflüsse zwischen unterschiedlichen Datentypen ordnungsgemäß verfolgen und sogar Fehler in Datenflüssen aufzeigen, die Sie verbessern können.
Ein weiteres nützliches Feature ist die Verwaltung sensibler Daten. Das Tool erkennt, wo sensible Daten am häufigsten angezeigt werden, wodurch das Risiko von Datenlecks reduziert wird. Einige hochwertige Datenkatalog-Tools bieten sogar maschinelles Lernen, um zu verstehen, wie Sie Ihre Daten verwalten, und Sie bei der Verarbeitung großer Datenmengen zu unterstützen. Aber warum sollte man ein Open-Source-Datenverzeichnis-Tool verwenden?
Open-Source-Datenkatalog-Tools sind immer noch hochwertige Software, kostengünstig, manchmal sogar kostenlos, aber sie sind gut skalierbar, bieten viele Anpassungsmöglichkeiten und können ohne Einschränkungen arbeiten, ideal für große Datenmengen.
Darüber hinaus müssen Sie sich als Unternehmen oder Organisation keine Sorgen darüber machen, ob Sie sich bei Updates auf einen einzigen Entwickler verlassen müssen, da Sie Entwickler beauftragen können, die Open-Source-Software weiterzuentwickeln oder sie einfach an Ihre Bedürfnisse anzupassen.
Abschluss
Vielen Dank für das Lesen unseres Artikels und wir hoffen, dass er Ihnen dabei helfen kann, die die besten Open-Source-Datenkatalog-Tools im Jahr 2022. Wenn Sie weitere Informationen zu Open-Source-Datenkatalog-Tools wünschen, empfehlen wir Ihnen den Besuch von Gudu SQLFlow für weitere Informationen.
Als einer der die besten Datenherkunftstools Gudu SQLFlow ist heute auf dem Markt erhältlich und kann nicht nur SQL-Skriptdateien analysieren, Datenherkunft, und führen Sie eine visuelle Anzeige durch, ermöglichen Sie Benutzern aber auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuführen. (Veröffentlicht von Ryan am 16. Juli 2022)
Wenn Ihnen dies gefällt, sehen Sie sich bitte auch unsere anderen Artikel unten an: