{"id":4770,"date":"2022-06-27T20:45:43","date_gmt":"2022-06-28T04:45:43","guid":{"rendered":"https:\/\/www.gudusoft.com\/?p=4770"},"modified":"2022-09-17T14:26:49","modified_gmt":"2022-09-17T22:26:49","slug":"open-source-metadata-management-tool","status":"publish","type":"post","link":"https:\/\/www.gudusoft.com\/de\/open-source-metadaten-management-tool\/","title":{"rendered":"Marquez: Ein Open-Source-Tool zur Metadatenverwaltung"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"background-color: rgba(255,255,255,0);background-position: center center;background-repeat: no-repeat;border-width: 0px 0px 0px 0px;border-color:#e8eaf0;border-style:solid;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start\" style=\"max-width:1310.4px;margin-left: calc(-4% \/ 2 );margin-right: calc(-4% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\" style=\"background-position:left top;background-repeat:no-repeat;-webkit-background-size:cover;-moz-background-size:cover;-o-background-size:cover;background-size:cover;padding: 0px 0px 0px 0px;\"><div class=\"fusion-text fusion-text-1\" style=\"line-height:26px;\"><h2>Marquez: Ein Open-Source-Tool zur Metadatenverwaltung<\/h2>\n<p>Marquez ist ein Open-Source-Metadatendienst f\u00fcr die Erfassung, Aggregation und Visualisierung von Metadaten aus Daten\u00f6kosystemen. Er verwaltet die Nutzung und Produktion von Datens\u00e4tzen, bietet globale Transparenz in Bezug auf Joblaufzeiten und Zugriffsh\u00e4ufigkeit, erm\u00f6glicht ein zentrales Lebenszyklusmanagement f\u00fcr Datens\u00e4tze und vieles mehr. WeWork hat Marquez ver\u00f6ffentlicht und als Open Source bereitgestellt.<\/p>\n<div id=\"attachment_4774\" style=\"width: 810px\" class=\"wp-caption aligncenter\"><img aria-describedby=\"caption-attachment-4774\" decoding=\"async\" class=\"size-fusion-800 wp-image-4774\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-800x827.png\" alt=\"Open-Source-Tool zur Metadatenverwaltung\" width=\"800\" height=\"827\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-200x207.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-290x300.png 290w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-400x413.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-600x620.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-768x794.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-800x827.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-991x1024.png 991w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool.png 1078w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><p id=\"caption-attachment-4774\" class=\"wp-caption-text\">Open-Source-Tool zur Metadatenverwaltung<\/p><\/div>\n<h3>Eigenschaften von Marquez:<\/h3>\n<p>1. Zentralisiertes Metadatenmanagement unterst\u00fctzt:<\/p>\n<ul>\n<li><strong><a href=\"https:\/\/www.gudusoft.com\/de\/whats-data-lineage-why-important\/\">Datenherkunft<\/a><\/strong><\/li>\n<li>Datenverwaltung<\/li>\n<li>Datenintegrit\u00e4t<\/li>\n<li>Datenermittlung und -erkundung<\/li>\n<\/ul>\n<p>2. Pr\u00e4zises hochdimensionales Datenmodell:<\/p>\n<ul>\n<li>Jobs<\/li>\n<li>Datens\u00e4tze<\/li>\n<\/ul>\n<p>3. Einfaches Sammeln von Metadaten \u00fcber angegebene Metadaten-APIs:<\/p>\n<ul>\n<li>Achten Sie auf Datensatzdaten<\/li>\n<li>St\u00e4rkung des Eigentums an Jobs und Datens\u00e4tzen<\/li>\n<li>Einfache Bedienung und Design mit minimalen Abh\u00e4ngigkeiten<\/li>\n<\/ul>\n<p>4. Die RESTful API unterst\u00fctzt die komplexe Integration mit anderen Systemen:<\/p>\n<ul>\n<li>\u00a0Luftstrom<\/li>\n<li>Amundsen<\/li>\n<li>\u00a0Dagster<\/li>\n<li>Entwickelt, um ein gesundes Daten\u00f6kosystem zu f\u00f6rdern, in dem Teammitglieder in einer Organisation die Datens\u00e4tze der anderen nahtlos und sicher teilen und sich darauf verlassen k\u00f6nnen.<\/li>\n<\/ul>\n<h3>Warum Marquez w\u00e4hlen?<\/h3>\n<p>Marquez unterst\u00fctzt hochflexible Datenherkunftsabfragen \u00fcber vollst\u00e4ndige Datens\u00e4tze hinweg und korreliert gleichzeitig zuverl\u00e4ssig und effizient Jobs und ihre (Upstream- und Downstream-)Abh\u00e4ngigkeiten zwischen der Generierung und Nutzung von Datens\u00e4tzen.<\/p>\n<h3>Das Design von Marquez<\/h3>\n<p>Marquez ist ein modulares System, das es erm\u00f6glicht <a href=\"https:\/\/www.gudusoft.com\/de\/was-ist-metadatenverwaltung\/\"><strong>Metadatenverwaltung<\/strong><\/a> als hochskalierbare und erweiterbare De-Platformed-L\u00f6sung. Sie besteht aus den folgenden Systemen:<\/p>\n<ul>\n<li>Metadaten-Repository: Speichert alle Job- und Datensatz-Metadaten, einschlie\u00dflich des vollst\u00e4ndigen Verlaufs der Jobausf\u00fchrungen und Statistiken auf Jobebene (z. B. Gesamtlaufzeit, durchschnittliche Laufzeit, Erfolg\/Misserfolg usw.).<\/li>\n<li>Metadaten-API: Eine RESTful-API erm\u00f6glicht einer Vielzahl von Clients, Metadaten rund um die Produktion und Nutzung von Datens\u00e4tzen zu sammeln.<\/li>\n<li>Metadaten-UI: zum Erkennen von Datens\u00e4tzen, zum Verbinden mehrerer Datens\u00e4tze und zum Erkunden ihres Abh\u00e4ngigkeitsdiagramms.<\/li>\n<\/ul>\n<div id=\"attachment_4778\" style=\"width: 810px\" class=\"wp-caption aligncenter\"><img aria-describedby=\"caption-attachment-4778\" decoding=\"async\" class=\"size-fusion-800 wp-image-4778\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-800x715.png\" alt=\"Open-Source-Tool zur Metadatenverwaltung\" width=\"800\" height=\"715\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-200x179.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-300x268.png 300w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-400x358.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-600x536.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-768x687.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2-800x715.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-2.png 915w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><p id=\"caption-attachment-4778\" class=\"wp-caption-text\">Open-Source-Tool zur Metadatenverwaltung<\/p><\/div>\n<p>Um die Einf\u00fchrung zu erleichtern und die Metadatenerfassung in verschiedenen Datenverarbeitungsanwendungen zu einer zentralen Anforderung zu machen, bietet Marquez sprachspezifische Clients, die die Metadaten-API implementieren. Die erste Version unterst\u00fctzt Java und Python.<\/p>\n<p>Die Metadaten-API ist eine Abstraktion zur Erfassung von Informationen zur Erstellung und Nutzung von Datens\u00e4tzen. Sie ist eine zustandslose Schicht mit geringer Latenz und hoher Verf\u00fcgbarkeit, die f\u00fcr die Kapselung persistenter Metadaten und Informationen zur Sammlungsherkunft zust\u00e4ndig ist. Die API erm\u00f6glicht es Clients, Datensatzinformationen aus einem Metadaten-Repository zu sammeln und\/oder abzurufen.<\/p>\n<p>Metadaten m\u00fcssen f\u00fcr umfangreiche explorative Abfragen \u00fcber die Metadaten-Benutzeroberfl\u00e4che erfasst, organisiert und gespeichert werden. Das Metadaten-Repository ist ein abstrakter Katalog von Datensatzinformationen, der von der Metadaten-API komprimiert und bereinigt wird.<\/p>\n<h3>Das Datenmodell von Marquez<\/h3>\n<p>Marquez&#039; Datenmodell legt den Schwerpunkt auf die Unver\u00e4nderlichkeit und Just-in-Time-Verarbeitung von Datens\u00e4tzen. Datens\u00e4tze werden durch Jobausf\u00fchrungen generiert, wobei der Wert entscheidend ist. Jobausf\u00fchrungen sind mit Versionscodes verkn\u00fcpft und erzeugen eine oder mehrere unver\u00e4nderliche Versionsausgaben. \u00c4nderungen am Datensatz werden zu verschiedenen Zeitpunkten der Jobausf\u00fchrung, einschlie\u00dflich des Erfolgs oder Misserfolgs der Ausf\u00fchrung selbst, durch Aufrufe der schlanken API aufgezeichnet.<\/p>\n<p>Die folgende Abbildung zeigt die f\u00fcr einen bestimmten Job \u00fcber mehrere Durchl\u00e4ufe hinweg gesammelten und katalogisierten Metadaten sowie die auf den Eingabedatensatz angewendeten Zeitreihen\u00e4nderungen.<\/p>\n<div id=\"attachment_4780\" style=\"width: 810px\" class=\"wp-caption aligncenter\"><img aria-describedby=\"caption-attachment-4780\" decoding=\"async\" class=\"size-fusion-800 wp-image-4780\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-800x260.png\" alt=\"Open-Source-Tool zur Metadatenverwaltung\" width=\"800\" height=\"260\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-200x65.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-300x98.png 300w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-400x130.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-600x195.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-768x250.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-800x260.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3-1024x333.png 1024w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/06\/Open_Source_Metadata_Management_Tool-3.png 1080w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><p id=\"caption-attachment-4780\" class=\"wp-caption-text\">Open-Source-Tool zur Metadatenverwaltung<\/p><\/div>\n<ul>\n<li>Job: Der Job enth\u00e4lt einen Besitzer, einen eindeutigen Namen, eine Version und eine optionale Beschreibung. Ein Job definiert eine oder mehrere Versionseingaben als Abh\u00e4ngigkeiten und eine oder mehrere Versionsausgaben als Artefakte. Beachten Sie, dass ein Job entweder nur Eingabe- oder nur Ausgabedatasets definieren kann.<\/li>\n<li>Jobversion: Eine schreibgesch\u00fctzte, unver\u00e4nderliche Version des Jobs mit einem eindeutig referenzierten Link, kodiert im Speicher, um die Reproduktion des Quellcodes zu gew\u00e4hrleisten. Eine Jobversion verkn\u00fcpft einen oder mehrere Eingabe- und Ausgabedatens\u00e4tze mit einer Jobdefinition (der Datenfluss durch verschiedene Jobs ist wichtig f\u00fcr die Dokumentation von Herkunftsinformationen). Diese Verkn\u00fcpfungen kategorisieren Quelllinks und erm\u00f6glichen einen leistungsstarken visuellen Datenfluss.<\/li>\n<li>Datensatz: Ein Datensatz verf\u00fcgt \u00fcber einen Besitzer, einen eindeutigen Namen, ein Schema, eine Version und eine optionale Beschreibung. Der Datensatz ist in der Datenquelle enthalten. Datenquellen k\u00f6nnen physische Datens\u00e4tze in ihren physischen Quellen gruppieren. Jeder Datensatz verf\u00fcgt \u00fcber einen Versionszeiger zum historischen \u00c4nderungssatz, der von Marquez verwaltet wird. Wenn Datensatz\u00e4nderungen an Marquez zur\u00fcckgegeben werden, wird eine eindeutige Versions-ID generiert, gespeichert und auf die aktuelle Version gesetzt. Der Zeiger wird intern aktualisiert.<\/li>\n<li>Datensatzversion: Die schreibgesch\u00fctzte, unver\u00e4nderliche Version des Datensatzes. Jede Version kann unabh\u00e4ngig gelesen werden, verf\u00fcgt \u00fcber eine eindeutige ID und wird \u00c4nderungen am Datensatz zugeordnet, um den Zustand zu einem bestimmten Zeitpunkt zu erhalten. Die neueste Versions-ID wird nur aktualisiert, wenn \u00c4nderungen am Datensatz protokolliert werden. Um eindeutige Versions-IDs zu berechnen, wendet Marquez Versionierungsfunktionen auf eine Reihe von Eigenschaften an, die dem Datensatz der zugrunde liegenden Datenquelle entsprechen.<\/li>\n<\/ul>\n<h3>Abschluss<\/h3>\n<p>Vielen Dank f\u00fcr das Lesen unseres Artikels. Wir hoffen, er hilft Ihnen, Marquez besser zu verstehen: ein Open-Source-Tool zur Metadatenverwaltung. Wenn Sie mehr \u00fcber Metadatenverwaltung erfahren m\u00f6chten, empfehlen wir Ihnen, Folgendes zu besuchen: <a href=\"https:\/\/www.gudusoft.com\/de\/\"><strong>Gudu SQLFlow<\/strong><\/a> f\u00fcr weitere Informationen.<\/p>\n<p>Als einer der\u00a0<strong><a href=\"https:\/\/www.dpriver.com\/blog\/2022\/05\/11\/best-data-lineage-tools\/\" target=\"_blank\" rel=\"noopener noreferrer\">die besten Datenherkunftstools<\/a><\/strong>\u00a0Gudu SQLFlow ist heute auf dem Markt erh\u00e4ltlich und kann nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchf\u00fchren, sondern erm\u00f6glicht Benutzern auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuf\u00fchren.\u00a0<strong>(Ver\u00f6ffentlicht von Ryan am 28. Juni 2022)<\/strong><\/p>\n<\/div><\/div><\/div><style type=\"text\/css\">.fusion-body .fusion-builder-column-0{width:100% !important;margin-top : 0px;margin-bottom : 0px;}.fusion-builder-column-0 > .fusion-column-wrapper {padding-top : 0px !important;padding-right : 0px !important;margin-right : 1.92%;padding-bottom : 0px !important;padding-left : 0px !important;margin-left : 1.92%;}@media only screen and (max-width:1024px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}@media only screen and (max-width:640px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}<\/style><\/div><style type=\"text\/css\">.fusion-body .fusion-flex-container.fusion-builder-row-1{ padding-top : 0px;margin-top : 0px;padding-right : 0px;padding-bottom : 0px;margin-bottom : 0px;padding-left : 0px;}<\/style><\/div>","protected":false},"excerpt":{"rendered":"","protected":false},"author":27,"featured_media":4786,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[178],"tags":[230,228,152,227,229,232,231],"_links":{"self":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/4770"}],"collection":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/users\/27"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/comments?post=4770"}],"version-history":[{"count":14,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/4770\/revisions"}],"predecessor-version":[{"id":4790,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/posts\/4770\/revisions\/4790"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/media\/4786"}],"wp:attachment":[{"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/media?parent=4770"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/categories?post=4770"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gudusoft.com\/de\/wp-json\/wp\/v2\/tags?post=4770"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}