Warum ist die Datenherkunft wichtig und warum ist sie so schwierig?
Veränderungen bergen Risiken. Dies ist eines der Grundprinzipien der Softwareentwicklung, das die meisten von uns schon früh in ihrer Karriere lernen. Doch trotz dieser wiederholten Lektionen scheint es immer wieder zu Veränderungen zu kommen. Unsere Unfähigkeit, die Auswirkungen von Veränderungen, selbst kleinen, vorherzusehen, führt oft zu negativen Folgen. Dieses Problem verschärft sich mit der zunehmenden Komplexität vernetzter IT-Systeme. Es wird zunehmend schwieriger vorherzusagen, wie sich selbst kleine Änderungen auf die vor- oder nachgelagerten Systeme der Veränderung auswirken. Datenherkunft Dies gelingt, aber es gut zu machen, ist äußerst schwierig.

Warum die Datenherkunft wichtig ist
Warum ist die Datenherkunft wichtig?
Früher lagerten Daten in Silos mit relativ wenigen Verbindungspunkten zwischen ihnen. Heute fließen Daten jedoch in mehrere Richtungen zwischen mehreren Systemen. Viele dieser Systeme teilen Daten mit externen Organisationen, was bedeutet, dass Informationen auch dort in interne Systeme fließen. Daher ist es einfacher denn je, den Einfluss einer einzigen Änderung auf mehrere andere Systeme zu ignorieren.
Nehmen wir beispielsweise an, Ihr Unternehmen bietet eine mobile Anwendung an, mit der Kunden schnell und einfach neue Serviceanfragen stellen können. Bisher konnten Ihre Kunden ihre Produktvarianten angeben. Ihr Designteam hat festgestellt, dass diese Informationen, da sie bereits in Ihrer CRM-Datenbank vorhanden sind, nicht mehr von den Nutzern Ihrer mobilen App erfasst werden müssen.
Ihre Aufgabe bestand darin, die Anwendung zu vereinfachen. Daher haben Sie das Eingabefeld entfernt und durch eine Abfrage ersetzt, um Kundenproduktinformationen aus Ihrem CRM zu extrahieren. Theoretisch sollte der generierte Arbeitsauftrag alle Informationen enthalten, die Ihr Außendienstpersonal zur Erledigung seiner Aufgabe benötigt.
Leider gibt es ein Problem: Einige Kundenproduktdatensätze in Ihrem CRM-System enthalten Nullwerte. Ihre mobile Anwendung suchte nach diesen Informationen, lieferte Ihrem Ticketsystem jedoch ungültige Ergebnisse. Ihre Außendienstmitarbeiter wissen nicht mehr, wie sie sich auf den nächsten Serviceeinsatz vorbereiten sollen.
Das klingt nach einer relativ einfachen Datenqualität Dieses Problem hätte man vielleicht vorhersehen können, wenn jemand die CRM-Daten gründlicher geprüft hätte. Wenn die Nullwerte in der CRM-Datenbank jedoch erst später eingeführt wurden, könnte selbst das das Problem nicht lösen. Wenn Sie beispielsweise Kundendaten eines neu erworbenen Unternehmens in Ihr CRM-System integrieren, fehlen Ihnen möglicherweise die mit diesen neuen Datensätzen verknüpften Produktinformationen.
Manchmal sind diese Probleme schwerer vorhersehbar und nicht sofort erkennbar. Stellen Sie sich vor, was passiert, wenn Ihr Marketingteam beschließt, die Kriterien für die Kundensegmentierung neu zu definieren. Ein neues Datenfeld wird hinzugefügt, um die Kundenkategorie anzugeben, die dann alle Kundenwerte füllt. Das alte Feld wird nicht empfohlen.
Ohne das Wissen der Marketingabteilung nutzten die Topmanager des Unternehmens jedoch immer noch veraltete Daten. Die von ihnen verwendeten Dashboards basieren auf Daten in veralteten Feldern. Täglich kommen neue Kunden hinzu, doch niemand gibt Werte in die veralteten Felder ein. Infolgedessen sehen sich die Führungsteams mit verzerrten Daten konfrontiert. Plötzlich verfolgt das Topmanagement KPIs, die sich stark von denen des restlichen Unternehmens unterscheiden. Schlimmer noch: Erst Wochen oder Monate später bemerkte niemand das Problem.
Stellen Sie sich als Nächstes ein ähnliches Szenario vor. Anstatt jedoch ein Executive Dashboard zu füllen, speist das Quellsystem Daten in einen KI-Algorithmus ein, der Kundenempfehlungen auf Ihrer E-Commerce-Website generiert. Wenn eine KI mit fehlerhaften Daten trainiert wird – oder wenn sich die Daten erheblich ändern – kann dies die Effektivität der Technologie erheblich beeinträchtigen. In diesem Fall beeinträchtigt dies Ihre Kundenempfehlungs-Engine.
Bewältigung von Herausforderungen im Zusammenhang mit der Datenherkunft
Datenherkunftstools bieten einen systematischen Ansatz zum Verständnis der Auswirkungen von Änderungen, indem sie einen vollständigen Fahrplan potenzieller vorgelagerter und nachgelagerter Auswirkungen bereitstellen.
Dies entspricht Risikominderung und Kostenkontrolle. Wenn wir vorhersagen können, wie sich Änderungen auf andere Systeme auswirken, können wir die zuvor beschriebenen Probleme vermeiden. Dies führt zu weniger Aufwand, einer schnelleren Markteinführung und niedrigeren Kosten. Wir alle kennen das Prinzip, dass Probleme, die früh im Entwicklungsprozess erkannt werden, schneller und kostengünstiger gelöst werden können. Die Datenherkunft stellt ein wichtiges fehlendes Bindeglied dar, und Probleme können identifiziert werden, bevor sie die Qualitätssicherung erreichen.
Es gibt auch Vorteile für Datenverwaltung und Compliance. Mit der Verabschiedung der Datenschutz-Grundverordnung (DSGVO) im Jahr 2016 stellte die Europäische Union eine Reihe neuer Anforderungen an Systeme mit personenbezogenen Daten. Fordert Sie ein Kunde auf, seine Daten zu löschen, sind Sie gesetzlich verpflichtet, dieser Aufforderung nachzukommen. Doch was passiert vor und nach dieser Änderung? Wird dadurch etwas beschädigt? Oder verbleiben einige der personenbezogenen Daten des Kunden an anderer Stelle in Ihrem System, sodass Sie gegen die gesetzlichen Bestimmungen verstoßen?
Die Datenherkunft behebt diese Probleme, indem sie die Erkennung vor- und nachgelagerter Auswirkungen automatisiert. Sie bietet klare Überprüfbarkeit, die hilft, die Ursache von Änderungen und den Weg zu ihrem aktuellen Zustand zu ermitteln.
Die Datenherkunft auf Spaltenebene ist besonders schwierig, da SQL-Abfragen analysiert werden müssen, um genau zu ermitteln, was sich wie geändert hat. Dies erfordert die Nutzung von Datenbankprotokollen. Da es jedoch viele Datenbankanbieter mit jeweils eigenem SQL-Dialekt gibt, kann die Analyse dieser Informationen für verschiedene Datenbanken eine besondere Herausforderung darstellen. Da sich jeder SQL-Dialekt im Laufe der Zeit weiterentwickelt, Datenherkunftstools muss sich weiterentwickeln, um diesen Änderungen Rechnung zu tragen.
Die Datenherkunft auf Spaltenebene wird mit der zunehmenden Reichweite vernetzter Systeme und der Beschleunigung des Informationsflusses noch wichtiger. Heute ist sie ein äußerst nützliches Tool, das Zeit, Aufwand und Geld spart. Bald wird die Datenherkunft unverzichtbar sein.
Abschluss
Vielen Dank für das Lesen unseres Artikels. Wir hoffen, er hat Ihnen ein besseres Verständnis dafür vermittelt, warum Data Lineage wichtig ist und warum sie so herausfordernd ist. Wenn Sie mehr über Data Lineage erfahren möchten, empfehlen wir Ihnen, Folgendes zu besuchen: Gudu SQLFlow für weitere Informationen.
Als eines der besten derzeit auf dem Markt erhältlichen Tools zur Datenherkunft kann Gudu SQLFlow nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchführen, sondern Benutzern auch ermöglichen, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuführen. (Veröffentlicht von Ryan am 23. Juli 2022)
Wenn Ihnen dies gefällt, sehen Sie sich bitte auch unsere anderen Artikel unten an: