Alles, was Sie über die Datenherkunft wissen müssen
Was ist DatenherkunftWas sind die Merkmale der Datenherkunft? Wofür werden Datenherkunftsinformationen verwendet? Welche Methoden gibt es zur Datenherkunftserfassung? Wenn Sie Antworten auf diese Fragen suchen, sind Sie hier richtig. In diesem Artikel gehen wir detailliert auf Folgendes ein: alles, was Sie über die Datenherkunft wissen müssen.

Alles, was Sie über die Datenherkunft wissen müssen
Alles, was Sie über Datenherkunft wissen müssen – Was ist Datenherkunft?
Im gesamten Prozess der Datengenerierung, -verarbeitung, -integration, -zirkulation und -vernichtung entsteht auf natürliche Weise eine Beziehung zwischen Daten. Diese Beziehung zwischen Daten wird durch die Nutzung einer ähnlichen Beziehung in der menschlichen Gesellschaft ausgedrückt, die als Datenherkunftsbeziehung bezeichnet wird. Die Datenherkunft ist eine der Komponenten von Metadaten.
Damit lässt sich der Herkunftspfad der Tabelle und der Felder von der Datenquelle zur aktuellen Tabelle analysieren. Außerdem lässt sich feststellen, ob die Beziehung zwischen den Herkunftsfeldern erfüllt ist, wie die Datenkonsistenz aussieht und wie rational das Tabellendesign ist. Außerdem lässt sich damit die Auswirkung von Änderungen an Upstream-Daten auf Downstream-Daten analysieren und die Ursache von Upstream-Problemen ermitteln, wenn Änderungen an Downstream-Daten auftreten.
Alles, was Sie über Data Lineage wissen müssen – Die Merkmale der Data Lineage
- Zuordnung: Im Allgemeinen gehören bestimmte Daten einer bestimmten Organisation oder Einzelperson und die Daten verfügen über eine Zuordnung.
- Mehrere Quellen: Dieselben Daten können aus mehreren Quellen stammen. Ein Datenelement kann durch die Verarbeitung mehrerer Daten generiert werden, und dieser Verarbeitungsprozess kann mehrfach sein.
- Rückverfolgbarkeit: Die Datenherkunftsbeziehung spiegelt den Lebenszyklus der Daten wider und bildet den gesamten Prozess der Daten von der Erstellung bis zur Löschung ab, einschließlich Rückverfolgbarkeit.
- Hierarchisch: Die Datenherkunftsbeziehungen sind hierarchisch. Die Beschreibungsinformationen der Daten, wie Klassifizierung, Induktion und Zusammenfassung der Daten, bilden neue Daten, und die Beschreibungsinformationen unterschiedlichen Grades bilden die Ebene der Daten.
Alles, was Sie über Data Lineage wissen müssen – Die Verwendung von Data Lineage
- Datenrückverfolgbarkeit: Die Datenherkunft spiegelt die Details der Daten wider und hilft uns, die Datenquelle und den Datenverarbeitungsprozess zu verfolgen. Bei Datenabweichungen ist es notwendig, die Ursache der Abweichung zu ermitteln und das Risiko angemessen zu kontrollieren. Insbesondere mit der Entwicklung von Unternehmen gibt es viele Datenquellen und unterschiedliche Qualitätsstufen, was sich unweigerlich auf die Datenergebnisse auswirkt. Daher ist die Möglichkeit der Datenrückverfolgbarkeit sehr wertvoll.
- Auswirkungsanalyse: Mit zunehmender Anzahl von Datenanwendungen wird die Datenflusskette immer länger. Bei Änderungen im Kerngeschäft einer Quelle müssen nachgelagerte Analyseanwendungen synchronisiert werden. Ohne Auswirkungsanalyse kommt es zu anormalen Zugriffen auf jeden Datendienst. Dies ist oft eine Kernanforderung des Entwicklungssektors, um Auswirkungsbewertungen zu ermöglichen.
- Der Datenwert: Die Messung des Datenwerts ist ein komplexes Problem. Um den Wert von Daten zu bewerten, benötigt man eine Grundlage. Die Datenherkunft liefert Referenzdaten in verschiedenen Aspekten, um die Bewertung zu erleichtern. Datenzielgruppe: Je mehr Datennachfrager, desto größer der Datenwert.
Aktualisierungsumfang: Je größer die Menge der aktualisierten Daten, desto höher ist der Wert der Daten.
Aktualisierungshäufigkeit: Je häufiger die Aktualisierung, desto wertvoller sind die Daten. - Qualitätsbewertung: Dies ist die Anforderung von Datenanalyse Anwendungen, und es ist notwendig, die Qualität der Endergebnisdaten zu kontrollieren. Wenn Datenprobleme gefunden werden, ist es notwendig, die Datenquelle weiter zu verfolgen, die Ursachen der Qualitätsprobleme zu analysieren und diese anschließend zu beheben. Aus dem Datenherkunftsdiagramm lässt sich der Datenverarbeitungsprozess leicht ableiten und anschließend die möglichen Qualitätsprobleme analysieren.
- Der Lebenszyklus: Durch die Datenherkunft lässt sich der gesamte Lebenszyklus der Daten intuitiv erfassen. Bei weniger wertvollen Daten kann eine Tiering-, Archivierungs- oder sogar Vernichtungsverfahren in Betracht gezogen werden.
- Compliance-Anforderungen: Dies ist oft die Anforderung des oberen Managements. Für die Einhaltung gesetzlicher Vorschriften sind alle Punkte und Quellen des Datenflusses die wichtigsten Punkte, die reguliert werden müssen. Daher ist ein umfassendes Verständnis der Beziehungen zwischen Daten erforderlich.
- Sicherheitskontrolle: Dies ist oft eine Sicherheitsanforderung, um zu verstehen, wie die Daten verwendet werden und wer die Zielgruppe ist. All dies ist aus der Datenherkunft ersichtlich. Sie bilden auch die Grundlage für das Berechtigungsmanagement (Autorisierung auf Tabellen- und Feldebene) und gewährleisten so die Datensicherheit auf höherer Ebene. In Kombination mit den Sicherheitskennungen in den Metadaten (z. B. welche Daten desensibilisiert werden müssen usw.) können das Sicherheitsmanagement und die Sicherheitskontrolle der gesamten Domäne durchgeführt werden.
- Architekturdesign: Data Lineage ermöglicht es, Daten aus der Perspektive der Datenverarbeitung zu verstehen. In manchen Szenarien ist dies durchaus sinnvoll. Wenn beispielsweise ein bestimmtes altes Projekt beendet wird und ein neues Projekt die Nachfolge antreten muss, ist die Organisation ohne eine Datenfluss-Mapping-Tabelle sehr zeitaufwändig und es ist schwierig, die Integrität und Korrektheit der Migration sicherzustellen.
- Datenbestände: Die Unternehmensleitung kann den gesamten Datenfluss anhand der Datenherkunft nachvollziehen. Dies ist für die Formulierung der Datenbestandsstrategie des Unternehmens von großem Nutzen.
- F&E-Anforderungen: Für das F&E-Personal ist es bei Vorhandensein einer Datenherkunft praktisch, die Datenverarbeitungslogik zu finden und zu verstehen sowie Probleme zu beheben.
Alles, was Sie über Data Lineage wissen müssen – Die Methoden der Data Lineage-Erfassung
- Automatisches Parsen: Automatisches Parsen ist derzeit die gängigste Erfassungsmethode. Die spezifische Methode besteht darin, SQL-Anweisungen, gespeicherte Prozeduren, ETL-Prozeduren und andere Dateien zu analysieren. Aufgrund der Komplexität des Codes und der Anwendungsumgebung sowie aus anderen Gründen kann die automatische Analyse nach Erfahrungen internationaler Hersteller 70–951 TP2T Unternehmensdaten abdecken, 1001 TP2T sind derzeit jedoch nicht erreichbar.
- Systemverfolgung: Das heißt, während des Datenverarbeitungsflusses ist das Datenverarbeitungsprogramm für die Übermittlung von Datenherkunftsinformationen verantwortlich. Fügen Sie beispielsweise im Anmerkungsbereich eine Beschreibung der Herkunft usw. hinzu. Der Vorteil dieses Ansatzes besteht darin, dass die Erfassung präzise, zeitnah und detailliert unterstützt wird. Der Nachteil ist jedoch, dass er aufdringlich ist. Wenn das Unternehmen jedoch eine einheitliche Verarbeitungsplattform einsetzt, ist diese Methode dringend zu empfehlen.
- Maschinelles Lernen: Diese Methode berechnet die Ähnlichkeit von Daten basierend auf den Abhängigkeiten zwischen Datensätzen. Der Vorteil dieser Methode besteht darin, dass keine Abhängigkeit von Tools und Unternehmen besteht. Der Nachteil besteht darin, dass die Genauigkeitsrate manuell bestätigt werden muss.
- Manuelle Erfassung: Die letzte Methode ist die „universelle“ Methode, bei der die Datenherkunft manuell von der Forschungs- und Entwicklungsabteilung organisiert wird.
Alles, was Sie über Data Lineage wissen müssen – Die Anwendung von Data Lineage
Basierend auf der Möglichkeit der Datenherkunft werden häufig die folgenden Anwendungen verwendet:
- Durch Angabe einer Tabelle/eines Felds können Sie dessen Vorwärts-Mehrebenenobjekt verfolgen.
- Durch Angabe der Tabelle/des Feldes wird dessen rückwärtiges mehrstufiges Objekt zugeordnet.
- Sie sind nicht auf ein einzelnes Objekt beschränkt, sondern können den gesamten Datenfluss in größerem Maßstab (z. B. innerhalb eines Projekts usw.) verstehen. Dies ist sinnvoll für die Analyse von Hot Objects, die Datenbereinigung usw.
- Das heißt, ausgehend von der Perspektive des „Betriebs“ werden die Vorwärts- und Rückwärtsvorgänge analysiert. Dies ist für die Fehlerbehebung, Qualitätsanalyse und mehr sinnvoll.
- Neben unserem üblichen Verständnis von Herkunft gibt es eine allgemeinere Herkunft. Es gibt nicht nur eine Beziehung auf Datenebene zwischen Objekten, sondern auch eine Beziehung auf Referenzebene, d. h. die damit verbundene Verwendung zwischen Objekten, einschließlich, aber nicht beschränkt auf Tabellen, Ansichten, Modelle, Berichte, Jobs usw. Dies ist für die Bewertung des Datenwerts, das Datenbestandsmanagement usw. von Bedeutung.
- Bei der herkömmlichen Datenexploration wird diese häufig entsprechend der Datenhierarchiedefinition durchgeführt. Wenn eine Datenherkunft vorliegt, wird eine andere Explorationsmethode bereitgestellt, nämlich eine schrittweise Exploration entsprechend der Datenverarbeitungslogik.
Abschluss
Vielen Dank für das Lesen unseres Artikels. Wir hoffen, er ist hilfreich für Sie. Wenn Sie mehr über die Datenherkunft erfahren möchten, empfehlen wir Ihnen, Folgendes zu besuchen: Gudu SQLFlow für weitere Informationen.
Als einer der am besten Datenherkunftstools Gudu SQLFlow ist heute auf dem Markt erhältlich und kann nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchführen, sondern ermöglicht Benutzern auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuführen. (Veröffentlicht von Ryan am 29. August 2022)
3 Kommentare
Hinterlasse einen Kommentar
Wenn Ihnen dies gefällt, sehen Sie sich bitte auch unsere anderen Artikel unten an:
[…] Gudu SQLFlow ist eines der heute auf dem Markt erhältlichen Tools und kann nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchführen, sondern ermöglicht es Benutzern auch, die Datenherkunft im CSV-Format bereitzustellen und […] durchzuführen.
[…] Gudu SQLFlow ist eines der heute auf dem Markt erhältlichen Tools und kann nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchführen, sondern ermöglicht es Benutzern auch, die Datenherkunft im CSV-Format bereitzustellen und […] durchzuführen.
[…] vielen Dank für das Lesen unseres Artikels. Wir hoffen, er hat Ihnen gefallen. Wenn Sie mehr über Data Lineage erfahren möchten, empfehlen wir Ihnen, Gudu SQLFlow für weitere Informationen zu besuchen. Als einer der besten Data […]