Snowflake-Datenverwaltung
Mit dem Aufkommen von SaaS-Anwendungen und der Migration der Datenverarbeitung in die Cloud fallen immer mehr Daten an, was Geschäftsentscheidungen in Echtzeit erfordert. Unabhängig davon, ob Ihr Unternehmen seine Daten aus seinen alten Datensilos migrieren oder endlose Rohdaten aus unterschiedlichen Quellen laden möchte, haben Sie wahrscheinlich bereits über die Nutzung einer Cloud nachgedacht. Data Warehouse wie Snowflake, um diese beiden häufigen Datenintegration Anwendungsfälle.

Snowflake-Datenverwaltung
Daten aus so vielen verschiedenen Quellen können jedoch schwer zu verfolgen sein. Die Gewährleistung der Genauigkeit und Angemessenheit der Datenquellen hat für ein Unternehmen oberste Priorität, und vor allem die Erfüllung der Erwartungen aller Benutzer an Self-Service. Hier kommt es darauf an Datenverwaltung ist am einflussreichsten.
Data Governance umfasst Datenschutz und -kontrolle und ermöglicht es Mitarbeitern im gesamten Unternehmen, die aus diesen Daten gewonnenen Informationen zu teilen, zu verarbeiten und zu verbreiten. Sie schützt die Integrität, Qualität und Glaubwürdigkeit der unternehmensweit geteilten Daten. Die Vorteile lassen sich durch eine gut konzipierte Data-Governance-Strategien werden auf Cloud-basierte Data Warehouses angewendet.
Snowflake als modernes Data Warehouse
Als Cloud-Data-Warehouse bietet Snowflake die nötige Leistung, Parallelität und Einfachheit, um alle Unternehmensdaten an einem Ort zu speichern und zu analysieren. Snowflake stellt ein Datenrepository für die Aufnahme strukturierter Daten für Reporting und Datenanalyse bereit. Die Fähigkeit, große Mengen unverarbeiteter Daten aus einer Vielzahl von Quellen in unterschiedlichen Formaten zu verarbeiten, macht Snowflake zudem zu einer attraktiven Data-Lake-Lösung für viele IT-Entscheider. Dank der Möglichkeit, Speicher und Rechenleistung zu trennen, Ressourcenkönnen Sie die Speicherkapazität des Datensee ohne Berücksichtigung der Rechenknoten und flexible Anpassung der Größe des Rechenclusters an die Nachfrage nur bei Bedarf.
Über das Lagerhaus hinaus und in den See
Data Lakes können eine Alternative zur Speicherung unterschiedlicher und manchmal begrenzter Datensätze in verstreuten, unterschiedlichen Datensilos darstellen. Sie bieten ein einheitliches, integriertes System für die einfache Speicherung und den Zugriff auf große Datenmengen und ermöglichen gleichzeitig den vollständigen und direkten Zugriff auf die ungefilterten Rohdaten des Unternehmens. Auf diese Daten sollten Business-Intelligence-Experten und viele andere Benutzer im gesamten Unternehmen Zugriff haben.
Der auf Basis eines modernen Data Warehouse aufgebaute Data Lake soll folgende Vorteile bieten:
- Rohdaten können sofort geladen, analysiert und abgefragt werden, ohne vorheriges Parsen oder Transformation.
- Strukturierte und halbstrukturierte Datenflüsse ohne manuelle Codierung oder manuelle Eingriffe.
- Verwalten Sie native SQL- und Schemaabfragen zur Lesezeit für strukturierte und halbstrukturierte Daten.
- Speichern Sie große Mengen Rohdaten kostengünstig und setzen Sie dabei nur so viel Rechenleistung ein wie nötig.
Die Bedeutung von Data Governance
Für jedes datengetriebene Unternehmen, das Daten optimal für Analysen und Business Intelligence nutzen möchte, sollte Data Governance oberste Priorität haben. Ein Cloud-Data-Warehouse wie Snowflake ist hierfür der richtige Ansatz. IT-Leiter, die sich den Herausforderungen der digitalen Transformation stellen, ohne eine geeignete Data-Governance-Strategie zu planen, könnten daher den Fehler begehen, sich kopfüber in ihre bereits bestehenden Data Lakes zu stürzen und sich dann in einem Datensumpf wiederzufinden.
Folgen fehlender Daten-Governance und Datenqualität
Da unzählige Daten immer schneller in Data Lakes fließen, müssen Geschäftsentscheidungen in Echtzeit getroffen werden. Ohne entsprechende Maßnahmen lässt sich die Datenqualität kaum skalieren. Idealerweise sollten die Datensätze, die in den Data Lake gelangen, diesen bereichern, doch leider verunreinigen sie ihn manchmal.
IT-Teams benötigen daher oft Wochen, um neue Datenquellen zu veröffentlichen, die in Sekundenschnelle aufgenommen werden können. Schlimmer noch: Kunden erstellen ihre eigene Version der „Wahrheit“, indem sie der neu erstellten Datenquelle ihre eigenen Regeln hinzufügen, ohne dass die Datenkonsumenten wissen, dass bereits neue Daten verfügbar sind. Letztendlich wird zu viel Zeit mit der Aufbereitung und Sicherung von Daten verbracht oder verschwendet, anstatt diese zu analysieren und wertvolle Geschäftseinblicke zu gewinnen.
Top-down und Bottom-up
Typischerweise wird Data Governance beim Aufbau eines Enterprise Data Warehouses über einen Top-down-Ansatz umgesetzt. Zunächst muss ein zentrales Datenmodell definiert werden, was die Expertise eines Datenexperten erfordert, beispielsweise eines Datenverwalter, Datenwissenschaftler, Datenmanager, Datenschutzbeauftragter oder Dateningenieur, um die Daten mehrfach zu semantischen Zwecken zu rekonstruieren, bevor sie zur Analyse extrahiert werden.
Nach der Einnahme Datenkatalog wird Herkunft und Zugänglichkeit in Einklang bringen. Dieser Ansatz ist zwar effektiv bei der zentralen Datenverwaltung, lässt sich jedoch nicht auf das digitale Zeitalter übertragen: Zu wenige Personen haben Zugriff auf die Daten.
Ein weiterer Ansatz besteht darin, die Datenverwaltung für den Data Lake nach dem Bottom-up-Prinzip zu gestalten. Im Vergleich zum zentralisierten Modell bietet dieses agilere Modell mehrere Vorteile. Beispielsweise ist es über verschiedene Datenquellen, Anwendungsfälle und Zielgruppen hinweg skalierbar und erfordert keine spezifische Dateistruktur für die Datenaufnahme. Durch die Nutzung von Cloud-Infrastruktur und Big Data kann dieser Ansatz die Datenaufnahme von Rohdaten erheblich beschleunigen.
Data Lakes basieren typischerweise auf einem Data-Lab-Ansatz, bei dem nur die datenerfahrensten Personen Zugriff auf die Rohdaten haben. Anschließend sind weitere Governance-Ebenen erforderlich, um die Daten mit dem Geschäftskontext zu verknüpfen, bevor andere Benutzer sie nutzen können. Eine solche Data-Governance-Strategie stellt sicher, dass der Data Lake allen Benutzern stets eine vertrauenswürdige, zentrale Informationsquelle bietet.
Ausgewogene kollaborative Data-Governance-Prozesse
Da immer mehr Mitarbeiter aus verschiedenen Unternehmensbereichen immer mehr Datenquellen einbringen, benötigt der ideale Data Lake die richtige Data-Governance-Strategie. Etablieren Sie von Anfang an einen stärker kollaborativen Governance-Ansatz. So können die erfahrensten Geschäftsanwender zu Content-Anbietern und -Kuratoren werden. Für diesen Ansatz ist es entscheidend, von Anfang an im Team mit den Daten zu arbeiten. Andernfalls kann der Arbeitsaufwand zur Überprüfung der Zuverlässigkeit der in den Data Lake eingehenden Daten überfordernd sein.
Bereitstellung vertrauenswürdiger Daten
Wir verstehen nun, warum Data Governance in der Anfangsphase der Cloud-Datenmigration so wichtig ist und warum die Implementierung einer kollaborativen Data-Governance-Strategie der einzige Weg ist. Sehen wir uns nun die empfohlenen Schritte für die Anwendung auf einen Data Lake in Snowflake an.
Schritt 1: Entdecken und Reinigen
Nutzen Sie moderne Tools zur Mustererkennung, Datenprofilierung und Datenqualität, um die Anforderungen zur Sicherung der Datensatzqualität zu erfassen und zu ermitteln. Wenn Sie Daten sofort nach dem Eintreffen in der Umgebung anwenden, können Sie deren Inhalt verstehen und ihre Aussagekraft steigern. Ihre Erkennungs- und Bereinigungsphase sollte die folgenden Tools und Funktionen umfassen:
- Automatisiertes Profiling durch Datenkatalogisierung. Systematisieren Sie den Prozess, indem Sie ihn automatisch auf jeden Kerndatensatz anwenden. Erstellen und kategorisieren Sie automatisch Datenprofile und erleichtern Sie die Datensuche.
- Selbstbedienungs-Datenaufbereitung. Jeder kann auf den Datensatz zugreifen und die Daten anschließend bereinigen, normalisieren, transformieren oder anreichern.
- Datenqualitätsvorgänge beginnen mit der Datenquelle und dem Datenlebenszyklus, um sicherzustellen, dass jedem Datenbetreiber, Benutzer oder jeder Anwendung letztendlich vertrauenswürdige Daten zur Verfügung stehen.
- Durchdringung durch Self-Service. Stellen Sie Funktionen für alle Plattformen und Anwendungen bereit und stellen Sie sie jedem zur Verfügung, vom Entwickler bis zum Business-Analysten.
Schritt 2: Organisieren und befähigen
Der Vorteil der Zentralisierung vertrauenswürdiger Daten in einer gemeinsam nutzbaren Umgebung besteht darin, dass sie dem Unternehmen Zeit und Ressourcen sparen, sobald sie nutzbar sind. Dies kann auf folgende Weise erreicht werden:
- Organisieren Sie einen Datenkatalog und schaffen Sie eine zentrale Quelle vertrauenswürdiger und geschützter Daten, die Ihnen Kontrolle über die aufgezeichneten Daten und deren Herkunft bietet. Diese Informationen sollten die Herkunft der Daten, den Zugriff darauf und die Beziehungen zwischen den verschiedenen Datensätzen umfassen. Datenherkunft gibt Ihnen einen Überblick über die Nachverfolgung des Datenflusses von der Datenquelle bis zum endgültigen Ziel sowie über die Einhaltung von Datenschutzbestimmungen wie DSGVO oder CCPA.
- Befähigen Sie Ihre Mitarbeiter, Daten zu verwalten, zu korrigieren und zu schützen. Backoffice-Funktionen werden unterstützt, um Datenverwalter für die Datenpflege zu benennen und das Auffinden und Nutzen von Daten einfach und attraktiv zu gestalten. Überlassen Sie die Aufbereitung denjenigen, die sie genau identifizieren können, und sensible Daten denjenigen, die sie einsehen sollten.
- Beziehen Sie Kollegen in die Datenverbesserung ein. Mithilfe kollaborativer Datenverwaltungsfunktionen wie Data Stewardship können Sie koordinierte Workflows und Verwaltungsaktivitäten erstellen, die alle Beteiligten in die Datenqualität einbeziehen.
Schritt 3: Automatisieren und aktivieren
Nachdem alle ermittelten und bereinigten Daten zentral organisiert und alle wichtigen Stakeholder in die gemeinsame Verwaltung der Daten eingebunden wurden, um deren Vertrauenswürdigkeit und Compliance zu gewährleisten, ist es an der Zeit, die Automatisierungsphase zu implementieren. Die Automatisierung der Datenverarbeitung ist nicht nur für skalierbare Workflows unerlässlich, sondern auch, um sich wiederholende, mühsame und kontraproduktive manuelle Aufgaben zu vermeiden.
- Nutzen Sie maschinelles Lernen, um aus der Behebung und Deduplizierung zu lernen und die nächstbeste Aktion für die Datenpipeline vorzuschlagen oder implizites Wissen von Benutzern zu übernehmen und es durch Automatisierung in großem Maßstab auszuführen.
- Nutzen oder verschlüsseln Sie automatischen Schutz. Geben Sie Daten gezielt innerhalb Ihres Unternehmens für Entwicklung, Analyse usw. frei, ohne dass personenbezogene Daten an unbefugte Personen weitergegeben werden.
- Befähigen Sie alle. Erstellen Sie eine Plattform für alle und nutzen Sie benutzerfreundliche Anwendungen für eine Community von Stakeholdern.
- Nutzen Sie API-Dienste, um wertvolle Datensätze aus Ihrem Data Lake zurück in Ihre Branchenanwendungen zu übertragen. Leiten Sie Ihre Daten an Anwendungen weiter, die von den vertrauenswürdigen Daten profitieren, die durch Ihre Data-Governance-Bemühungen generiert wurden, und speisen Sie wertvolle Erkenntnisse zurück in Ihre Branchenanwendungen.
Da immer mehr Unternehmen ihre digitalen Transformationsstrategien umsetzen und auf die Cloud-Datenintegration umsteigen, wird sich Datengovernance zwangsläufig stark entwickeln. Wie bereits erwähnt, bietet Snowflake eine moderne Cloud-Data-Warehouse-Lösung, mit der ein Data Lake aufgebaut werden kann, der alles von Big-Data-Migrationen bis hin zu Big-Data-Projekten abdeckt, unabhängig von Format und Herkunft. Dies ist ein großer Vorteil, da Sie alle Ihre Daten aus einer einzigen zuverlässigen Quelle laden und abrufen können.
Allerdings gibt es keine Garantie für die Zuverlässigkeit der in einem Data Lake bereitgestellten Informationen, es sei denn, es existiert eine robuste Data-Governance-Strategie. Data Governance kann nur durch ordnungsgemäße Erkennung und Bereinigung, Verwaltung, Qualität und Self-Service erreicht werden.
Abschluss
Vielen Dank für das Lesen unseres Artikels. Wir hoffen, er hilft Ihnen, Snowflake Data Governance besser zu verstehen. Wenn Sie mehr über Snowflake Data Governance erfahren möchten, besuchen Sie bitte: Gudu SQLFlow für weitere Informationen.
Als einer der die besten Datenherkunftstools Gudu SQLFlow ist heute auf dem Markt erhältlich und kann nicht nur SQL-Skriptdateien analysieren, die Datenherkunft ermitteln und eine visuelle Anzeige durchführen, sondern ermöglicht Benutzern auch, die Datenherkunft im CSV-Format bereitzustellen und eine visuelle Anzeige durchzuführen. (Veröffentlicht von Ryan am 21. Juni 2022)
Wenn Ihnen dies gefällt, sehen Sie sich bitte auch unsere anderen Artikel unten an: