Obtenez la lignée de données d'instructions SQL complexes en une minute
Lignée de données est un maillon essentiel de la gouvernance des données d'entreprise. Pour en savoir plus sur le rôle crucial de la traçabilité des données dans la gouvernance des données d'entreprise, consultez : Qu'est-ce que la lignée de données et pourquoi est-elle si importante ?Le langage SQL est largement utilisé dans le traitement des données, et les instructions SQL offrent un riche historique de données. Pour en savoir plus sur l'historique de données en SQL et découvrir les historiques de données cachés dans les instructions SQL, consultez Comment découvrir la lignée des données dans le langage SQL en 5 minutes ?.

Comment obtenir la lignée de données d’instructions SQL complexes en une minute ?
Cet article présente principalement comment utiliser l'interface utilisateur, l'API Rest et la bibliothèque Java fournies par le Gudu SQLFlow outil d'analyse de la lignée des données pour obtenir rapidement la lignée des données dans des instructions SQL complexes et l'intégrer dans votre propre plateforme de gouvernance des données selon vos besoins.
Une instruction SQL légèrement complexe
Nous allons maintenant utiliser l'instruction SQL légèrement complexe suivante pour illustrer comment utiliser Gudu SQLFlow afin d'obtenir rapidement différents lignages de données. Si vous avez des instructions SQL ou des procédures stockées plus complexes à traiter, un outil d'analyse de lignage de données comme Gudu SQLFlow est encore plus indispensable.
Notre objectif est de savoir quelles colonnes sont incluses dans la liste de sélection de niveau supérieur, et de quelles autres tables et colonnes proviennent les données sources de ces colonnes. Un résultat idéal devrait ressembler à ceci :

Lignée de données pour la liste de sélection de niveau supérieur
Pour obtenir le résultat ci-dessus, nous devons faire ces choses :
- Développez automatiquement le * (astérisque) dans data.* pour trouver la colonne correspondante.
- Effectuez un suivi des sources de données pour chaque colonne de la liste de sélection afin de retrouver la table et la colonne d'origine. Ce processus peut nécessiter plusieurs niveaux de suivi des sources jusqu'à ce que la source de données finale soit trouvée.
À propos de l'expansion automatique du *
* (astérisque) dans la liste de sélection représente toutes les colonnes de la relation, qui doivent être étendues à des noms de colonnes spécifiques. Dans ce cas, Gudu SQLFlow peut s'étendre automatiquement en fonction des informations contextuelles fournies dans le SQL. Mais parfois, l'instruction SQL elle-même ne fournit pas suffisamment d'informations pour déterminer le contenu des colonnes *. Dans ce cas, vous devez fournir des informations de métadonnées à Gudu SQLFlow afin de développer correctement les astérisques.
Gudu SQLFlow propose trois façons de vous aider à obtenir rapidement le lignée de données d'instructions SQL complexes, ce qui est pratique à utiliser dans différentes occasions.
1. Interface utilisateur Gudu SQLFlow
Vous pouvez accéder directement au Gudu SQLFlow Cloud Version sans installation de logiciel. Son utilisation est très simple. Vous pouvez coller directement l'instruction SQL à traiter dans la zone de saisie, puis cliquer sur « Visualiser ».

Lignée de données Gudu SQLFlow
Nous pouvons ignorer les étapes de traitement intermédiaires et les informations détaillées sur la traçabilité des données, et afficher directement les données source et cible. Pour obtenir les résultats concis illustrés dans la figure ci-dessus, les paramètres utilisés sont les suivants :

Paramètre Gudu SQLFlow
Vous pouvez télécharger le Résultat JSON Contient la lignée des données pour un traitement ultérieur. (Chemin de stockage de la lignée des données : données -> SQLflow -> relations)

Lignée de données Gudu SQLFlow au format JSON
2. API REST Gudu SQLFlow
Vous pouvez appeler l'API Rest Gudu SQLFlow dans votre code pour soumettre automatiquement les instructions SQL qui doivent être traitées, obtenir les résultats du traitement en temps réel, puis traiter la lignée de données renvoyée dans votre code en fonction des exigences de l'entreprise.
Pour utiliser l'API Rest Gudu SQLFlow, vous avez besoin d'un Compte Gudu SQLFlow Cloud Premium. Voici le tutoriel détaillé. Ou vous pouvez installer Version sur site de Gudu SQLFlow au sein de votre entreprise pour utiliser l'API Rest.
- Code Python se connecte au serveur Gudu SQLFlow ( Gudu SQLFlow sur site serveur) déployé dans l'entreprise pour obtenir des résultats de lignage de données.
- Code Python se connecte au Cloud SQLFlow serveur pour obtenir les résultats de la lignée des données.
Cliquez ici pour afficher les résultats de la lignée de données générés par l'analyse du code Python ci-dessus.
3. Bibliothèque Java Gudu SQLFlow
Vous pouvez également utiliser le Bibliothèque de classes Java Gudu SQLFlow Pour analyser la lignée des données des instructions SQL. L'avantage de la bibliothèque de classes Java Gudu SQLFlow est qu'elle ne nécessite pas l'installation du logiciel serveur Gudu SQLFlow et qu'elle peut fonctionner indépendamment d'une bibliothèque de classes Java tierce, ce qui facilite son intégration à vos propres projets.
Nous avons créé un programme de démonstration Java Pour vous permettre de l'utiliser directement pour la compilation et l'exécution. Pour obtenir toutes les colonnes et leurs sources de données renvoyées par la liste de sélection de niveau supérieur de l'instruction SQL de cet article, nous pouvons exécuter la démo Java avec les paramètres suivants :
La lignée de données générée est stockée au format XML et vous pouvez cliquer dessus. ici pour ouvrir ce fichier XML.
Conclusion
Merci d'avoir lu notre article et nous espérons qu'il pourra vous aider à mieux comprendre comment faire obtenir la lignée de données d'instructions SQL complexes dans une minuteSi vous souhaitez en savoir plus sur la lignée des données, nous vous conseillons de visiter Gudu SQLFlow site officiel pour plus d'informations.
En tant que l'un des meilleurs outils d'analyse de lignée de données sur le marché actuel, Gudu SQLFlow peut non seulement analyser les fichiers de script SQL, obtenir la lignée des données et effectuer un affichage visuel, mais également permettre aux utilisateurs de fournir la lignée des données au format CSV et d'effectuer un affichage visuel. (Publié par Ryan le 22 mai 2022)
Si vous aimez lire ceci, alors n'hésitez pas à explorer nos autres articles ci-dessous :