Obtenga el linaje de datos de sentencias SQL complejas en un minuto

Linaje de datos Es un eslabón muy importante en la gobernanza de datos empresariales. Para conocer la importancia del linaje de datos en la gobernanza de datos empresariales, puede consultar ¿Qué es el linaje de datos y por qué es tan importante?El lenguaje SQL se usa ampliamente en el procesamiento de datos, y las sentencias SQL contienen un rico linaje de datos. Para saber qué es el linaje de datos en SQL y cómo descubrir estos linajes de datos ocultos en las sentencias SQL, consulte ¿Cómo descubrir el linaje de datos en el lenguaje SQL en 5 minutos?.

¿Cómo obtener el linaje de datos de sentencias SQL complejas en un minuto?

¿Cómo obtener el linaje de datos de sentencias SQL complejas en un minuto?

Este artículo presenta principalmente cómo utilizar la interfaz de usuario, la API Rest y la biblioteca Java proporcionada por Flujo de SQL de Gudu herramienta de análisis de linaje de datos para obtener rápidamente el linaje de datos en sentencias SQL complejas e integrarlo en su propia plataforma de gobernanza de datos según sea necesario.

Una declaración SQL ligeramente compleja

Ahora, usaremos la siguiente sentencia SQL, algo compleja, para demostrar cómo usar Gudu SQLFlow para obtener rápidamente diversos linajes de datos. Si tiene que procesar sentencias SQL o procedimientos almacenados más complejos, una herramienta de análisis de linajes de datos como Gudu SQLFlow es aún más necesaria.

Nuestro objetivo es saber qué columnas están incluidas en la lista de selección de nivel superior y de qué otras tablas y columnas provienen los datos fuente de estas columnas. Un resultado ideal debería ser similar a esto:

Linaje de datos para la lista de selección de nivel superior

Linaje de datos para la lista de selección de nivel superior

Para obtener el resultado anterior, necesitamos hacer lo siguiente:

  1. Expande automáticamente el * (asterisco) en datos.* para encontrar la columna correspondiente.
  2. Realice un rastreo de la fuente de datos para cada columna de la lista de selección para encontrar la tabla y la columna originales. Este proceso puede requerir varios niveles de rastreo de la fuente hasta encontrar la fuente de datos final.

Acerca de la expansión automática de *

* (asterisco) en la Lista de selección representa todas las columnas de la relación, que deben expandirse a nombres de columnas específicos. En este caso, Gudu SQLFlow puede expandirse automáticamente en función de la información contextual proporcionada en el SQL. Pero a veces, la propia sentencia SQL no proporciona suficiente información para determinar qué columnas contiene *. En este caso, es necesario... Proporcionar información de metadatos a Gudu SQLFlow para expandir correctamente los asteriscos.

Flujo de SQL de Gudu Proporciona tres formas de ayudarle a obtener rápidamente el linaje de datos de sentencias SQL complejas, que es conveniente para su uso en diferentes ocasiones.

1. Interfaz de usuario de Gudu SQLFlow

Puedes acceder directamente a la Nube Gudu SQLFlow Versión sin necesidad de instalar ningún software. Es muy fácil de usar. Puede pegar directamente la sentencia SQL que se va a procesar en el área de entrada y luego hacer clic en "Visualizar".

Linaje de datos de Gudu SQLFlow

Linaje de datos de Gudu SQLFlow

Podemos ignorar los pasos intermedios de procesamiento y la información detallada del linaje de datos, y mostrar directamente los datos de origen y destino. Para obtener los resultados concisos que se muestran en la figura anterior, la configuración utilizada es la siguiente:

Configuración de Gudu SQLFlow

Configuración de Gudu SQLFlow

Puedes descargar el Resultado JSON Contiene el linaje de datos para su posterior procesamiento. (La ruta de almacenamiento del linaje de datos: datos -> sqlflow -> relaciones)

Linaje de datos de Gudu SQLFlow en JSON

Linaje de datos de Gudu SQLFlow en JSON

2. API de descanso de Gudu SQLFlow

Puede llamar a la API Gudu SQLFlow Rest en su código para enviar automáticamente las declaraciones SQL que deben procesarse, obtener los resultados del procesamiento en tiempo real y luego procesar el linaje de datos devuelto en su código de acuerdo con los requisitos comerciales.

Para utilizar la API Rest de Gudu SQLFlow, necesita una Cuenta Premium de Gudu SQLFlow CloudAquí está el tutorial detallado. O puedes instalar Versión local de Gudu SQLFlow dentro de su empresa para utilizar Rest API.

  1. Código Python se conecta al servidor Gudu SQLFlow ( Gudu SQLFlow local servidor) implementado en la empresa para obtener resultados de linaje de datos.
  2. Código Python se conecta a la Nube SQLFlow Servidor para obtener resultados de linaje de datos.

Hacer clic aquí para ver los resultados del linaje de datos generados por el análisis del código Python anterior.

3. Biblioteca Java Gudu SQLFlow

También puedes utilizar el Biblioteca de clases Java Gudu SQLFlow Para analizar el linaje de datos de las sentencias SQL. La ventaja de usar la biblioteca de clases Java Gudu SQLFlow es que no necesita instalar el software del servidor Gudu SQLFlow y puede ejecutarse de forma independiente sin depender de bibliotecas de clases Java de terceros, lo que facilita su integración en sus propios proyectos.

Hemos creado un Programa de demostración de Java Para que puedas compilarlo y ejecutarlo directamente. Para obtener todas las columnas y sus orígenes de datos devueltos por la lista de selección de nivel superior de la sentencia SQL de este artículo, podemos ejecutar la demo de Java con los siguientes parámetros:

El linaje de datos generado se almacena en formato XML y puede hacer clic aquí para abrir este archivo XML.

Conclusión

Gracias por leer nuestro artículo y esperamos que pueda ayudarle a tener una mejor comprensión de Cómo Obtener el linaje de datos de sentencias SQL complejas en un minutoSi desea obtener más información sobre el linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Sitio web oficial para más información.

Como una de las mejores herramientas de análisis de linaje de datos del mercado actual, Flujo de SQL de Gudu No solo puede analizar archivos de script SQL, obtener el linaje de datos y realizar una visualización, sino que también permite a los usuarios proporcionar el linaje de datos en formato CSV y realizar una visualización. (Publicado por Ryan el 22 de mayo de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Deja un comentario