Linaje de datos de Amazon Redshift | Gudu SQLFlow

En su entorno de almacén de Amazon, utilice Espectro de Amazon Redshift Para consultar datos directamente desde archivos en Amazon S3, guardarlos en bases de datos de Redshift y usar herramientas de inteligencia empresarial como Tableau, Power BI, Looker, Qlik y Superset para generar informes a partir de ellos. Los datos se originan en el sistema de origen de su empresa y llegan a Amazon S3. Posteriormente, se utiliza una herramienta ETL como DBT para transferirlos y almacenarlos en la base de datos de Redshift para su uso posterior.

Linaje de datos de Amazon Redshift

Linaje de datos de Amazon Redshift

Para tener una visión general del flujo de datos en su sistema de almacén de Amazon, necesita una herramienta de linaje de datos para ayudarle a comprender cómo llegaron los datos a una ubicación particular, así como los pasos intermedios y las transformaciones que ocurren a medida que los datos se mueven a través del sistema empresarial.

Una forma de llegar el linaje de datos La forma automática de procesar datos desde el entorno de almacén de Amazon es analizar todas las consultas SQL utilizadas durante la carga, la transformación y el análisis de datos. La buena noticia es que todas esas sentencias SQL se almacenan en... el registro de actividad del usuario de Redshift y Gudu Flujo de SQL Puede analizar esos archivos de registro para descubrir el linaje de datos automáticamente.

Registro de actividad del usuario de Redshift

El registro de actividad del usuario es útil principalmente para la resolución de problemas y, en este caso, lo utilizamos para el descubrimiento del linaje de datos. Registra información sobre los tipos de consultas que tanto los usuarios como el sistema realizan en la base de datos.

Registra cada consulta antes de ejecutarse en la base de datos.

Nombre de la columna Descripción
tiempo récord Hora en que ocurrió el evento.
base de datos Nombre de la base de datos.
usuario Nombre de usuario.
pid ID de proceso asociado a la declaración.
ID de usuario ID de usuario.
xid ID de transacción.
consulta Un prefijo de LOG: seguido del texto de la consulta, incluidas las nuevas líneas.
RmidshiFel smio adoeliviely yoogramo

por favor, compruebe Este artículo para ver cómo habilitar el registro.

Ejemplo de registro de auditoría de actividad del usuario de Amazon Redshift

'2018-05-21T06:00:09Z UTC [ db=prod_sales usuario=duc pid=99753 id=95 xid=6728324 ]' REGISTRO: crear tabla SumoProdbackUp.organization como (seleccionar * de SumoProd.simpleuser) '2018-05-21T06:00:09Z UTC [ db=vendor usuario=ankit pid=36616 id=53 xid=2956702 ]' REGISTRO: ELIMINAR DE SumoProd.employee DONDE id = 38; '2018-05-21T06:20:09Z UTC [ db=dev usuario=himanshu pid=64458 id=35 xid=5143208 ]' REGISTRO: eliminar usuario testuser3

 

Análisis automático del linaje de datos

Flujo de SQL de Gudu Es una herramienta que automatiza el análisis de linaje de datos SQL en bases de datos, ETL, inteligencia empresarial, nube y entornos Hadoop mediante el análisis de scripts SQL y procedimientos almacenados. También puede analizar los archivos de registro de actividad de usuario de Redshift para descubrir el linaje de datos y representar gráficamente todo el movimiento de datos.

A continuación se muestra una parte de una imagen de linaje de datos que se generó después de analizar los archivos de registro de actividad del usuario de Amazon Redshift:

Linaje de datos de Amazon Redshift 
Ametroazonorte RmidshiFel Daela Yoinortemiagramomi

 

Conclusión 

Gracias por leer nuestro artículo y esperamos que pueda ayudarle a tener una mejor comprensión de Linaje de datos de Amazon RedshiftSi quieres saber más sobre Linaje de datos de Amazon RedshiftNos gustaría recomendarle que visite nuestro sitio web. Flujo de SQL de Gudu Para más información. Gudu SQLFlow, como herramienta de análisis de linaje de datos, no solo analiza archivos de script SQL, obtiene el linaje de datos y lo muestra visualmente, sino que también permite a los usuarios proporcionar el linaje de datos en formato CSV y mostrarlo visualmente. ¡Gracias de nuevo! (Editado por Ryan el 26 de abril de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Deja un comentario