Técnicas, mejores prácticas y herramientas de linaje de datos
Qué es linaje de datos¿Cuáles son las técnicas de linaje de datos¿Mejores prácticas y herramientas? En este artículo, responderemos estas preguntas una por una.
El linaje de datos documenta el paso de los datos a través de los sistemas de TI de una empresa, mostrando cómo se mueven entre ellos y cómo se transforman para diferentes usos en el proceso. Utiliza metadatos (datos sobre datos) para permitir que los usuarios finales y los profesionales de la gestión de datos rastreen el historial de los activos de datos y obtengan información sobre su importancia comercial o atributos técnicos.
Por ejemplo, los registros de linaje de datos pueden ayudar científicos de datos, otro analistas de datosY los usuarios empresariales comprenden los datos que utilizan y se aseguran de que sean relevantes para sus necesidades de información. El linaje de datos también juega un papel importante en gobernanza de datos, maestro gestión de datosy programas de cumplimiento. Entre otras cosas, en estas iniciativas, se simplifican dos procedimientos clave de gobernanza de datos: analizar la causa raíz de calidad de los datos Problemas y el impacto de los cambios en los conjuntos de datos.

Técnicas, mejores prácticas y herramientas de linaje de datos
La información del linaje de datos se recopila principalmente de los sistemas operativos (cuando se procesan datos) y de almacenes de datos y lagos de datos – donde se almacenan los conjuntos de datos para aplicaciones de inteligencia empresarial y análisis. Además de la documentación detallada, se pueden crear diagramas de flujo de datos y diagramas para proporcionar una vista visual del linaje de datos asignado a los procesos de negocio. Para simplificar el acceso del usuario final a la información de linaje, esta suele incorporarse en un catálogo de datos, que enumera los activos de datos y los metadatos asociados a ellos.
¿Por qué es importante el linaje de datos?
La información sobre el linaje de datos es crucial para la gestión y el análisis de datos. Los detalles del linaje ayudan a las empresas a gestionar y utilizar los datos eficazmente. Sin acceso a estos detalles, será difícil para las empresas aprovechar al máximo el valor comercial potencial de los datos.
Los siguientes son los beneficios que proporciona el linaje de datos:
Análisis más precisos y útiles. Al informar a los equipos de análisis y a los usuarios empresariales sobre el origen y el significado de los datos, el linaje de datos mejora su capacidad para encontrar con mayor rapidez los datos necesarios para la inteligencia empresarial y la ciencia de datos. Esto genera mejores resultados analíticos y aumenta la probabilidad de que los análisis de datos proporcionen información significativa para impulsar las decisiones empresariales.
Mejor gobernanza de datos. El linaje de datos también facilita el seguimiento de los datos y otras tareas clave del proceso de gobernanza. Ayuda a los responsables y miembros del equipo de gobernanza de datos a garantizar que los datos sean válidos, limpios y consistentes, y que se protejan, gestionen y utilicen adecuadamente.
Mayor seguridad de datos y protección de la privacidad. Las empresas pueden usar la información de linaje de datos para identificar datos confidenciales que requieren una seguridad especialmente robusta. También puede utilizarse para establecer diferentes niveles de acceso de usuarios según las políticas de seguridad y privacidad de datos, y para evaluar los posibles riesgos de los datos como parte de una estrategia de gestión de riesgos empresariales.
Mejorar el cumplimiento normativo. El linaje de datos proporciona mayor protección de seguridad, lo que ayuda a las empresas a garantizar el cumplimiento de las leyes de privacidad de datos y otras normativas. Un linaje de datos bien documentado también facilita la realización de auditorías internas de cumplimiento y la elaboración de informes de cumplimiento.
Simplifique la gestión de datos. Además de mejorar la calidad de los datos, el linaje de datos facilita diversas tareas de gestión de datos. Por ejemplo, la gestión de migraciones de datos, la eliminación de silos de datos y la detección y solución de lagunas en los conjuntos de datos.
Linaje de datos, clasificación de datos y procedencia de datos
El linaje de datos también está estrechamente relacionado con los procesos de gestión de datos: clasificación y procedencia de datos. Veamos qué son y cómo se diferencian y se relacionan con el linaje de datos.
- Clasificación de datos. Esto implica la asignación de datos a diferentes categorías según sus características, principalmente con fines de seguridad y cumplimiento normativo. La clasificación se utiliza para clasificar los datos según su sensibilidad, por ejemplo, como información personal, de propiedad exclusiva, confidencial o pública. Esto separa los conjuntos de datos que requieren mayores niveles de seguridad y controles de acceso más estrictos de los que no. El linaje de datos proporciona información sobre un conjunto de datos que ayuda a clasificarlo.
- Procedencia de los datos. A veces se considera sinónimo de linaje de datos, o la procedencia de datos se considera un enfoque más específico sobre la procedencia de los datos, incluyendo su sistema de origen y cómo se generaron. En este caso, el linaje y la procedencia de datos pueden funcionar conjuntamente, y esta última proporciona documentación de alto nivel sobre el origen de los datos y su significado.
Linaje de datos y gobernanza de datos
La esencia de la gobernanza de datos reside en crear políticas corporativas de datos y garantizar que las personas las cumplan. Dichas políticas pueden abarcar la intención e incluir directivas sobre la protección, la verificación y el uso de datos. Los gerentes de gobernanza de datos y administradores de datos debe recopilar las necesidades de datos de los usuarios comerciales y trabajar con los miembros del comité de gobernanza de datos que toma decisiones para acordar definiciones de datos comunes, especificar métricas de calidad de datos y desarrollar políticas y procedimientos relacionados.
Sin embargo, existe una brecha entre la definición de políticas de gobernanza de datos y su implementación, y superar esta brecha supone un gran reto. Aquí es donde entra en juego el linaje de datos. Documenta las fuentes y los flujos de datos, lo que permite a los equipos de gobernanza supervisar cómo se mueven los datos a través del sistema, cómo se modifican y utilizan. La información del linaje les ayuda a garantizar la implementación de controles de acceso y seguridad de datos adecuados, así como a almacenar, mantener y utilizar los datos de acuerdo con las políticas de gobernanza.
El linaje de datos también puede simplificar tareas específicas relacionadas con la gobernanza. Por ejemplo, sin una forma de determinar dónde se introdujeron errores de datos en el sistema, puede resultar difícil para los administradores de datos y los analistas de calidad de datos identificarlos y corregirlos. Esto tiene consecuencias: si no se detectan las fallas de datos, las empresas pueden verse afectadas por resultados analíticos inconsistentes o inexactos, lo que lleva a malas decisiones comerciales.
En el análisis de la causa raíz de los errores de datos, los registros de linaje permiten visualizar la secuencia de etapas de procesamiento por las que ha pasado un conjunto de datos. Las empresas pueden verificar los niveles de calidad en cada etapa para identificar las fuentes de errores. Trabajando en retrospectiva desde el punto donde se detectó el error inicialmente, los administradores de datos pueden verificar si los datos cumplían con las expectativas previas o si contenían errores en ese momento. Al identificar la etapa en la que los datos cumplen con los requisitos al ingresar, pero presentan fallas al salir, el personal involucrado en un programa de gobernanza de datos puede eliminar la causa raíz de los errores, no solo corregir los datos incorrectos.
El linaje de datos también es útil cuando se realiza un análisis de impacto para comprender los problemas causados por cambios en el formato y la estructura de los datos de origen, un problema común en el entorno de datos cada vez más dinámico de la actualidad.
Cuando los datos cambian, pueden surgir consecuencias imprevistas. Al trabajar desde la creación o recopilación de datos, los administradores de datos pueden basarse en la documentación del linaje de datos para rastrear las dependencias de los datos e identificar las etapas de procesamiento afectadas por los cambios. Estas etapas pueden rediseñarse para adaptarse a los cambios y garantizar la coherencia de los datos en todos los sistemas.
Técnicas clave de linaje de datos
Las empresas pueden utilizar diversas técnicas para recopilar y registrar información sobre el linaje de datos. No son necesariamente excluyentes entre sí, y pueden utilizar más de una tecnología de linaje, según los requisitos de su aplicación y la naturaleza de su entorno de datos. Los métodos disponibles incluyen:

Técnicas, mejores prácticas y herramientas de linaje de datos
Técnicas Clave de Linaje de Datos – 1. Etiquetado de datos. Al examinar los metadatos, se pueden aplicar etiquetas a los conjuntos de datos para describirlos y caracterizarlos con fines de linaje de datos. El etiquetado puede ser realizado manualmente por los administradores de datos, otros miembros del equipo de gobernanza de datos y los usuarios finales, o automáticamente por software. Por ejemplo, herramientas de linaje de datos Y las capacidades de linaje integradas en el software de gobernanza de datos a menudo incluyen algoritmos automatizados que los usuarios pueden ejecutar para etiquetar conjuntos de datos.
Técnicas Clave de Linaje de Datos – 2. Linaje basado en patrones. Este enfoque busca patrones en múltiples conjuntos de datos, como elementos, filas y columnas similares. Su presencia indica que los conjuntos de datos están relacionados entre sí y pueden formar parte de un flujo de datos, mientras que las diferencias en los valores o atributos de los datos indican que estos se transformaron al transferirse de un sistema a otro. Transformaciones de datos y los flujos de datos pueden luego registrarse como parte de un registro de linaje de datos.
Técnicas Clave de Linaje de Datos – 3. Linaje basado en análisis. En este caso, las herramientas de linaje de datos analizan la lógica de transformación de datos, los archivos de registro en tiempo de ejecución, los flujos de trabajo de integración de datos y otro código de procesamiento de datos para identificar y extraer información de linaje. El análisis proporciona un enfoque integral para el seguimiento del linaje de datos en diferentes sistemas y puede ser más preciso que el linaje basado en esquemas, pero también más complejo.
Técnicas Clave de Linaje de Datos – 4. Otro enfoque es completamente manual: entrevistar a usuarios de negocio, analistas de inteligencia empresarial, científicos de datos, administradores de datos, desarrolladores de integración de datos y demás personal para comprender cómo se mueven los datos a través del sistema, cómo se utilizan y modifican. La información recopilada puede utilizarse para mapear los flujos y las transformaciones de datos, quizás como punto de partida para la planificación del linaje de datos antes de implementar técnicas más automatizadas.
Mejores prácticas de linaje de datos
A continuación se presentan algunas prácticas recomendadas para ayudar a mantener el proceso de linaje de datos en marcha y garantizar que brinde información precisa y útil sobre su conjunto de datos:
- Involucre a los ejecutivos y usuarios de la empresa desde el principio. Un programa de gobernanza de datos requiere el apoyo y la participación de la dirección para su éxito, al igual que el linaje de datos. El acceso al apoyo de la alta dirección es un requisito para la aprobación y la financiación. Los gerentes y empleados de la empresa también deben participar para garantizar que los equipos de gestión de datos comprendan plenamente cómo se utilizan los datos en los procesos de negocio y para verificar la relevancia y validez de la información sobre el linaje de datos.
- Documente el linaje de datos empresariales y técnicos. El linaje empresarial presta especial atención al origen de los datos, su flujo y su contexto empresarial. El linaje tecnológico proporciona detalles sobre las transformaciones, integraciones y pipelines de datos, así como una combinación de vistas de linaje a nivel de tabla, columna y consulta. Recopilar estos dos datos proporciona información útil, por un lado, a los usuarios empresariales y equipos de análisis, y, por otro, a los arquitectos, modeladores, analistas de calidad de datos y otros profesionales de TI.
- Correlacionar el linaje de datos con las necesidades reales del negocio y de TI. El linaje de datos no debe ser un ejercicio académico. Para generar los beneficios esperados, debe facilitar mejores decisiones y estrategias de negocio, así como una gobernanza de datos más eficaz, una mejor calidad de los datos y otros beneficios de la gestión de datos. De lo contrario, es probable que sea una inversión desperdiciada.
- Implementar un enfoque empresarial para el linaje de datos. Además, centrarse en el proceso de linaje de datos para ciertos conjuntos de datos no es tan útil como podría ser. Para que realmente rinda frutos, debe ser un esfuerzo integral que abarque todos los datos de la empresa, con un único repositorio de metadatos que respalde el proceso de linaje.
- Cree un catálogo de datos que contenga información de linaje de datos integrada. Encontrar y comprender datos relevantes suele ser un gran desafío para los usuarios de inteligencia empresarial y análisis. Al crear un catálogo de datos, los equipos de gestión de datos pueden proporcionarles un inventario de los activos de datos disponibles, que también incluye información de linaje.
¿Qué buscar en una herramienta de linaje de datos?
La recopilación manual de metadatos y la documentación del linaje de datos requiere una inversión significativa de recursosTambién es propenso a errores y puede causar grandes problemas, especialmente a medida que las empresas dependen cada vez más del análisis de datos para impulsar sus operaciones. Por lo tanto, para mejorar la gobernanza de datos, se deben buscar herramientas que gestionen las representaciones de linaje de datos y las mapeen automáticamente en toda la empresa.
Si decide avanzar con el proceso de evaluación técnica para una posible compra, debe buscar herramientas de linaje de datos que puedan:
- Acceder localmente a una amplia gama de fuentes y productos de datos, investigar los metadatos que contienen y recopilarlos para la gobernanza de datos, cada vez más mediante el uso de inteligencia artificial y algoritmos de aprendizaje automático;
- Agregue metadatos capturados en un repositorio centralizado;
- Inferir tipos de datos y hacer coincidir usos comunes de datos de referencia con elementos de datos de diferentes sistemas;
- Proporcionar a los usuarios finales una presentación simplificada de metadatos agregados y apoyar la colaboración para validar las descripciones de los metadatos;
- Un mapeo de extremo a extremo de cómo fluyen los datos a través de los sistemas de una organización;
- Generar una representación visual del linaje de datos;
- Proporciona una API para que los desarrolladores puedan crear aplicaciones que puedan consultar registros de linaje;
- Crear índices invertidos que asignen los nombres de los elementos de datos a sus usos en diferentes etapas del procesamiento;
- Proporcionar capacidades de búsqueda para rastrear rápidamente el flujo de datos desde un punto de origen de datos hasta un destino posterior;
- Permite a los usuarios supervisar el flujo de datos hacia adelante y hacia atrás.
Conclusión
Gracias por leer nuestro artículo. Esperamos que le ayude a comprender mejor las técnicas, las mejores prácticas y las herramientas de linaje de datos. Si desea obtener más información sobre las técnicas y herramientas de linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información.
Como una de las mejores herramientas de linaje de datos disponibles en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar una visualización, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar una visualización. (Publicado por Ryan el 8 de agosto de 2022)
Si te gusta leer esto, explora nuestros otros artículos a continuación: