¿Por qué es importante el linaje de datos y por qué supone un gran desafío?
El cambio conlleva riesgos. Este es uno de los principios fundamentales del desarrollo de software que la mayoría aprendemos al principio de nuestras carreras. Sin embargo, a pesar de estas repetidas lecciones de vida, parece que siempre persiste. Nuestra incapacidad para prever el impacto del cambio, incluso uno pequeño, suele conducir a resultados negativos. Este problema se agrava a medida que aumenta la complejidad de los sistemas de TI interconectados. Es cada vez más difícil predecir cómo afectarán incluso pequeñas modificaciones a los sistemas anteriores o posteriores del cambio. Linaje de datos logra esto, pero hacerlo bien es extremadamente difícil.

Por qué es importante el linaje de datos
¿Por qué es importante el linaje de datos?
Antiguamente, los datos residían en silos con relativamente pocos puntos de conexión entre ellos. Pero hoy en día, los datos fluyen en múltiples direcciones entre múltiples sistemas. Muchos de estos sistemas comparten datos con organizaciones externas, lo que significa que la información también fluye a los sistemas internos. Como resultado, es más fácil que nunca ignorar la influencia de un solo cambio en varios sistemas.
Por ejemplo, supongamos que su empresa ofrece una aplicación móvil que permite a los clientes solicitar nuevas llamadas de servicio de forma rápida y sencilla. Anteriormente, sus clientes podían especificar las variantes de producto que tenían. Su equipo de diseño ha determinado que, dado que ya cuenta con esa información en su base de datos de CRM, ya no necesita recopilarla de los usuarios de su aplicación móvil.
Su tarea era simplificar la aplicación, así que eliminó ese campo de entrada y lo reemplazó con una consulta para extraer información del producto del cliente de su CRM. En teoría, la orden de trabajo generada debería incluir toda la información que su personal de servicio de campo necesita para realizar el trabajo.
Desafortunadamente, hay un problema: algunos registros de productos de clientes en su sistema CRM contienen valores nulos. Su aplicación móvil buscaba esta información, pero arrojó resultados no válidos a su sistema de tickets. Su personal de servicio de campo ya no sabe cómo prepararse para la siguiente llamada de servicio.
Esto suena como algo relativamente simple. calidad de los datos Problema que podría haberse previsto si se hubiera revisado más a fondo los datos de CRM. Sin embargo, si los valores nulos en la base de datos de CRM no se introdujeron hasta más tarde, ni siquiera eso podría resolver el problema. Por ejemplo, si incorpora datos de clientes de una empresa recién adquirida a su sistema de CRM, es posible que no tenga información de producto asociada a esos nuevos registros.
A veces, estos problemas son más difíciles de predecir y pueden no ser evidentes de inmediato. Imagine lo que sucede cuando su equipo de marketing decide redefinir sus criterios de segmentación de clientes. Se añade un nuevo campo de datos para especificar la categoría del cliente, que luego completa todos los valores del cliente, y el campo anterior no se recomienda.
Sin embargo, sin que el departamento de marketing lo supiera, los altos ejecutivos de la empresa seguían consultando datos antiguos. Los paneles que utilizan dependen de datos en campos obsoletos. Cada día se añaden nuevos clientes, pero nadie introduce ningún valor en el campo obsoleto. Como consecuencia, los equipos ejecutivos están analizando datos sesgados. De repente, la alta dirección está monitorizando KPI muy diferentes a los del resto de la organización. Peor aún, nadie se percató del problema hasta semanas o meses después.
A continuación, imagine un escenario similar, pero en lugar de alimentar un panel ejecutivo, el sistema de origen alimenta con datos un algoritmo de IA que impulsa las recomendaciones de los clientes en su sitio web de comercio electrónico. Cuando una IA se entrena con datos erróneos, o si estos cambian significativamente, la eficacia de la tecnología puede verse gravemente afectada. En este caso, se distorsiona el motor de recomendaciones de los clientes.
Abordar los desafíos del linaje de datos
Herramientas de linaje de datos Proporcionar un enfoque sistemático para comprender el impacto de los cambios proporcionando una hoja de ruta completa de los posibles impactos ascendentes y descendentes.
Esto equivale a la reducción de riesgos y al control de costes. Si podemos predecir cómo los cambios podrían afectar a otros sistemas, podemos evitar los problemas descritos anteriormente. Esto se traduce en menos esfuerzo desperdiciado, una comercialización más rápida y menores costes. Todos conocemos el principio de que cuando los problemas se identifican en las primeras etapas del proceso de desarrollo, se resuelven con mayor rapidez y menor coste. El linaje de datos proporciona un eslabón perdido crucial, y los problemas pueden identificarse incluso antes de que lleguen al control de calidad.
También hay beneficios para gobernanza de datos y cumplimiento normativo. Cuando la Unión Europea aprobó el Reglamento General de Protección de Datos (RGPD) en 2016, impuso una serie de nuevos requisitos para los sistemas que contienen información personal identificable (PII). Si un cliente le solicita que elimine sus datos, está legalmente obligado a cumplir con esa solicitud. Pero ¿qué sucede antes y después de este cambio? ¿Infringirá algún derecho? ¿O parte de la PII del cliente permanecerá en otra parte de su sistema, impidiéndole cumplir con la ley?
El linaje de datos aborda estos problemas automatizando el proceso de detección de impactos previos y posteriores. Proporciona una auditoría clara que ayuda a determinar el origen de los cambios y cómo los datos alcanzaron su estado actual.
El linaje de datos a nivel de columna es particularmente difícil porque requiere analizar consultas SQL para identificar con exactitud qué ha cambiado y cómo, lo que implica aprovechar los registros de la base de datos. Sin embargo, dado que existen numerosos proveedores de bases de datos, cada uno con su propio dialecto SQL, analizar esta información para diversas bases de datos puede ser particularmente complejo. A medida que cada dialecto SQL evoluciona con el tiempo, herramientas de linaje de datos debe evolucionar para adaptarse a estos cambios.
El linaje de datos a nivel de columna cobrará aún más importancia a medida que los sistemas interconectados amplíen su alcance y se acelere el flujo de información. Hoy en día, es una herramienta muy útil que ahorra tiempo, esfuerzo y dinero. Pronto, el linaje de datos se volverá indispensable.
Conclusión
Gracias por leer nuestro artículo. Esperamos que le ayude a comprender mejor la importancia del linaje de datos y su complejidad. Si desea obtener más información sobre el linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información.
Como una de las mejores herramientas de linaje de datos disponibles en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar una visualización, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar una visualización. (Publicado por Ryan el 23 de julio de 2022)
Si te gusta leer esto, explora nuestros otros artículos a continuación: