¿Qué es el linaje de datos? | ¿Por qué es tan importante?

Hoy en día, con el rápido desarrollo de la economía y la tecnología, estamos rodeados de todo tipo de datos, y casi todos los aspectos de nuestro negocio dependen de ellos de alguna manera. Cuando estamos ocupados decidiendo la mejor manera de gestionar nuestros datos, podemos sentir que no tenemos tiempo para analizar sus verdaderos beneficios para nuestra empresa. Considere esto: los datos deben estar disponibles para nuestra empresa las 24 horas del día, los 7 días de la semana. Para ello, comprender los detalles de su origen, cómo llegaron allí y cómo circularon dentro de la empresa es fundamental para su valor.

Linaje de datos

Linaje de datos

Aporte linaje de datos, una herramienta exquisita para descubrir el origen de la mina de oro, comprenderla y garantizar que llegue a manos de quienes más la necesitan. Así que... ¿Qué es el linaje de datos?¿Por qué es tan importante el linaje de datos? En esta publicación, analizaremos más a fondo... linaje de datos.

¿Qué es el linaje de datos?

Es el pedigrí de los datos. En resumen, se refiere a un registro de cómo llegaron los datos a una ubicación específica, así como de los pasos intermedios y las transformaciones que ocurren a medida que los datos se mueven a través del sistema empresarial. En esencia, el linaje de datos nos proporciona un mapa detallado del recorrido de los datos, incluidos todos los pasos del camino, como se muestra arriba.

Linaje de datos vs. Procedencia de datos

El concepto de procedencia de los datos está relacionado con su linaje. Se refiere a la fuente de los datos. Con base en la procedencia, podemos hacer suposiciones sobre la confiabilidad y calidad de los datos. almacén de datos y lago de datos administradores Debería centrarse en el seguimiento de la procedencia y el linaje de los datos. Los aspectos clave de la gestión de metadatos incluyen saber dónde y cuándo se originaron, quién los manipuló y cómo modificarlos.

¿Por qué es tan importante el linaje de datos?

Conocer la procedencia y el linaje de los datos es muy importante por las siguientes razones:

En primer lugar, podemos evaluar la credibilidad de los datos según su procedencia. Además, nos ayuda a comprender y corregir las fuentes de errores. Además, nos permite identificar suposiciones erróneas sobre los datos que podrían distorsionar el análisis. Además, proporciona registros de auditoría para la gobernanza de datos y fines regulatorios. Además, con su ayuda, podemos garantizar que los flujos de datos estén protegidos contra manipulaciones. Finalmente, nos permite identificar y evitar la duplicación de datos, simplificando las operaciones y reduciendo costos.

¿Qué valor empresarial puede proporcionarnos el linaje de datos?

Aunque el linaje de datos puede parecer un concepto abstracto, una comprensión integral de todo el ciclo de vida de los datos puede agregar valor al negocio en varias áreas:

1. Mejorar el rendimiento empresarial

Casi todas las decisiones en la empresa moderna dependen de la inteligencia empresarial (BI) y los sistemas de soporte de decisiones (DSS). Por ejemplo, qué características deben priorizarse en el diseño de nuevos productos, dónde anunciarse y qué estrategias de ventas y marketing deben emplearse para maximizar los ingresos, la rentabilidad y la fidelización de los clientes. La frase "si entra basura, sale basura" se aplica a todos los aspectos del análisis. Los datos erróneos pueden distorsionar gravemente los resultados e influir gravemente en el rendimiento empresarial.

2. Gestionar el cumplimiento normativo y el riesgo

Las organizaciones de todos los sectores deben gestionar diversos requisitos regulatorios, y algunos solo afectan a ciertos sectores. Por ejemplo, la HIPAA, cuyo objetivo es proteger la información de los pacientes en el ámbito sanitario, y Basilea, cuyo objetivo es mitigar el riesgo en la banca internacional. Otros, como el Reglamento General de Protección de Datos (RGPD) de la UE, influyen en todos los sectores. Disponer de metadatos que rastrean el linaje de los datos para fines de gobernanza de datos reduce el riesgo empresarial y los costes asociados al cumplimiento normativo, y también facilita y hace más rentable el cumplimiento de posibles nuevas regulaciones en el futuro.

3. Gestionar fuentes de datos en constante evolución

Los sistemas y las fuentes de datos cambian con la evolución de las condiciones comerciales. Por ejemplo, una aplicación de análisis que estima el comportamiento del cliente simplemente analizando los datos tradicionales del punto de venta es casi seguro errónea. Este enfoque analítico no detectará clientes de pedidos de comercio electrónico, compras dentro de la aplicación y otros canales de venta y grupos demográficos. Aunque esto pueda parecer obvio, el problema del sesgo de datos y las fuentes de datos no detectadas es un problema en el que incluso las organizaciones más complejas pueden caer fácilmente.

4. Reducir los costos y riesgos de TI

Lo que todos los ejemplos anteriores tienen en común es que se basan en tecnologías de la información (TI). Las organizaciones que comprenden los conjuntos de datos y cómo se utilizan pueden crear nuevas aplicaciones con mayor facilidad y resolver problemas con las aplicaciones existentes de forma más rápida y económica. Si la fuente de metadatos de los datos es clara, es mucho más fácil y rentable modificar o añadir una aplicación de análisis.

¿Cómo gestionar el linaje de datos?

La gestión del linaje de datos es especialmente importante en un entorno de data lake. Este contiene diferentes conjuntos de datos en distintos formatos provenientes de distintas fuentes, como imágenes, archivos de vídeo, archivos de registro, documentos, texto sin procesar o archivos en formato JSON, CSV, Apache Parquet u ORC (Optimized Row-Column). Además, los conjuntos de datos se añaden constantemente, a menudo con rapidez, y diversas herramientas pueden acceder y procesar los datos sin procesar para generar conjuntos de datos derivados adicionales.

Cuando estos problemas de diversidad y velocidad se combinan con grandes volúmenes de datos, resulta imposible rastrear manualmente el origen y los detalles de cada dato. La gestión de metadatos debe automatizarse en un entorno de data lake, y esto es especialmente importante al gestionar data lakes. A diferencia de los propios datos, que se almacenan en el data lake, los metadatos son «datos sobre datos» y pueden adoptar diversas formas.

Conclusión

Gracias por leer nuestro artículo y esperamos que pueda ayudarle a tener una mejor comprensión de qué Linaje de datos y por qué es tan importanteSi desea saber más sobre el linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información. ¡Gracias de nuevo!  (Publicado por Ryan el 18 de abril de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Comentarios de 4

  1. […] crean un puente entre la empresa y la TI. Al comprender los metadatos subyacentes y los linajes de datos asociados a los términos empresariales, los glosarios empresariales ayudan a cerrar esta brecha y a aportar mayor valor […]

  2. […] tienen requisitos de privacidad y seguridad de datos, por lo que es necesario etiquetar datos confidenciales, documentar su linaje de datos y describir su flujo para […]

  3. […] Archivos de script SQL, obtener el linaje de datos y visualizarlo, pero también permiten a los usuarios proporcionar el linaje de datos en formato CSV y visualizarlo. (Publicado por Ryan el 26 de mayo de […]

  4. […] herramientas disponibles en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar presentaciones visuales, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar […]

Deja un comentario