Todo lo que necesita saber sobre el linaje de datos

Qué es linaje de datos¿Cuáles son las características del linaje de datos? ¿Cuáles son sus usos? ¿Cuáles son los métodos de recopilación de linaje de datos? Si busca respuestas a estas preguntas, ha llegado al lugar indicado. En este artículo, profundizaremos en... Todo lo que necesitas saber sobre el linaje de datos.

Todo lo que necesita saber sobre el linaje de datos

Todo lo que necesita saber sobre el linaje de datos

Todo lo que necesita saber sobre el linaje de datos: ¿Qué es el linaje de datos?

En todo el proceso de generación, procesamiento e integración de datos, circulación y desaparición final, se formará naturalmente una relación entre ellos. Esta relación se expresa recurriendo a una relación similar en la sociedad humana, denominada relación de linaje de datos. El linaje de datos es uno de los componentes de... metadatos.

Permite analizar la ruta de linaje de la tabla y los campos desde la fuente de datos hasta la tabla actual, si se cumple la relación entre los campos de linaje, la consistencia de los datos en cuestión y la racionalidad del diseño de la tabla. Permite analizar el impacto de los cambios en los datos ascendentes en los descendentes y rastrear el origen de los problemas ascendentes cuando se producen cambios en los datos descendentes.

Todo lo que necesita saber sobre el linaje de datos: las características del linaje de datos

  1. Atribución: en términos generales, datos específicos pertenecen a una organización o individuo específico, y los datos tienen atribución.
  2. Multifuente: Los mismos datos pueden provenir de múltiples fuentes. Un dato puede generarse procesando varios datos, y este proceso puede ser múltiple.
  3. Trazabilidad: La relación de linaje de datos refleja el ciclo de vida de los datos y refleja todo el proceso de los datos desde su generación hasta su desaparición, con trazabilidad.
  4. Jerárquico: Las relaciones de linaje de datos son jerárquicas. La información de descripción de los datos, como su clasificación, inducción y resumen, forma nuevos datos, y la información de descripción de diferentes grados forma el nivel de los datos.

Todo lo que necesita saber sobre el linaje de datos: sus usos

  1. Trazabilidad de Datos: La relación de linaje de datos refleja los detalles de los datos, lo que nos permite rastrear su origen y el proceso de procesamiento. Cuando los datos presentan anomalías, es necesario rastrear su causa y controlar el riesgo a un nivel adecuado. Especialmente con el desarrollo de las empresas, la diversidad de fuentes de datos y diferentes niveles de calidad influyen inevitablemente en los resultados de los datos. Por lo tanto, la trazabilidad de datos es fundamental.
  2. Análisis de impacto: Con el aumento de las aplicaciones de datos, la cadena de flujo de datos se alarga cada vez más. Para los cambios en la actividad principal de una fuente, las aplicaciones de análisis posteriores deben mantenerse sincronizadas. Sin análisis de impacto, se producirán accesos anormales a cada servicio de datos. Este suele ser un requisito fundamental del sector del desarrollo para facilitar las evaluaciones de impacto.
  3. El valor de los datos: Medir el valor de los datos es un problema muy complejo. Para evaluarlo, se necesita una base. El linaje de datos proporciona datos de referencia en varios aspectos para facilitar la evaluación. Audiencia de datosCuanto más demandantes de datos, mayor será el valor de los datos.
    Magnitud de la actualización:Cuanto mayor sea la cantidad de datos actualizados, mayor será el valor de los datos.
    Frecuencia de actualización:Cuanto más frecuente sea la actualización, mayor será el valor de los datos.
  4. Evaluación de Calidad: Es el requisito de análisis de datos Aplicaciones, y es necesario controlar la calidad de los datos finales. Cuando se detectan problemas en los datos, es necesario rastrear la fuente de datos, analizar las causas de los problemas de calidad y resolverlos. A partir del diagrama de linaje de datos, se puede obtener fácilmente el proceso de procesamiento de datos y, posteriormente, analizar los posibles problemas de calidad.
  5. El ciclo de vida: A través del linaje de datos, se puede obtener intuitivamente el ciclo de vida completo de los datos. Para datos menos valiosos, considere la organización en niveles, el archivado o incluso la destrucción.
  6. Requisitos de Cumplimiento: Esta suele ser una necesidad de la alta dirección. Para el cumplimiento normativo, todos los puntos y fuentes del flujo de datos son clave para su regulación. Por lo tanto, se requiere una comprensión integral de la relación entre los datos.
  7. Control de Seguridad: Esta suele ser una necesidad de cumplimiento de seguridad: comprender cómo se utilizan los datos y a quién va dirigido. Todos estos datos están disponibles en el linaje de datos. Estos también sentarán las bases para la gestión de permisos (autorización a nivel de tabla y de campo), garantizando así la seguridad de los datos a un nivel superior. En combinación con los identificadores de seguridad en los metadatos (por ejemplo, qué datos deben desensibilizarse, etc.), se puede gestionar y controlar la seguridad de todo el dominio.
  8. Diseño de la arquitectura: El linaje de datos permite comprender los datos desde la perspectiva del procesamiento de datos. En algunos casos, esto es perfectamente lógico. Por ejemplo, cuando se finaliza un proyecto antiguo y se requiere un nuevo proyecto para retomarlo, sin una tabla de mapeo del flujo de datos, la organización tomará mucho tiempo y será difícil garantizar la integridad y la corrección de la migración.
  9. Activos de datos: Para la gestión de la empresa, el flujo general de datos puede comprenderse mediante el linaje de datos. Esto resulta de gran utilidad para la formulación de la estrategia de activos de datos de la empresa.
  10. Necesidades de I+D: Para el personal de I+D de datos, si hay linaje de datos, es conveniente encontrar y comprender la lógica de procesamiento de datos y solucionar problemas.

Todo lo que necesita saber sobre el linaje de datos: los métodos de recopilación de linaje de datos

  1. Análisis Automático: El análisis automático es actualmente el principal método de recopilación. Este método específico consiste en analizar sentencias SQL, procedimientos almacenados, procedimientos ETL y otros archivos. Debido a la complejidad del código y del entorno de aplicación, entre otras razones, según la experiencia de fabricantes internacionales, el análisis automático puede abarcar entre 70 y 951 TP2T de datos empresariales, pero actualmente es imposible alcanzar 1001 TP2T.
  2. Seguimiento del sistema: Es decir, durante el flujo de procesamiento de datos, el programa de procesamiento se encarga de enviar la información de linaje. Por ejemplo, en la sección de anotaciones, se puede añadir una descripción del linaje, etc. La ventaja de este enfoque es que la recopilación es precisa, oportuna y ofrece un soporte detallado; sin embargo, la desventaja es que resulta intrusivo. Sin embargo, si la empresa adopta una plataforma de procesamiento unificada, este método es muy recomendable.
  3. Aprendizaje automático: Este método calcula la similitud de los datos basándose en las dependencias entre conjuntos de datos. La ventaja de este método es que no depende de herramientas ni del negocio, y la desventaja es que la precisión debe confirmarse manualmente.
  4. Recopilación manual: El último es el método “universal”, que consiste en organizar el linaje de datos manualmente por parte de I+D.

Todo lo que necesita saber sobre el linaje de datos: la aplicación del linaje de datos

Según la capacidad del linaje de datos, se utilizan comúnmente las siguientes aplicaciones:

  1. Al especificar una tabla/campo, para rastrear su objeto multinivel hacia adelante.
  2. Al especificar la tabla/campo, para asociar su objeto multinivel hacia atrás.
  3. Al no limitarse a un solo objeto, se puede comprender el flujo de datos general a mayor escala (por ejemplo, dentro de un proyecto, etc.). Esto resulta útil para el análisis de objetos clave, la limpieza de datos, etc.
  4. Es decir, desde la perspectiva de las operaciones, analizar sus operaciones de avance y retroceso. Esto es útil para la resolución de problemas, el análisis de calidad y más.
  5. Además de nuestro concepto habitual de linaje, existe un linaje más generalizado. No solo existe una relación a nivel de datos entre objetos, sino también una relación a nivel de referencia, es decir, el uso asociado entre objetos, incluyendo, entre otros, tablas, vistas, modelos, informes, trabajos, etc. Esto es relevante para la evaluación del valor de los datos, la gestión de activos de datos, etc.
  6. La exploración de datos tradicional suele realizarse según la definición de la jerarquía de datos. Cuando existe linaje de datos, se ofrece otro método de exploración, es decir, una exploración paso a paso según la lógica de procesamiento de datos.

Conclusión

Gracias por leer nuestro artículo y esperamos que le sea útil. Si desea obtener más información sobre el linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información.

Como uno de los mejor herramientas de linaje de datos Disponible actualmente en el mercado, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar una visualización, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar una visualización.Publicado por Ryan el 29 de agosto de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Comentarios de 3

  1. […] herramientas disponibles en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar presentaciones visuales, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar […]

  2. […] herramientas disponibles en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos y realizar presentaciones visuales, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar […]

  3. Gracias por leer nuestro artículo y esperamos que lo hayas disfrutado. Si quieres aprender más sobre el linaje de datos, te recomendamos visitar Gudu SQLFlow para más información. Como uno de los mejores […]

Deja un comentario