Las 5 mejores herramientas de linaje de datos de código abierto para considerar en 2022
La esencia de gobernanza de datos Su objetivo es ayudar a las empresas a crear políticas de datos y garantizar que las personas puedan cumplirlas. Estas políticas abordan diversos procesos relacionados con los datos, incluyendo directrices para su protección, verificación y uso. administradores de datos debe solicitar requisitos de datos de los usuarios comerciales y trabajar con los miembros del consejo de gobernanza de datos para acordar definiciones de datos comunes, especificar calidad de los datos métricas, articular políticas pertinentes y desarrollar métodos para medir el cumplimiento.

Las mejores herramientas de linaje de datos de código abierto
Sin embargo, construir un puente entre la definición de políticas de gobernanza de datos y su implementación suele ser un desafío formidable. El propósito de estas estrategias es controlar y supervisar la calidad de los activos de datos en todos los flujos de trabajo empresariales, pero los administradores de datos con responsabilidades clave en la gestión de la calidad de los datos a menudo no cuentan con la capacitación ni la cualificación adecuadas. Aquí es donde... herramienta de linaje de datos En este artículo, presentaremos Las 5 mejores herramientas de código abierto para el linaje de datos que se podrán encontrar en el mercado en 2022.
Las mejores herramientas de código abierto para el linaje de datos: 1. Tokern
Descripción general de Tokern:
Tokern está diseñado para la nube almacenes de datos y lagos de datosy adopta un enfoque específico para permitirle obtener el linaje de datos a nivel de columna de bases de datos y almacenes de datos alojados en Google BigQuery, AWS Redshift y Snowflake. Además, más recursos Se están desarrollando herramientas como SparkSQL, AWS Athena y Presto. Tokenn cuenta con considerables capacidades de integración, ya que funciona bien con la mayoría de los catálogos de datos de código abierto y marcos ETL.
Características del linaje de datos de Tokern:
El token se lanzó hace un tiempo y tiene en cuenta los últimos patrones de diseño e ingeniería de datos. Un ejemplo de ello es que, además de construir... linaje de datos Desde DBCAT (directorio de datos), Tokern también permite crear linaje de datos a partir del historial de consultas o scripts ETL, lo que lo hace ideal para la integración de herramientas de BI y ETL. Tokern almacena el catálogo de datos y el linaje en una base de datos PostgreSQL. Los usuarios pueden acceder a esta base de datos para realizar análisis adicionales mediante SQL o alimentarla a otros motores de visualización y análisis.
El motor de visualización Kedro-Viz y la biblioteca de análisis de grafos de red NetworkX son la base de las excelentes capacidades de visualización y análisis de Tokenn. Estas bibliotecas permiten rastrear, visualizar y analizar datos de linaje a nivel de columna. También se puede interactuar con los datos de linaje mediante el SDK o la API de Token.
Además de sus avanzadas capacidades de linaje de datos, Tokern utiliza PIICatcher para detectar PII (Información Personal Identificable) e PHI (Información Personal de Salud). Esta herramienta integrada combina expresiones regulares con diversas bibliotecas de PLN estándar para la detección de PII, como Spacy y Stanford NER.
Mejores herramientas de código abierto para el análisis de datos: 2. Egeria
Descripción general de Egeria:
Descrito como el primer estándar de metadatos de código abierto del mundo, Egeria ofrece una manera de integrar fluidamente herramientas de ingeniería de datos para una visión fiable y consistente de los metadatos. Además de catalogar y buscar metadatos, el estándar permite a los usuarios crear soluciones más avanzadas para el rastreo de linaje de datos, la comprobación de la calidad de los datos, la identificación de información personal identificable (PII) y más.
Muchas arquitecturas de ingeniería de datos implican una gran cantidad de conversaciones evitables entre diversas herramientas de datos. Egeria se aleja de esto y, en su lugar, adopta un modelo de radios y ruedas, donde todo pasa por Egeria. De esta manera, los usuarios solo necesitan usar una herramienta para comunicarse.
Características del linaje de datos de Egeria:
El linaje de datos en Egeria utiliza estándares abiertos reconocidos para capturar y almacenar un linaje de datos llamado OpenLineage. OpenLineage también le ofrece una mayor comprensión de sus datos al proporcionar un pedigrí horizontal y vertical de datos de seguimiento.
Egeria escucha los eventos de Kafka emitidos por el sistema fuente para capturar la información del linaje de datos. Tras obtenerla, Egeria indica a los administradores de linaje que emparejen y vinculen los gráficos de linaje que Egeria no puede. Posteriormente, el linaje está listo para el consumo comercial.
Las capacidades de linaje de datos de Egeria están perfectamente alineadas con las de descubrimiento y gestión de datos, procedencia de metadatos, etc. Estas capacidades, junto con el diseño y la arquitectura de linaje de Egeria, la convierten en una herramienta de gobernanza y linaje de datos atractiva y bien diseñada.
Mejores herramientas de código abierto para el análisis de linaje de datos: 3. Pachyderm
Descripción general del paquidermo:
Al igual que Tokenn, que acabamos de mencionar, Pachyderm es otra herramienta especializada en linaje de datos. En lugar de centrarse en almacenes de datos en la nube, su objetivo es permitir a los desarrolladores crear pipelines de aprendizaje automático de forma independiente del lenguaje y del framework.
Se ha implementado un sistema de control de versiones, como lakeFS o Git, para mantener el linaje de los objetos de datos. Pachyderm captura y almacena los cambios en estos objetos (por ejemplo, las confirmaciones) para mantener un registro de auditoría completo e inmutable de los eventos. Los registros de auditoría permiten tener un mapa del linaje de datos para su visualización y análisis, y permiten reproducir datos y código en cualquier momento para fines de depuración o cumplimiento normativo.
Características del linaje de datos de Pachyderm:
Para lograr un seguimiento continuo del linaje de datos y el control de versiones, Pachyderm utiliza un repositorio central que utiliza almacenes de objetos como AWS S3 en un sistema de archivos personalizado llamado PFS (Sistema de Archivos Pachyderm). PFS ayuda a que su almacén de objetos (como S3) se convierta en la única fuente real de sus datos, con su historial completo.
Pachyderm también aplica invariancia a la fuente de datos, lo que le permite asignar identificadores globales a eventos de linaje y objetos de datos. Pachyderm permite tratar diagramas de linaje de datos inmutables como DAG en la interfaz de usuario. Ambas funciones son útiles al trabajar con tuberías de aprendizaje automático y al rastrear los resultados hasta sus entradas.
Pachyderm se integra con las bases de datos, almacenes de datos y lagos de datos más utilizados. Además, permite importar datos desde cualquier base de datos a Pachyderm mediante una herramienta de ingesta basada en SQL. Sin embargo, Pachyderm presenta limitaciones como herramienta de linaje de datos de propósito general, por lo que la mayoría de sus clientes empresariales lo utilizan para gestionar cargas de trabajo de MLOps, ETL de datos no estructurados y NLP.
Mejores herramientas de código abierto para el linaje de datos: 4. OpenLineage
Descripción general de OpenLineage:
OpenLineage fue fundado por DataKin, la empresa responsable de asumir el desarrollo de Marquez, tras la apertura de WeWork. DataKin cedió el proyecto OpenLineage a la Fundación Linux como proyecto sandbox a mediados de 2021. Inspirado en gran medida por la omnipresente OpenTelemetry en el campo de la observabilidad de datos, OpenLineage busca establecer un estándar abierto para la recopilación y el análisis de linajes de datos.
Características de OpenLineage:
La integración es fundamental para el diseño y la misión de OpenLineage. Se integra con el marco ETL, el motor de orquestación de datos, el directorio de metadatos, el motor de calidad de datos y las herramientas de linaje de datos. OpenLineage utiliza JSONSchema como definición de API y es compatible con varios lenguajes y marcos de trabajo. Egeria es una de las herramientas de datos más populares, cuya capa central de metadatos se basa en OpenLineage.
Marquez de WeWork también es fundamental en la arquitectura de OpenLineage, ya que Marquez proporciona la interfaz de usuario y el repositorio de metadatos, y la API de recopilación de metadatos proviene de OpenLineage. OpenLineage también está disponible a través de las API GraphQL y REST.
OpenLineage es una opción atractiva porque se puede usar fácilmente con la mayoría de las pilas de ingeniería de datos existentes y le brinda una amplia gama de características interesantes y valiosas para que pueda recopilar, rastrear y analizar de manera integral el linaje de datos.
Las mejores herramientas de código abierto para el análisis de datos: 5. TrueDat
Descripción general de TrueDat:
Como solución integral de gobernanza de datos, TrueDat le permite categorizar, buscar y rastrear datos en detalle. Gracias a sus capacidades de linaje de datos, TrueDat también le ayuda a visualizar el ciclo de vida completo de sus datos, brindándole información sobre su recorrido a lo largo del tiempo.
TrueDat fue creado por BlueTab (una empresa de IBM) en 2017 y ha estado en desarrollo activo desde entonces, con su última versión, V4.39, lanzada en marzo de 2022.
Características del linaje de datos TrueDat:
TrueDat le permite usar el linaje de datos para analizar el impacto de los cambios en la base de datos y comprender mejor la lógica de negocio de sus informes. Le permite rastrear el linaje de un objeto de datos con visibilidad puntual. Para un análisis avanzado, también puede aplicar filtros a los objetos de linaje para examinar partes específicas del diagrama. Además de la representación gráfica que aparece en la interfaz de usuario, puede descargar la información de linaje de datos recopilada en un archivo CSV. Gracias a que TrueDat ofrece un excelente conjunto de funciones de gobernanza de datos y linaje, es una solución ideal para sus problemas de linaje de datos.
Conclusión
Gracias por leer nuestro artículo y esperamos que pueda ayudarle a encontrar la Las mejores herramientas de linaje de datos de código abiertoSi desea obtener más información sobre el linaje de datos, le recomendamos visitar Flujo de SQL de Gudu Para más información.
Como uno de los Las mejores herramientas de linaje de datos Disponible en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos, y realizar una visualización, pero también permitir a los usuarios proporcionar el linaje de datos en formato CSV y realizar una visualización. (Publicado por Ryan el 14 de julio de 2022)
Si te gusta leer esto, explora nuestros otros artículos a continuación: