{"id":5110,"date":"2022-07-14T07:53:44","date_gmt":"2022-07-14T15:53:44","guid":{"rendered":"https:\/\/www.gudusoft.com\/?p=5110"},"modified":"2022-07-15T05:12:40","modified_gmt":"2022-07-15T13:12:40","slug":"best-open-source-data-lineage-tools","status":"publish","type":"post","link":"https:\/\/www.gudusoft.com\/es\/las-mejores-herramientas-de-linaje-de-datos-de-codigo-abierto\/","title":{"rendered":"Las 5 mejores herramientas de linaje de datos de c\u00f3digo abierto para considerar en 2022"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"background-color: rgba(255,255,255,0);background-position: center center;background-repeat: no-repeat;border-width: 0px 0px 0px 0px;border-color:#e8eaf0;border-style:solid;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start\" style=\"max-width:1310.4px;margin-left: calc(-4% \/ 2 );margin-right: calc(-4% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\" style=\"background-position:left top;background-repeat:no-repeat;-webkit-background-size:cover;-moz-background-size:cover;-o-background-size:cover;background-size:cover;padding: 0px 0px 0px 0px;\"><div class=\"fusion-text fusion-text-1\" style=\"line-height:26px;\"><h2>Las 5 mejores herramientas de linaje de datos de c\u00f3digo abierto para considerar en 2022<\/h2>\n<p>La esencia de <a href=\"https:\/\/www.gudusoft.com\/es\/que-es-la-gobernanza-de-datos\/\"><strong>gobernanza de datos<\/strong><\/a> Su objetivo es ayudar a las empresas a crear pol\u00edticas de datos y garantizar que las personas puedan cumplirlas. Estas pol\u00edticas abordan diversos procesos relacionados con los datos, incluyendo directrices para su protecci\u00f3n, verificaci\u00f3n y uso. <a href=\"https:\/\/www.gudusoft.com\/es\/administradores-de-datos\/\"><strong>administradores de datos<\/strong><\/a> debe solicitar requisitos de datos de los usuarios comerciales y trabajar con los miembros del consejo de gobernanza de datos para acordar definiciones de datos comunes, especificar <a href=\"https:\/\/www.gudusoft.com\/es\/como-mejorar-la-calidad-de-los-datos\/\"><strong>calidad de los datos<\/strong><\/a> m\u00e9tricas, articular pol\u00edticas pertinentes y desarrollar m\u00e9todos para medir el cumplimiento.<\/p>\n<div id=\"attachment_5114\" style=\"width: 919px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-5114\" decoding=\"async\" class=\"size-full wp-image-5114\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools.png\" alt=\"Las mejores herramientas de linaje de datos de c\u00f3digo abierto\" width=\"909\" height=\"521\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-200x115.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-300x172.png 300w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-400x229.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-600x344.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-768x440.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools-800x459.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Best_Open_Source_Data_Lineage_Tools.png 909w\" sizes=\"(max-width: 909px) 100vw, 909px\" \/><p id=\"caption-attachment-5114\" class=\"wp-caption-text\">Las mejores herramientas de linaje de datos de c\u00f3digo abierto<\/p><\/div>\n<p>Sin embargo, construir un puente entre la definici\u00f3n de pol\u00edticas de gobernanza de datos y su implementaci\u00f3n suele ser un desaf\u00edo formidable. El prop\u00f3sito de estas estrategias es controlar y supervisar la calidad de los activos de datos en todos los flujos de trabajo empresariales, pero los administradores de datos con responsabilidades clave en la gesti\u00f3n de la calidad de los datos a menudo no cuentan con la capacitaci\u00f3n ni la cualificaci\u00f3n adecuadas. Aqu\u00ed es donde... <a href=\"https:\/\/www.dpriver.com\/blog\/2022\/05\/11\/best-data-lineage-tools\/\"><strong>herramienta de linaje de datos<\/strong><\/a> En este art\u00edculo, presentaremos<strong> Las 5 mejores herramientas de c\u00f3digo abierto para el linaje de datos<\/strong> que se podr\u00e1n encontrar en el mercado en 2022.<\/p>\n<h3>Las mejores herramientas de c\u00f3digo abierto para el linaje de datos: 1. Tokern<\/h3>\n<p><strong>Descripci\u00f3n general de Tokern:<\/strong><\/p>\n<p>Tokern est\u00e1 dise\u00f1ado para la nube <strong><a href=\"https:\/\/www.gudusoft.com\/es\/que-es-un-almacen-de-datos-2\/\">almacenes de datos<\/a><\/strong> y <strong><a href=\"https:\/\/www.gudusoft.com\/es\/que-es-un-lago-de-datos\/\">lagos de datos<\/a><\/strong>, and takes a dedicated approach to enabling you to obtain column-level data lineage from databases and data warehouses hosted on Google BigQuery, AWS Redshift, and Snowflake. In addition, more resources such as SparkSQL, AWS Athena, and Presto are in development. Tokenn has considerable integration capabilities because it works well with most of the open source data catalogs and ETL frameworks.<\/p>\n<p><strong>Caracter\u00edsticas del linaje de datos de Tokern: <\/strong><\/p>\n<p>El token se lanz\u00f3 hace un tiempo y tiene en cuenta los \u00faltimos patrones de dise\u00f1o e ingenier\u00eda de datos. Un ejemplo de ello es que, adem\u00e1s de construir... <a href=\"https:\/\/www.gudusoft.com\/es\/que-son-los-datos-de-linaje-y-por-que-son-importantes\/\"><strong>linaje de datos<\/strong><\/a> Desde DBCAT (directorio de datos), Tokern tambi\u00e9n permite crear linaje de datos a partir del historial de consultas o scripts ETL, lo que lo hace ideal para la integraci\u00f3n de herramientas de BI y ETL. Tokern almacena el cat\u00e1logo de datos y el linaje en una base de datos PostgreSQL. Los usuarios pueden acceder a esta base de datos para realizar an\u00e1lisis adicionales mediante SQL o alimentarla a otros motores de visualizaci\u00f3n y an\u00e1lisis.<\/p>\n<p>El motor de visualizaci\u00f3n Kedro-Viz y la biblioteca de an\u00e1lisis de grafos de red NetworkX son la base de las excelentes capacidades de visualizaci\u00f3n y an\u00e1lisis de Tokenn. Estas bibliotecas permiten rastrear, visualizar y analizar datos de linaje a nivel de columna. Tambi\u00e9n se puede interactuar con los datos de linaje mediante el SDK o la API de Token.<\/p>\n<p>Adem\u00e1s de sus avanzadas capacidades de linaje de datos, Tokern utiliza PIICatcher para detectar PII (Informaci\u00f3n Personal Identificable) e PHI (Informaci\u00f3n Personal de Salud). Esta herramienta integrada combina expresiones regulares con diversas bibliotecas de PLN est\u00e1ndar para la detecci\u00f3n de PII, como Spacy y Stanford NER.<\/p>\n<h3>Mejores herramientas de c\u00f3digo abierto para el an\u00e1lisis de datos: 2. Egeria<\/h3>\n<p><strong>Descripci\u00f3n general de Egeria:<\/strong><\/p>\n<p>Descrito como el primer est\u00e1ndar de metadatos de c\u00f3digo abierto del mundo, Egeria ofrece una manera de integrar fluidamente herramientas de ingenier\u00eda de datos para una visi\u00f3n fiable y consistente de los metadatos. Adem\u00e1s de catalogar y buscar metadatos, el est\u00e1ndar permite a los usuarios crear soluciones m\u00e1s avanzadas para el rastreo de linaje de datos, la comprobaci\u00f3n de la calidad de los datos, la identificaci\u00f3n de informaci\u00f3n personal identificable (PII) y m\u00e1s.<\/p>\n<p>Muchas arquitecturas de ingenier\u00eda de datos implican una gran cantidad de conversaciones evitables entre diversas herramientas de datos. Egeria se aleja de esto y, en su lugar, adopta un modelo de radios y ruedas, donde todo pasa por Egeria. De esta manera, los usuarios solo necesitan usar una herramienta para comunicarse.<\/p>\n<p><strong>Caracter\u00edsticas del linaje de datos de Egeria:<\/strong><\/p>\n<p>El linaje de datos en Egeria utiliza est\u00e1ndares abiertos reconocidos para capturar y almacenar un linaje de datos llamado OpenLineage. OpenLineage tambi\u00e9n le ofrece una mayor comprensi\u00f3n de sus datos al proporcionar un pedigr\u00ed horizontal y vertical de datos de seguimiento.<\/p>\n<p>Egeria escucha los eventos de Kafka emitidos por el sistema fuente para capturar la informaci\u00f3n del linaje de datos. Tras obtenerla, Egeria indica a los administradores de linaje que emparejen y vinculen los gr\u00e1ficos de linaje que Egeria no puede. Posteriormente, el linaje est\u00e1 listo para el consumo comercial.<\/p>\n<p>Las capacidades de linaje de datos de Egeria est\u00e1n perfectamente alineadas con las de descubrimiento y gesti\u00f3n de datos, procedencia de metadatos, etc. Estas capacidades, junto con el dise\u00f1o y la arquitectura de linaje de Egeria, la convierten en una herramienta de gobernanza y linaje de datos atractiva y bien dise\u00f1ada.<\/p>\n<h3>Mejores herramientas de c\u00f3digo abierto para el an\u00e1lisis de linaje de datos: 3. Pachyderm<\/h3>\n<p><strong>Descripci\u00f3n general del paquidermo:<\/strong><\/p>\n<p>Al igual que Tokenn, que acabamos de mencionar, Pachyderm es otra herramienta especializada en linaje de datos. En lugar de centrarse en almacenes de datos en la nube, su objetivo es permitir a los desarrolladores crear pipelines de aprendizaje autom\u00e1tico de forma independiente del lenguaje y del framework.<\/p>\n<p>Se ha implementado un sistema de control de versiones, como lakeFS o Git, para mantener el linaje de los objetos de datos. Pachyderm captura y almacena los cambios en estos objetos (por ejemplo, las confirmaciones) para mantener un registro de auditor\u00eda completo e inmutable de los eventos. Los registros de auditor\u00eda permiten tener un mapa del linaje de datos para su visualizaci\u00f3n y an\u00e1lisis, y permiten reproducir datos y c\u00f3digo en cualquier momento para fines de depuraci\u00f3n o cumplimiento normativo.<\/p>\n<p><strong>Caracter\u00edsticas del linaje de datos de Pachyderm:<\/strong><\/p>\n<p>Para lograr un seguimiento continuo del linaje de datos y el control de versiones, Pachyderm utiliza un repositorio central que utiliza almacenes de objetos como AWS S3 en un sistema de archivos personalizado llamado PFS (Sistema de Archivos Pachyderm). PFS ayuda a que su almac\u00e9n de objetos (como S3) se convierta en la \u00fanica fuente real de sus datos, con su historial completo.<\/p>\n<p>Pachyderm tambi\u00e9n aplica invariancia a la fuente de datos, lo que le permite asignar identificadores globales a eventos de linaje y objetos de datos. Pachyderm permite tratar diagramas de linaje de datos inmutables como DAG en la interfaz de usuario. Ambas funciones son \u00fatiles al trabajar con tuber\u00edas de aprendizaje autom\u00e1tico y al rastrear los resultados hasta sus entradas.<\/p>\n<p>Pachyderm se integra con las bases de datos, almacenes de datos y lagos de datos m\u00e1s utilizados. Adem\u00e1s, permite importar datos desde cualquier base de datos a Pachyderm mediante una herramienta de ingesta basada en SQL. Sin embargo, Pachyderm presenta limitaciones como herramienta de linaje de datos de prop\u00f3sito general, por lo que la mayor\u00eda de sus clientes empresariales lo utilizan para gestionar cargas de trabajo de MLOps, ETL de datos no estructurados y NLP.<\/p>\n<h3><strong>Mejores herramientas de c\u00f3digo abierto para el linaje de datos: 4. OpenLineage<\/strong><\/h3>\n<p><strong>Descripci\u00f3n general de OpenLineage:<\/strong><\/p>\n<p>OpenLineage fue fundado por DataKin, la empresa responsable de asumir el desarrollo de Marquez, tras la apertura de WeWork. DataKin cedi\u00f3 el proyecto OpenLineage a la Fundaci\u00f3n Linux como proyecto sandbox a mediados de 2021. Inspirado en gran medida por la omnipresente OpenTelemetry en el campo de la observabilidad de datos, OpenLineage busca establecer un est\u00e1ndar abierto para la recopilaci\u00f3n y el an\u00e1lisis de linajes de datos.<\/p>\n<p><strong>Caracter\u00edsticas de OpenLineage:<\/strong><\/p>\n<p>La integraci\u00f3n es fundamental para el dise\u00f1o y la misi\u00f3n de OpenLineage. Se integra con el marco ETL, el motor de orquestaci\u00f3n de datos, el directorio de metadatos, el motor de calidad de datos y las herramientas de linaje de datos. OpenLineage utiliza JSONSchema como definici\u00f3n de API y es compatible con varios lenguajes y marcos de trabajo. Egeria es una de las herramientas de datos m\u00e1s populares, cuya capa central de metadatos se basa en OpenLineage.<\/p>\n<p>Marquez de WeWork tambi\u00e9n es fundamental en la arquitectura de OpenLineage, ya que Marquez proporciona la interfaz de usuario y el repositorio de metadatos, y la API de recopilaci\u00f3n de metadatos proviene de OpenLineage. OpenLineage tambi\u00e9n est\u00e1 disponible a trav\u00e9s de las API GraphQL y REST.<\/p>\n<p>OpenLineage es una opci\u00f3n atractiva porque se puede usar f\u00e1cilmente con la mayor\u00eda de las pilas de ingenier\u00eda de datos existentes y le brinda una amplia gama de caracter\u00edsticas interesantes y valiosas para que pueda recopilar, rastrear y analizar de manera integral el linaje de datos.<\/p>\n<h3>Las mejores herramientas de c\u00f3digo abierto para el an\u00e1lisis de datos: 5. TrueDat<\/h3>\n<p><strong>Descripci\u00f3n general de TrueDat:<\/strong><\/p>\n<p>Como soluci\u00f3n integral de gobernanza de datos, TrueDat le permite categorizar, buscar y rastrear datos en detalle. Gracias a sus capacidades de linaje de datos, TrueDat tambi\u00e9n le ayuda a visualizar el ciclo de vida completo de sus datos, brind\u00e1ndole informaci\u00f3n sobre su recorrido a lo largo del tiempo.<\/p>\n<p>TrueDat fue creado por BlueTab (una empresa de IBM) en 2017 y ha estado en desarrollo activo desde entonces, con su \u00faltima versi\u00f3n, V4.39, lanzada en marzo de 2022.<\/p>\n<p><strong>Caracter\u00edsticas del linaje de datos TrueDat:<\/strong><\/p>\n<p>TrueDat le permite usar el linaje de datos para analizar el impacto de los cambios en la base de datos y comprender mejor la l\u00f3gica de negocio de sus informes. Le permite rastrear el linaje de un objeto de datos con visibilidad puntual. Para un an\u00e1lisis avanzado, tambi\u00e9n puede aplicar filtros a los objetos de linaje para examinar partes espec\u00edficas del diagrama. Adem\u00e1s de la representaci\u00f3n gr\u00e1fica que aparece en la interfaz de usuario, puede descargar la informaci\u00f3n de linaje de datos recopilada en un archivo CSV. Gracias a que TrueDat ofrece un excelente conjunto de funciones de gobernanza de datos y linaje, es una soluci\u00f3n ideal para sus problemas de linaje de datos.<\/p>\n<h3>Conclusi\u00f3n<\/h3>\n<p>Gracias por leer nuestro art\u00edculo y esperamos que pueda ayudarle a encontrar la <strong>Las mejores herramientas de linaje de datos de c\u00f3digo abierto<\/strong>Si desea obtener m\u00e1s informaci\u00f3n sobre el linaje de datos, le recomendamos visitar <a href=\"https:\/\/www.gudusoft.com\/es\/\"><strong>Flujo de SQL de Gudu<\/strong><\/a> Para m\u00e1s informaci\u00f3n.<\/p>\n<p>Como uno de los\u00a0<strong>Las mejores herramientas de linaje de datos<\/strong>\u00a0Disponible en el mercado hoy en d\u00eda, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener\u00a0<strong>linaje de datos<\/strong>, y realizar una visualizaci\u00f3n, pero tambi\u00e9n permitir a los usuarios proporcionar el linaje de datos en formato CSV y realizar una visualizaci\u00f3n.\u00a0<strong>(Publicado por Ryan el 14 de julio de 2022)<\/strong><\/p>\n<\/div><\/div><\/div><style type=\"text\/css\">.fusion-body .fusion-builder-column-0{width:100% !important;margin-top : 0px;margin-bottom : 0px;}.fusion-builder-column-0 > .fusion-column-wrapper {padding-top : 0px !important;padding-right : 0px !important;margin-right : 1.92%;padding-bottom : 0px !important;padding-left : 0px !important;margin-left : 1.92%;}@media only screen and (max-width:1024px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}@media only screen and (max-width:640px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}<\/style><\/div><style type=\"text\/css\">.fusion-body .fusion-flex-container.fusion-builder-row-1{ padding-top : 0px;margin-top : 0px;padding-right : 0px;padding-bottom : 0px;margin-bottom : 0px;padding-left : 0px;}<\/style><\/div>","protected":false},"excerpt":{"rendered":"","protected":false},"author":27,"featured_media":5118,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[178],"tags":[286,137,155,55,139,285,136,59,210,288,75,290,289,287,291],"_links":{"self":[{"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/posts\/5110"}],"collection":[{"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/users\/27"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/comments?post=5110"}],"version-history":[{"count":10,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/posts\/5110\/revisions"}],"predecessor-version":[{"id":5123,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/posts\/5110\/revisions\/5123"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/media\/5118"}],"wp:attachment":[{"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/media?parent=5110"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/categories?post=5110"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gudusoft.com\/es\/wp-json\/wp\/v2\/tags?post=5110"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}