Las 7 mejores herramientas de gobernanza de datos de código abierto de 2022

Encontrar un buen código abierto herramienta de gobernanza de datos Puede ser un desafío por muchas razones. En primer lugar, el mayor obstáculo para decidir cualquier cosa relacionada con... gobernanza de datos La falta de un enfoque estandarizado implica que los objetivos no están bien definidos. Además, las capacidades de gobernanza de datos de la mayoría de las herramientas de código abierto no están claras. Debe revisar la documentación y el repositorio de GitHub para determinar si una herramienta en particular es adecuada para un caso de uso específico.

Además, las capacidades de gobernanza de datos de la mayoría de las herramientas de código abierto no están claras, por lo que debe revisar la documentación y los repositorios de GitHub para determinar si una herramienta en particular es adecuada para un caso de uso específico. Para simplificar su proceso de evaluación, hemos compilado una lista de las mejores herramientas de gobernanza de datos de código abierto de 2022.

Las mejores herramientas de gobernanza de datos de código abierto

Las mejores herramientas de gobernanza de datos de código abierto

Mejores herramientas de gobernanza de datos de código abierto: 1. Amundsen

Amundsen se creó originalmente en Lyft y actualmente está alojado y mantenido por LF AI & Data Foundation. En cuanto a la gobernanza de datos, se centra principalmente en la seguridad de los datos y el cumplimiento de las leyes de privacidad y soberanía de datos. La idea es etiquetar y categorizar todos los datos en la capa de metadatos.

Con Amundsen, puede buscar metadatos y saber quién los usa y con qué frecuencia. Puede obtener una idea general de los datos al observar estos patrones de acceso, pero este enfoque es más reactivo. Para un enfoque más proactivo, necesita controles de acceso precisos para evitar que las personas accedan a los datos según las políticas de acceso de equipo, rol, individuo, sistema, etc.

Si bien aún no cuenta con RBAC (control de acceso basado en roles) en Amundsen, aún cuenta con algunas capacidades esenciales de gobernanza de datos, como etiquetado y categorización de metadatos.

Debido a las limitadas capacidades de gobernanza de datos disponibles con el backend predeterminado de Neo4J, Amundsen decidió añadir compatibilidad con Apache Atlas. Dado que Apache Atlas es uno de los sistemas más maduros... gestión de metadatos Plataformas, muchas funciones se han probado en diversos sistemas, lo que aporta fiabilidad a las soluciones de catalogación y gobernanza de datos. Amundsen cuenta con un buen soporte para linaje de datos y propagación de etiquetas/insignias (usando linaje).

Los backends de Neo4j o Atlas suelen ser adecuados para la mayoría de las empresas. Algunos usuarios buscan funciones más avanzadas en sus soluciones de catalogación y gobernanza de datos.

Mejores herramientas de gobernanza de datos de código abierto: 2. DataHub

LinkedIn creó DataHub después de que WhereHows dejara de ser una solución viable para la creciente demanda de herramientas de búsqueda y descubrimiento de metadatos. Antes de DataHub, LinkedIn utilizaba otras herramientas junto con WhereHows para añadir capacidades de gobernanza de datos.

DataHub te permite un control de acceso preciso sobre los metadatos. El acceso se rige por políticas que puedes declarar desde la interfaz web y la API de GraphQL. La estrategia de DataHub se aplica a dos niveles: plataforma y metadatos. Las políticas de plataforma te permiten controlar los permisos de usuario en DataHub; por ejemplo, qué funciones y en qué medida pueden los usuarios verlas y usarlas.

Puede aplicar estas políticas a usuarios individuales o grupos. Por otro lado, las políticas de metadatos le permiten controlar qué usuarios tienen acceso a diferentes entidades de metadatos, gráficos, fuentes de datos, paneles, etc., y qué acciones pueden realizar en ellos. Sin embargo, DataHub actualmente no permite controlar los permisos de lectura.

Varias otras funciones forman parte de la hoja de ruta de DataHub, pero aún no hay un cronograma definido. Una de las principales capacidades de gobernanza de datos es RBAC (control de acceso basado en roles) para entidades y aspectos (registros PDL). RBAC no solo proporciona un control de acceso más preciso sobre los metadatos, sino que también facilita una mejor gestión de etiquetas, el control de acceso a la vista previa de datos y mucho más.

En términos de gobernanza/privacidad: DataHub admite la clasificación a nivel de conjunto de datos, el movimiento controlado de datos, la eliminación automática de datos, la exportación de datos y más. Planean liberar algunas capacidades de cumplimiento como parte de su plan de trabajo.

Mejores herramientas de gobernanza de datos de código abierto: 3. Apache Atlas

Como uno de los primeros catálogos de datos de código abierto en integrar capacidades de gobernanza de datos, el proyecto Apache Atlas tuvo un ciclo de desarrollo algo lento, además de que fue diseñado específicamente para el ecosistema Hadoop. Funciona con cualquier sistema integrado con Hive.

Apache Atlas es especialmente eficaz en la clasificación, con la capacidad de crear categorías de sensibilidad, caducidad y calidad de datos sobre la marcha, lo que nos lleva al linaje de datos, otra característica popular de Apache Atlas. Atlas implementa un linaje de datos real, es decir, el linaje es operativo.

Al utilizar datos de linaje, Apache Atlas puede propagar propiedades de metadatos a entidades en una jerarquía de linaje, una característica que no encontrará en otras herramientas de gobernanza de datos.

Apache Atlas también cuenta con diversas funciones de privacidad y seguridad de datos de DE. Por ejemplo, ofrece un control de acceso detallado sobre entidades y categorías, y funciona bien con Apache Ranger para la autorización y el enmascaramiento de datos. Al trabajar en conjunto, estas funciones forman una red eficaz de privacidad y seguridad de datos, que permite proteger o clasificar los datos como información personal identificable (PII), información sensible, etc. Cabe destacar que también proporciona un marco para controlar quién puede acceder a información personal identificable (PII) y datos sensibles.

Mejores herramientas de gobernanza de datos de código abierto: 4. Magda

Desarrollado por Data61, la división de ciencia de datos de CSIRO (Organización de Investigación Científica e Industrial de la Commonwealth de Australia), MAGDA es un acrónimo que significa "Haciendo Disponibles los Datos del Gobierno Australiano". CSIRO implementó Magda para crear un portal de datos abiertos que contiene más de 70.000 conjuntos de datos de los gobiernos federal y estatal de Australia, y ha puesto el proyecto en código abierto para su uso por parte de terceros.

Aunque las funciones más completas y consolidadas de Magda siguen siendo la búsqueda y el descubrimiento, también ofrece un potente soporte para etiquetar y definir temas de conjuntos de datos. Además, Magda cuenta con opciones integradas de vista previa de datos, incluyendo hojas de cálculo y gráficos interactivos. Otras herramientas, como Amundsen, deben integrarse con Superset. Una advertencia: la integración con herramientas como Superset para la vista previa de datos es más escalable.

Si bien Magda actualmente no admite RBAC (control de acceso basado en roles), sí admite funciones que permiten un control estricto del acceso a recursos Se incorpora a Magda. Magda utiliza Kubernetes para mantenerse independiente de la nube. Utiliza el estándar Open Policy Broker para gestionar las políticas de acceso, lo que facilita diferentes tipos de control de acceso, como el basado en roles, el basado en atributos, etc.

Mejores herramientas de gobernanza de datos de código abierto: 5. Open Metadata

Anunciado en agosto de 2021, Metadatos abiertos Define especificaciones para estandarizar los metadatos utilizando un enfoque que prioriza el esquema, que consiste en un almacén de metadatos centralizado y un marco de ingesta que admite conectores populares en la pila de datos.

Open Metadata adopta un enfoque diferente para el etiquetado, que permite etiquetar a los propietarios de datos con conjuntos de datos y en múltiples capas según su importancia. Open Metadata también implementa el control de versiones de todos los metadatos, lo que significa que, con las entidades de la base de datos (tablas, vistas, modo), la etiqueta, la propiedad del conjunto de datos, información detallada y vocabulario empresarial relacionado con todos los metadatos para el control de versiones, toda la información sobre los cambios, como quién realizó el cambio y cuándo.

Mejores herramientas de gobernanza de datos de código abierto: 6. Egeria

Lanzada en 2019 y mantenida por la división de IA y Datos de la Fundación Linux, Egeria está diseñada para intercambiar metadatos fácilmente entre herramientas y plataformas de forma independiente del proveedor. Otras herramientas lo hacen mediante SDKS y API, pero sus capacidades son limitadas, mientras que Egeria lo hace bien gracias a sus principios de independencia de plataforma, facilidad de extensibilidad y accesibilidad a los datos.

Si bien todas las demás herramientas que hemos visto hasta ahora abordan cuestiones de gestión y gobernanza de metadatos principalmente desde la perspectiva del usuario, Egeria intenta resolver problemas de usuarios y sistemas, y funciona bien con una variedad de herramientas de datos.

Egeria le ofrece un control muy preciso de sus metadatos mediante regiones de gobernanza, fechas de validez, archivado de metadatos, procedencia de metadatos y más, algunos de los cuales son exclusivos de Egeria. Cabe mencionar también que incluye, entre otros, más de 800 funciones predefinidas. tipos de metadatosTambién puede definir sus propios tipos según las necesidades de su negocio, lo que significa que Egeria es lo suficientemente flexible como para adaptarse a sus necesidades comerciales.

Mejores herramientas de gobernanza de datos de código abierto: 7. Truedat

Finalmente, TrueDat, posiblemente la única plataforma madura herramienta de gobernanza de datos de código abierto En la lista, fue creada por BlueTab (ahora IBM) después de comprender las necesidades del mercado como proveedor de soluciones de datos y encontrar brechas en el espacio de gobernanza de datos.

TrueDat tiene un conjunto de características superpuestas con las otras herramientas mencionadas anteriormente, incluidas catálogos de datos, motores de búsqueda, capacidades de linaje de datos, etc. Aun así, las funciones más populares son... vocabulario de negocios y la capacidad de compartir datos entre equipos, con controles detallados que se centran en la gestión de datos, la gestión de la propiedad de los datos, la clasificación, etc.

Existen otras características que hacen de TrueDat un recurso único en esta lista, como la función de intercambio de datos, similar a la de Snowflake, que facilita a los equipos compartir y colaborar de forma más eficaz. Además, para garantizar un alto nivel de seguridad y control sobre los datos, se pueden utilizar las funciones de suscripción y notificación para registrar eventos de cambio en registros de auditoría y monitorizarlos en tiempo real.

Conclusión

Gracias por leer nuestro artículo. Esperamos que le sea útil si busca las mejores herramientas de gobernanza de datos de código abierto. Si desea más información sobre herramientas de gobernanza de datos de código abierto, le recomendamos visitar Flujo de SQL de Gudu Para más información.

Como uno de los Las mejores herramientas de linaje de datos Disponible actualmente en el mercado, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener el linaje de datos y realizar visualizaciones, sino que también permite a los usuarios proporcionar linaje de datos en formato CSV y realizar visualización. (Publicado por Ryan el 16 de julio de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Deja un comentario