Las 4 mejores herramientas de catálogo de datos de código abierto de 2022

Fundamentalmente, cualquier organización basada en datos necesita herramientas de catálogo de datos. Catálogos de datos Ayudan a crear un entorno único desde el que se puede acceder a todos los datos de una organización y al contexto de esos datos, lo que garantiza que las organizaciones puedan reducir el tiempo de análisis y tomar rápidamente decisiones empresariales de alta calidad basadas en datos. Si busca... Las mejores herramientas de catálogo de datos de código abiertoEntonces has llegado al lugar correcto. En esta publicación, hemos recopilado una lista de... Las mejores herramientas de catálogo de datos de código abierto de 2022 Para hacerte la vida más fácil.

Las mejores herramientas de catálogo de datos de código abierto

Las mejores herramientas de catálogo de datos de código abierto

Mejores herramientas de catálogo de datos de código abierto: 1. Apache Atlas

Como código abierto gestión de metadatos Apache Atlas, plataforma de herramientas y gobernanza, está incubada por Hortonworks bajo el paraguas de la Iniciativa de Gobernanza de Datos.

Se unió a la Incubadora de la Fundación Apache en 2015 y creció hasta convertirse en un programa de primer nivel en 2017. Apache Atlas es ampliamente reconocido como uno de los pilares de las plataformas de datos modernas debido a su visión temprana de utilizar metadatos para resolver los desafíos de catalogación, clasificación, descubrimiento, gobernanza y colaboración de datos.

Principales capacidades de Apache Atlas:

  1. Clasificación de metadatos: Apache Atlas permite clasificar automáticamente información personal identificable (PII), datos confidenciales y otros datos sensibles. Los activos de datos pueden asociarse con múltiples clasificaciones. Estas políticas también se propagan a través del linaje para garantizar que los datos derivados hereden la misma clasificación y los mismos controles de seguridad.
  2. Tipos e instancias de metadatos: Según la documentación de Apache, un “tipo” es una definición de cómo se almacena y se accede a un tipo específico de objeto de metadatos en Atlas, lo que permite administradores de datos para definir metadatos técnicos y comerciales.
  3. Búsqueda y linaje: La interfaz intuitiva de Apache Atlas permite la exploración predefinida y temporal de tipos de datos por tipo, categoría, valor de atributo o texto libre. Además, conserva un historial de cómo se construyó la fuente de datos o los datos explícitos y cómo evolucionó con el tiempo.
  4. Seguridad y enmascaramiento de datos: Apache Atlas es principalmente una herramienta de gobernanza de datos que permite una seguridad detallada del acceso a los metadatos para configurar el control de acceso sobre instancias de entidades, así como agregar/actualizar/eliminar clasificaciones, etc.

Mejores herramientas de catálogo de datos de código abierto: 2. Amundsen Lyft

Como plataforma de catálogo de datos de código abierto construida originalmente por el equipo de ingeniería de Lyft, Amundsen abrió el código fuente en octubre de 2019, un año después de su lanzamiento para uso interno.

Amundsen tiene una comunidad cohesionada de colaboradores y usuarios, y es ampliamente adoptado por otras organizaciones basadas en esta herramienta de catálogo de datos de código abierto para avanzar en sus iniciativas de democratización de datos, gobernanza y servicios de metadatos.

Principales capacidades de Amundsen:

  1. Es fácil encontrar datos confiables: Amundsen ayuda a encontrar datos de una variedad de fuentes con búsquedas de texto simples, y los resultados de la búsqueda incluso muestran metadatos en línea.
  2. Metadatos automatizados y seleccionados: Cuando se hace clic en un activo de datos, se muestra al usuario su descripción detallada y su comportamiento, que se seleccionan manualmente y se generan automáticamente, respectivamente.
  3. Capacidad de compartir contexto con colegas: Las descripciones de los activos de datos se pueden actualizar, lo que reduce la necesidad de que los colegas vayan y vengan buscando más contexto para un activo de datos en particular.
  4. Aprenda y comprenda el uso de los datos: Los usuarios pueden ver qué activos de datos se usan con frecuencia, se poseen o se marcan como favoritos, e incluso pueden ver las consultas más comunes relacionadas con las tablas mirando los paneles creados en una tabla determinada.

Mejores herramientas de catálogo de datos de código abierto: 3. LinkedIn DataHub

Como plataforma de gestión de metadatos de código abierto desarrollada por el equipo de ingeniería de LinkedIn, DataHub es realmente el segundo intento de LinkedIn de abordar los desafíos de la catalogación, el descubrimiento, la observabilidad y el linaje de datos.

Antes de DataHub, crearon una herramienta de directorio de datos de código abierto llamada WhereHows en 2016. DataHub se anunció en 2019 y se abrió al código en 2020. Como resultado, LinkedIn mantiene dos versiones diferentes de DataHub: una para uso interno y otra de código abierto para que otros puedan crearla.

Principales capacidades de DataHub:

  1. Ingesta automatizada de metadatos: En LinkedIn DataHub, los metadatos se ingieren desde diferentes fuentes a través de API o flujo de inserción de Kafka.
  2. Descubrimiento de datos fácil: En el nivel más alto para los usuarios finales, el frontend de DataHub admite tres tipos de interacción: buscar, explorar y ver/editar metadatos.
  3. Comprender los datos a través del contexto: Cada entidad de datos en DataHub viene con una página de perfil que muestra todos los metadatos asociados con esa entidad de datos, proporcionando al usuario la información necesaria para desarrollar ese contexto de datos.

Mejores herramientas de catálogo de datos de código abierto: 4. Netflix Metacat

Como servicio de gestión de metadatos conjunto creado por Netflix y de código abierto en junio de 2018, Metacat tiene como objetivo simplificar la clasificación, el descubrimiento, el procesamiento y la gestión de datos.

Metacat constituye principalmente una fuente única de acceso a todos los recursos de datos de Netflix. Si bien Metacat es un catálogo de datos de código abierto, parece existir una falta de conocimiento público significativo para que otros puedan utilizar su esquema y ampliarlo eficazmente.

Principales capacidades de Metacat:

  1. Abstracción de datos e interoperabilidad: Metacat forma una capa de abstracción común y se puede acceder a los conjuntos de datos a través de los múltiples motores de consulta de Netflix.
  2. Almacenes de metadatos empresariales y definidos por el usuario: Metacat ayuda a documentar metadatos comerciales y definidos por el usuario sobre los activos de datos, garantiza que los usuarios de datos reciban más información sobre los activos de datos y reglas estándar sobre cómo tratarlos.
  3. Descubrimiento de datos: Metacat proporciona metadatos de esquema y metadatos definidos por el usuario o el negocio para datos a través de ElasticSearch y esto ayuda a realizar consultas mediante búsqueda de texto.
  4. Auditoría y notificación de cambios de datos: Captura cualquier cambio o actualización de metadatos, lo que permite enviar notificaciones automáticas para aquellos eventos que puedan requerir la atención del usuario.

¿Cuáles son los beneficios de las herramientas de catálogo de datos de código abierto?

Los catálogos de datos de alta calidad no solo le permiten categorizar adecuadamente todos sus datos, sino que también le permiten rastrear adecuadamente los flujos de datos entre diferentes tipos de datos e incluso le muestran fallas en los flujos de datos que puede mejorar.

Otra característica interesante es que también se pueden gestionar datos sensibles, y la herramienta puede identificar dónde se muestran con mayor frecuencia, reduciendo así el riesgo de fugas. Algunas herramientas de catálogo de datos de alta gama incluso ofrecen funciones de aprendizaje automático que pueden comprender cómo se gestionan los datos y ayudar a procesar grandes cantidades de datos. Pero ¿por qué usar la herramienta de directorio de datos de código abierto?

Las herramientas de catálogo de datos de código abierto siguen siendo software de alta calidad, económicos, a veces incluso gratuitos, pero escalan bien, ofrecen muchas opciones de personalización y pueden funcionar sin limitaciones, lo que es ideal para grandes volúmenes de datos.

Más allá de eso, como empresa u organización, no tiene que preocuparse por depender de un solo desarrollador para las actualizaciones, ya que puede contratar desarrolladores para desarrollar aún más el software de código abierto o personalizarlo fácilmente para adaptarlo a sus necesidades.

Conclusión

Gracias por leer nuestro artículo y esperamos que pueda ayudarle a encontrar la Las mejores herramientas de catálogo de datos de código abierto en 2022. Si desea obtener más información sobre las herramientas de catálogo de datos de código abierto, le recomendamos visitar Flujo de SQL de Gudu Para más información.

Como uno de los Las mejores herramientas de linaje de datos Disponible en el mercado hoy en día, Gudu SQLFlow no solo puede analizar archivos de script SQL, obtener linaje de datos, y realizar una visualización, pero también permitir a los usuarios proporcionar el linaje de datos en formato CSV y realizar una visualización. (Publicado por Ryan el 16 de julio de 2022)

Pruebe Gudu SQLFlow Live

Versión en la nube de SQLFlow

Suscríbete al boletín semanal

Deja un comentario