7 melhores ferramentas de governança de dados de código aberto em 2022
Encontrando um bom código aberto ferramenta de governança de dados pode ser um desafio por muitas razões. Em primeiro lugar, o maior obstáculo em decidir qualquer coisa relacionada a governança de dados é a falta de uma abordagem padronizada – os objetivos não são bem definidos. Além disso, os recursos de governança de dados da maioria das ferramentas de código aberto não são claros. Você deve vasculhar as páginas de documentação e o repositório GitHub para determinar se uma ferramenta específica é apropriada para um caso de uso específico.
Além disso, os recursos de governança de dados da maioria das ferramentas de código aberto não são claros, então você deve examinar as páginas de documentação e os repositórios do GitHub para determinar se uma ferramenta específica é apropriada para um caso de uso específico. Para simplificar seu processo de avaliação, compilamos uma lista das melhores ferramentas de governança de dados de código aberto em 2022.

Melhores ferramentas de governança de dados de código aberto
Melhores ferramentas de governança de dados de código aberto – 1. Amundsen
O Amundsen foi originalmente construído na Lyft e atualmente é hospedado e mantido pela LF AI & Data Foundation. Em termos de governança de dados, ele aborda principalmente a segurança de dados e a conformidade com as leis de privacidade e soberania de dados. A ideia é marcar e categorizar todos os dados na camada de metadados.
Ao usar o Amundsen, você pode pesquisar metadados e aprender quem está usando os dados e com que frequência eles os usam. Você pode ter uma noção dos dados observando esses padrões de acesso a dados, mas essa abordagem é mais reativa. Para uma abordagem mais proativa, você precisa de controles de acesso refinados para impedir que as pessoas acessem dados com base em políticas de acesso a dados de equipe, função, indivíduo, sistema e assim por diante.
Embora você ainda não tenha o RBAC, controle de acesso baseado em funções no Amundsen, você ainda tem alguns recursos essenciais de governança de dados, como marcação e categorização de metadados.
Devido aos recursos limitados de governança de dados disponíveis com o backend Neo4J padrão, Amundsen decidiu adicionar suporte para Apache Atlas. Como o Apache Atlas é um dos mais maduros gerenciamento de metadados plataformas, muitos recursos foram testados e aprovados em vários sistemas, trazendo confiabilidade para catalogação de dados e soluções de governança. Amundsen tem um bom suporte para linhagem de dados e propagação de rótulos/emblemas (usando linhagem).
Os backends Neo4j ou Atlas são geralmente adequados para a maioria das empresas. Algumas pessoas querem funcionalidades mais avançadas de suas soluções de catalogação e governança de dados.
Melhores ferramentas de governança de dados de código aberto – 2. DataHub
O LinkedIn criou o DataHub depois que o WhereHows não era mais uma solução viável para a crescente demanda por ferramentas de busca e descoberta de metadados. Antes do DataHub, o LinkedIn havia usado outras ferramentas em conjunto com o WhereHows para adicionar alguns recursos de governança de dados.
O DataHub permite que você tenha controle de acesso refinado sobre metadados. O acesso é orientado por políticas que você pode declarar na Web UI e na GraphQL API. A estratégia do DataHub se aplica em dois níveis: plataforma e metadados. As políticas de plataforma permitem que você controle as permissões do usuário para o DataHub, por exemplo, quais recursos e até que ponto os usuários podem visualizá-los e usá-los.
Você pode aplicar essas políticas a usuários individuais ou grupos. As políticas de metadados, por outro lado, permitem que você controle quais usuários têm acesso a diferentes entidades de metadados, gráficos, fontes de dados, painéis e assim por diante, e quais ações eles podem executar neles. No entanto, o DataHub não permite que você controle permissões de leitura no momento.
Vários outros recursos fazem parte do roteiro do DataHub, mas ainda não há um cronograma claramente definido. Um dos principais recursos de governança de dados é o RBAC, controle de acesso baseado em função, para entidades e aspectos (registros PDL). O RBAC não apenas fornece controle de acesso mais fino sobre metadados, mas também ajuda com melhor gerenciamento de rótulos, controle de acesso de pré-visualização de dados e muito mais.
Em termos de governança/privacidade: o DataHub oferece suporte à classificação de nível de conjunto de dados, movimentação de dados governada, exclusão automática de dados, exportação de dados e muito mais. Eles planejam tornar open source alguns recursos de conformidade como parte de seu roteiro.
Melhores ferramentas de governança de dados de código aberto – 3. Apache Atlas
Como um dos primeiros catálogos de dados de código aberto a integrar recursos de governança de dados, o projeto Apache Atlas teve um ciclo de desenvolvimento um tanto lento, sem mencionar que o projeto foi criado especificamente para o ecossistema Hadoop. Ele funciona com qualquer coisa integrada ao Hive.
O Apache Atlas é particularmente bom em classificação, com a capacidade de criar categorias de sensibilidade, expiração e qualidade de dados em tempo real, o que nos leva à linhagem de dados, outro recurso popular do Apache Atlas. O Atlas implementa a verdadeira linhagem de dados, ou seja, a linhagem é operacional.
Ao usar dados de linhagem, o Apache Atlas pode propagar propriedades de metadados para entidades em uma hierarquia de linhagem, um recurso que você não encontrará em outras ferramentas de governança de dados.
O Apache Atlas também tem uma série de recursos de privacidade e segurança de dados DE. Por exemplo, ele tem controle de acesso refinado sobre entidades e categorias e funciona bem com o Apache Ranger para autorização e mascaramento de dados. Quando trabalham juntos, esses recursos formam uma rede eficaz de privacidade e segurança de dados, permitindo que os dados sejam protegidos ou classificados como PII, sensíveis, etc. Notavelmente, ele também fornece uma estrutura para controlar quem pode acessar PII e dados sensíveis.
Melhores ferramentas de governança de dados de código aberto – 4. Magda
Desenvolvido pela Data61, o braço de ciência de dados da CSIRO (Commonwealth Scientific and Industrial Research Organisation of Australia), MAGDA é uma sigla que significa Making Australian Government Data Available. A CSIRO implantou o Magda para criar um portal de dados abertos contendo mais de 70.000 conjuntos de dados dos governos federal e estadual da Austrália, e eles disponibilizaram o projeto para outros usarem.
Embora os recursos mais ricos e maduros do Magda continuem sendo pesquisa e descoberta, ele também fornece suporte poderoso para marcação e definição de tópicos de conjuntos de dados. Além disso, o Magda tem opções de visualização de dados integradas, incluindo planilhas e gráficos interativos. Outras ferramentas como o Amundsen precisam ser integradas ao Superset. Uma ressalva: a integração com ferramentas como o Superset para visualização de dados é mais escalável.
Embora Magda não ofereça suporte ao RBAC (controle de acesso baseado em função) no momento, ele oferece suporte a recursos que permitem controle rigoroso de acesso a recursos ingerido no Magda. O Magda usa o Kubernetes para permanecer independente da nuvem. Ele usa o padrão do corretor de políticas abertas para gerenciar políticas de acesso, o que facilita diferentes tipos de controle de acesso, como baseado em função, baseado em atributo e assim por diante.
Melhores ferramentas de governança de dados de código aberto – 5. Metadados abertos
Anunciado em agosto de 2021, Metadados Abertos define especificações para padronizar metadados usando uma abordagem de esquema em primeiro lugar, consistindo em um armazenamento de metadados centralizado e uma estrutura de ingestão que oferece suporte a conectores populares na pilha de dados.
O Open Metadata adota uma abordagem diferente para marcação, que permite marcar proprietários de dados com conjuntos de dados, e também permite marcar conjuntos de dados em várias camadas com base em sua importância. O Open Metadata também implementa todo o controle de versão de metadados, o que significa que com as entidades do banco de dados (tabelas, visualizações, modo), marcação, a propriedade do conjunto de dados informações detalhadas e vocabulário comercial relacionado a todos os metadados para controle de versão, todas as informações sobre alterações, como quem alterou a alteração e quando alterá-la.
Melhores ferramentas de governança de dados de código aberto – 6.Egeria
Lançado em 2019 e mantido pela divisão de IA e Dados da Linux Foundation, o Egeria foi projetado para trocar facilmente metadados entre ferramentas e plataformas de forma neutra em relação a fornecedores. Outras ferramentas fazem isso por meio de SDKs e APIs, mas suas capacidades são limitadas, enquanto o Egeria faz um bom trabalho nisso porque é construído em torno dos princípios de independência de plataforma, facilidade de extensibilidade e acessibilidade de dados.
Enquanto todas as outras ferramentas que vimos até agora abordam questões de governança e gerenciamento de metadados principalmente da perspectiva do usuário, a Egeria tenta resolver problemas para usuários e sistemas, e funciona bem com uma variedade de ferramentas de dados.
A Egeria oferece a você um controle muito granular e refinado sobre seus metadados por meio de regiões de governança, datas de validade, arquivamento de metadados, proveniência de metadados e muito mais, alguns dos quais são exclusivos da Egeria. Também vale a pena mencionar que ele vem com, mas não está limitado a, mais de 800 predefinidos tipos de metadados. Você também pode definir seus próprios tipos com base nas necessidades do seu negócio, o que significa que a Egeria é flexível o suficiente para se adaptar às suas necessidades comerciais.
Melhores ferramentas de governança de dados de código aberto – 7. Truedat
Finalmente, o TrueDat, sem dúvida o único maduro ferramenta de governança de dados de código aberto na lista, foi criado pela BlueTab (agora IBM) após entender as necessidades do mercado como provedor de soluções de dados e encontrar lacunas no espaço de governança de dados.
O TrueDat possui um conjunto de recursos sobrepostos com as outras ferramentas mencionadas acima, incluindo catálogos de dados, mecanismos de busca, recursos de linhagem de dados e assim por diante. Ainda assim, os recursos mais populares são os vocabulário empresarial e a capacidade de compartilhar dados entre equipes, com controles detalhados que se concentram no gerenciamento de dados e no gerenciamento de propriedade de dados, classificação e assim por diante.
Existem outros recursos que tornam o TrueDat completamente único nesta lista, um dos quais é um recurso de compartilhamento de dados semelhante ao compartilhamento de dados do Snowflake que torna mais fácil para as equipes compartilharem e colaborarem de forma mais eficaz. Além disso, para garantir um alto grau de segurança e controle sobre os dados, os recursos de assinatura e notificação podem ser usados para registrar eventos de alteração em trilhas de auditoria e monitorá-los em tempo real.
Conclusão
Obrigado por ler nosso artigo e esperamos que ele possa ser útil quando você estiver procurando as melhores ferramentas de governança de dados de código aberto. Se você quiser encontrar mais informações sobre ferramentas de governança de dados de código aberto, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.
Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow pode não apenas analisar arquivos de script SQL, obter linhagem de dados e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados no formato CSV e executar exibição visual. (Publicado por Ryan em 16 de julho de 2022)
Se você gosta de ler isso, explore nossos outros artigos abaixo: