Como escolher o melhor catálogo de dados para os dados da sua empresa?

Catálogos de dados tornaram-se uma parte importante de uma estratégia de gerenciamento de dados corporativos, mas escolher o catálogo de dados certo não é uma questão simples. Antes de tomar uma decisão, é preciso entender as várias opções no mercado e o que deve ser priorizado. Os catálogos de dados são ferramentas de gerenciamento de metadados que ajudam as empresas a encontrar e gerenciar grandes quantidades de dados. A ideia por trás do catálogo de dados é centralizar metadados em um só lugar e fornecer uma visão completa dos dados no banco de dados.

Ele também contém informações sobre a localização de cada ponto de dados específico. Antes de escolher um fornecedor, as empresas precisam entender o mercado e suas necessidades e expectativas. Este artigo ajuda você a escolher o melhor catálogo de dados para seus dados corporativos.

Como escolher o melhor catálogo de dados?

Como escolher o melhor catálogo de dados?

Por que o catálogo de dados é importante?

De acordo com Joe Maguire, diretor sênior de pesquisa da Gartner, há três fontes principais de demanda empresarial por ferramentas de catálogo de dados.

O principal motivador do uso empresarial de catálogos de dados é que o gerenciamento de metadados se tornou cada vez mais difícil. O esquema de dados é mais complexo, e o volume de dados é muito grande para coletar e descrever metadados manualmente.

“Mesmo as tecnologias projetadas para simplificar a arquitetura, como lagos de dados que fornecem um único componente arquitetônico para armazenar vários dados, podem complicar gerenciamento de metadados”, disse Maguire.

Diante do crescente volume de dados, algumas empresas não estão expandindo seu gerenciamento de metadados.

“É ignorando os metadados no data lake que as pessoas tiveram que cunhar o termo 'pântano de dados' para descrever um data lake onde os dados ficam desorganizados e ninguém consegue limpá-los”, disse Maguire.

O segundo fator é que a necessidade de governança de dados está aumentando à medida que as empresas buscam análises self-service e ciência de dados. Isso também leva a uma demanda maior por catálogos de dados. Metadados são a base da governança de dados, e catálogos de dados facilitam o acesso a metadados.

O terceiro fator é que esse mercado provou seu valor. As ofertas dos fornecedores se tornaram cada vez mais diversas e podem realmente ajudar empresas que precisam de governança de dados e gerenciamento de metadados. Recursos como descoberta automática de metadados, linhagem de dadose o suporte para atividades de gerenciamento de dados tornam os catálogos de dados atraentes para as empresas.

Categoria de catálogo de dados

De acordo com Maguire, ao discutir catálogos de dados, a diferença mais importante é entender a diferença entre catálogos de dados corporativos e catálogos de dados incorporados.

“O catálogo de dados corporativos é projetado para consolidar metadados de vários silos de metadados, enquanto o catálogo de dados incorporado é o conjunto de recursos de gerenciamento de metadados disponíveis em outros produtos”, disse Maguire.

As opções de catálogo de dados corporativos podem ser DBMS, data warehouse ou plataforma de BI. Catálogos de dados incorporados criam silos de metadados – silos de metadados que os catálogos de dados corporativos tentam consolidar.

A seguir estão os catálogos de dados mais comuns:

  1. Catálogos de dados autônomos. Esses catálogos de dados são universais, independentes e orientados para negócios, e podem ser amplamente usados para gerenciamento de dados, análise e governança de dados. Esta opção é adequada para empresas que devem classificar dados para vários casos de uso. Os fornecedores que atualmente oferecem catálogos de dados independentes incluem Alation, Collibra, Informatica e Data.World.
  2. Uma ferramenta de gerenciamento de metadados que fornece funcionalidade de catálogo. Os catálogos de dados modernos visam principalmente administradores de dados e analistas de dados que automatizam tarefas de gerenciamento de metadados. Em seu último relatório sobre catálogos de dados aprimorados, a Gartner alerta que alguns fornecedores estão renomeando suas ferramentas de gerenciamento de metadados como catálogos de dados. Você deve fazer sua própria pesquisa para ter certeza de escolher a ferramenta certa.
  3. Ferramenta de suporte ao Data Lake com recursos de catálogo de dados. À medida que as empresas continuam a construir data lakes, elas precisam de dados que sejam pesquisáveis e reutilizáveis. Isso levou os fornecedores a aumentar o aspecto do catálogo de dados em seus produtos. Tanto o Zaloni quanto o Cloudera Navigator se enquadram nessa categoria. As empresas que são intimidadas pela adoção de data lakes podem considerar esses fornecedores.

Depois que seu negócio tiver decidido sobre uma escolha de catálogo de dados corporativos ou catálogo de dados incorporados, você pode prosseguir para encontrar funcionalidade. Um bom catálogo de dados deve fornecer muita funcionalidade.

O que um bom catálogo de dados deve fornecer?

Como empresa, cabe à sua própria equipe determinar quais produtos são mais relevantes para seus dados. Os catálogos de dados dos fornecedores compartilham certas características e devem primeiro ser avaliados quanto à qualidade.

Uma função importante do catálogo de dados é sua função de busca. Sem opções flexíveis de busca e filtro, os usuários não conseguirão encontrar conjuntos de dados para fins de engenharia e análise de dados. Os catálogos de dados também devem coletar metadados de um grande número de ativos de dados vinculados. Ele também deve fornecer automação e inteligência de dados para lidar com tarefas manuais relacionadas à catalogação de dados. IA e aprendizado de máquina podem aumentar os dados com recomendações.

O catálogo de dados também deve se conectar aos vários componentes da arquitetura de dados dentro da empresa. Um catálogo de dados corporativos pode ser pensado como um Armazém de dados para metadados, disse Maguire. Um catálogo de dados consolida metadados de silos de metadados, similar a como um data warehouse consolida dados de silos de data warehouse.

Outra função importante do catálogo de dados é fornecer conectores para obter metadados de vários componentes, como DBMS, ferramentas de BI e data warehouses. O catálogo de dados oferece suporte aos quatro seguintes tipos de metadados:

  • Metadados técnicos, descrevendo o modelo de dados, esquema de armazenamento, layout de arquivo e API.
  • Metadados operacionais que descrevem a linhagem de dados, o desempenho e a saída do arquivo de log resultante de várias operações nos dados.
  • Existem dois tipos de metadados de negócios. Um é metadados que descrevem o negócio, como o conteúdo de um vocabulário de dados de negócios. Outro é descrever como as funções de negócios interagem com ativos de dados, como administradores de dados, custodiantes de dados, analistas de autoatendimento, onde os administradores de dados são responsáveis por ativos de dados específicos.
  • Metadados sociais constituem conhecimento, como atestados ou endossos de determinados ativos de dados ou outras anotações geradas pelo usuário de entradas no catálogo de dados.

Fornecedores comuns de catálogo de dados:

Há muitos catálogos de dados corporativos e incorporados no mercado, e essas opções geralmente têm funcionalidades semelhantes e sobrepostas. Abaixo está uma breve comparação das opções de catálogo de dados.

  1. Catálogo de dados de Alation. Alation é uma ferramenta autônoma de catálogo de dados que usa IA para capturar contexto para dados dentro de uma empresa. É considerada uma opção fácil de usar para todos os funcionários.
  2. Catálogo Qlik. O catálogo de dados da Qlik também apresenta ferramentas automatizadas de preparação de dados e metadados para auxiliar na transformação de dados brutos. Ele também tem um data mart que permite aos usuários pesquisar e publicar conjuntos de dados.
  3. Catálogo de dados do Cloudera. O catálogo de dados da Cloudera permite que os usuários descubram, registrem e monitorem seus dados. Ao mesmo tempo, este produto permite que os usuários auditem o acesso e protejam informações confidenciais de acesso não autorizado.
  4. Catálogo Collibra. Esta opção é outro catálogo de dados independente que é criado com usuários finais empresariais em mente. É um repositório pesquisável que torna mais fácil encontrar e entender dados. Ele também permite que os administradores documentem funções e responsabilidades.
  5. Catálogo de conhecimento do IBM Watson. Este é um catálogo de dados inteligentes aberto para governança de modelos de IA, bem como dados. Esta opção fornece aos usuários suporte de virtualização de dados em tempo real, mascaramento dinâmico de dados e geração automática de metadados.
  6. Infraestrutura de nuvem Oracle. Os produtos Oracle oferecem opções de pesquisa e exploração que permitem aos usuários encontrar dados de diversas fontes diferentes por meio de pesquisas e filtros multifacetados, além de coletar metadados técnicos sobre ativos de dados.

Conclusão

Obrigado por ler nosso artigo e esperamos que ele possa ajudá-lo a encontrar o melhor catálogo de dados para seus dados corporativos. Se você quiser saber mais sobre o melhor catálogo de dados, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.

Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow não só pode analisar arquivos de script SQL, obter linhagem de dados e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados em formato CSV e executem exibição visual. (Publicado por Ryan em 2 de julho de 2022)

Experimente o Gudu SQLFlow Live

Versão SQLFlow Cloud

Assine o boletim semanal

Deixe um comentário