Gerenciamento de Metadados para Data Warehouses

Gerenciamento de metadados é a base do empreendimento governança de dados e a melhoria de Armazém de dados. Como alguém que frequentemente trabalha com dados, a primeira tarefa é entender o gerenciamento de metadados. Este artigo vai classificar o conceito de metadados e introduzir o gerenciamento de metadados para data warehouses.

O que é gerenciamento de metadados para data warehouses?

Antes de prosseguir, vamos descobrir o que são metadados e o que é um data warehouse.

Metadados, também conhecidos como dados intermediários e dados de retransmissão, são dados sobre dados. Na maioria das vezes, metadados podem ser divididos em metadados de negócios e metadados técnicos de acordo com os diferentes significados que representam.

UM Armazém de dados é um repositório central de informações que podem ser analisadas para tomar melhores decisões. Normalmente, os dados fluem regularmente para um data warehouse a partir de sistemas transacionais, bancos de dados relacionais e outras fontes. Analistas de negócios, engenheiros de dados, cientistas de dados, e os tomadores de decisão acessam dados por meio de ferramentas de inteligência empresarial (BI), clientes SQL e outros aplicativos analíticos.

Gerenciamento de Metadados para Data Warehouses

Gerenciamento de Metadados para Data Warehouses

Então, o que é gerenciamento de metadados para data warehouses?

Os metadados no data warehouse registram principalmente a definição de cada tema, o relacionamento de mapeamento entre diferentes níveis, o status dos dados do data warehouse de monitoramento e o status de execução da tarefa. ETL. Geralmente, os metadados são armazenados e gerenciados uniformemente por meio do repositório de metadados, e seu principal objetivo é obter coordenação e consistência no design, implantação, operação e gerenciamento do data warehouse.

Metadados são uma parte importante do sistema de gerenciamento de data warehouse. O gerenciamento de metadados é um componente-chave no data warehouse empresarial. Ele percorre todo o processo de construção do data warehouse e afeta diretamente a construção, o uso e a manutenção do data warehouse.

Por que os data warehouses precisam de gerenciamento de metadados?

  1. Imprescindível para a construção de data warehouse: O data warehouse é obtido de dados externos, dados de negócios e documentos por meio de algumas ferramentas ETL. Sem uma regra clara e clara, é impossível realizar esse processo.
  2. Ajuda a entender rapidamente o sistema de data warehouse: Por um lado, o data warehouse é essencialmente um projeto importante de um departamento ou mesmo de uma empresa, e o tempo de desenvolvimento é longo. Haverá inevitavelmente um fluxo de pessoas no meio. Se não houver metadados claros, isso terá um grande impacto em todo o sistema e em todo o projeto. Por outro lado, o data warehouse serve como exportação de dados analíticos para todo o departamento e empresa, não apenas para o pessoal de dados. A camada DM é inevitável para pessoas de negócios e DIM para outros desenvolvedores. Se houver metadados claros para descrever o sistema de data warehouse, isso economizará muito tempo de comunicação entre as duas partes.
  3. Comunicação eficiente e precisa: Por um lado, os metadados de gerenciamento nos metadados registram as permissões de dados de diferentes usuários, funções e departamentos. Se houver dados que precisam ser notificados, você pode consultar rapidamente o sistema para se comunicar por e-mails em massa, etc., para evitar a situação de falta de pessoas e muitas pessoas no link de comunicação. Por outro lado, ao se comunicar com produtos ou se comunicar com P&D, você pode confirmar o significado de indicadores e dimensões de comunicação mútua com base em metadados de negócios, para evitar a ambiguidade da comunicação na raiz e, assim, melhorar a eficiência da comunicação.
  4. Garantido qualidade dos dados:Os metadados ideais descrevem a estrutura do data warehouse, o esquema do warehouse, as dimensões, medidas, hierarquias, definições dos bancos de dados em todos os lugares e a localização e o conteúdo do data marts. Portanto, podemos julgar com certeza quais dados são definitivamente precisos, quais dados podem estar com defeito e quais dados estão definitivamente com defeito. Simplificando, cada campo deve ter seu intervalo de valor, definição de negócio e outras informações. Uma vez que os metadados são definidos, eles podem ser aplicados à detecção de qualidade de dados, avaliação, etc., de modo a realmente melhorar a qualidade de dados das empresas por meio do processo de gerenciamento de qualidade de dados.
  5. Reduza os custos de construção do sistema de dados: Se os metadados estiverem bem estabelecidos, as informações serão obtidas com mais precisão e rapidez, de modo que a construção do sistema de dados não será retrabalhada ou menos retrabalhada, a carga de trabalho de análise será reduzida, o entendimento unificado e a eficiência da comunicação de todas as partes serão fortalecidos e o custo de desenvolvimento será minimizado.
  6. Analise rapidamente o impacto da mudança: Como os metadados são mantidos e gerenciados centralmente com relacionamentos de referência, quando ocorrem alterações, o sistema de gerenciamento de metadados pode ser usado para analisar em tempo real as funções comerciais afetadas, os sistemas de aplicativos, o pessoal envolvido e se a supervisão está envolvida.
  7. Prepare-se para o futuro: Sistemas de aplicação de nível estratégico de empresas, como big data, inteligência artificial, lago de dados, data center e inteligência empresarial podem contar com um bom gerenciamento de metadados para exercer seus devidos efeitos.

Cenários de aplicação de metadados

  1. Análise de impacto: Durante o desenvolvimento, frequentemente encontramos os seguintes problemas: Se eu quiser alterar uma tabela ou ETL, qual será o impacto? Se não houver metadados, então podemos precisar percorrer todos os scripts e dados para obter a resposta desejada; no entanto, se houver gerenciamento de metadados maduro, então podemos obter a resposta diretamente e economizar muito tempo.
  2. Análise de linhagem de dados: A análise de linhagem de dados é um meio técnico usado para rastrear de forma abrangente o processo de processamento de dados, de modo a encontrar todos os objetos de metadados relacionados a partir de um objeto de dados e o relacionamento entre esses objetos de metadados. O relacionamento entre objetos de metadados se refere especificamente ao relacionamento de entrada e saída do fluxo de dados que representa esses objetos de metadados. Após o sistema de gerenciamento de metadados ser formado, podemos analisar a saúde dos dados, distribuição de dados, concentração e calor dos dados no data warehouse por meio da análise de relacionamento de linhagem.
  3. Gerenciamento de automação ETL: No warehouse, uma grande parte do ETL são etapas chatas e repetitivas. Por exemplo, na camada do sistema de origem-ODS: entrada de tabela – saída de tabela. Outro exemplo é ODS-DW: entrada SQL – limpeza de dados – processamento de dados – saída de tabela. As regras acima são, na verdade, parte dos metadados. Isso pode ser alcançado em teoria, escreva um script fixo e, em seguida, selecione-o por meio do front-end – ou interface de API. Dessa forma, o ETL repetido pode ser gerenciado automaticamente para reduzir o custo de tempo do desenvolvimento de ETL.
  4. Gestão da qualidade dos dados: A lógica da limpeza de dados pode ser simplesmente dividida em diferentes tipos de dados e colunas de processamento especiais designadas. Precisamos apenas especificar regras de limpeza padrão para diferentes tipos de dados e lógica de processamento especial para algumas colunas especiais para obter uma limpeza de dados inteligente e rápida. O gerenciamento de qualidade de dados pertence à interseção da governança de dados e do gerenciamento de metadados e é mais inclinado à governança de dados.
  5. Gestão de segurança de dados: No data center que Ali defende, todos os indicadores de interface de dados serão exportados do data warehouse. Portanto, em teoria, você só precisa configurar a permissão de gerenciamento de metadados nesses metadados para obter o gerenciamento de segurança de dados para toda a empresa.

Conclusão

Obrigado por ler nosso artigo e esperamos que ele possa ajudá-lo a ter uma melhor compreensão de gerenciamento de metadados para data warehouses. Se você quiser saber mais sobre gerenciamento de metadados para data warehouses, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.

Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow não só pode analisar arquivos de script SQL, obter linhagem de dados e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados em formato CSV e executem exibição visual. (Publicado por Ryan em 25 de junho de 2022)

Experimente o Gudu SQLFlow Live

Versão SQLFlow Cloud

Assine o boletim semanal

Um comentário

  1. […] tecnologia de mineração de dados em nuvem, os usuários podem recuperar informações importantes de um data warehouse virtual integrado, reduzindo assim o armazenamento e a infraestrutura […]

Deixe um comentário