O que são metadados?
Metadados são dados que descrevem outros dados de forma estruturada e consistente, para que grandes quantidades de dados possam ser coletadas, armazenadas e analisadas ao longo do tempo. Armazéns de dados exigem metadados para fácil recuperação e gerenciamento ao armazenar big data. Um data warehouse usa dados estruturados que são padronizados, limpos e consistentes em todas as fontes de dados. Os metadados garantem uniformidade na coleta e armazenamento desses dados para que os proprietários de negócios e analistas de dados podem acessar e obter insights facilmente dos dados.

O que são metadados?
Eficaz gestão de metadados é uma parte essencial de um “ecossistema” de big data confiável e flexível, pois ajuda as empresas a gerenciar seus ativos de dados de forma mais eficiente e disponibilizá-los cientistas de dados e outros analistas.
Classificação de metadados e exemplos:
1. Metadados técnicos
1). Metadados físicos: Metadados que descrevem o físico recursos, como: servidores, sistemas operacionais, localizações de salas de computadores e outras informações.
2). Metadados da fonte de dados: Metadados que descrevem a fonte de dados, geralmente incluindo quatro tipos de informação:
- Endereço da fonte de dados (por exemplo, IP, PORTA, etc.);
- Topologia física (por exemplo, ativo/espera, funções, etc.);
- Permissões (por exemplo, nome de usuário, senha, etc.);
- Nome da biblioteca, versão, nome de domínio, etc.
3). Metadados de armazenamento: Metadados que descrevem o armazenamento de objetos, geralmente também metadados “restritos”, incluindo vários tipos principais de atributos de gerenciamento (por exemplo, criador, sistema de aplicativo, unidade de negócios, proprietário da empresa, etc.).
- Ciclo de vida (como tempo de criação, tempo de DDL, informações de versão, etc.);
- Propriedades de armazenamento (como localização, tamanho físico, etc.);
- Características dos dados (por exemplo, distorção dos dados, comprimento médio, etc.);
- Características de uso (por exemplo, DML, taxa de atualização, etc.);
- Estrutura de dados da tabela/partição (por exemplo, nome, tipo, observações, etc.);
- Colunas (por exemplo, nome, tipo, comprimento, precisão, etc.);
- Índice (por exemplo, nome, tipo, campo, etc.);
- Restrições (por exemplo, tipos, campos, etc.).
4). Metadados Computacionais: Os metadados que descrevem o processo de computação de dados podem geralmente ser classificados em dois tipos de computação: extração de dados (ETL) ou processamento de dados (JOB). Cada tipo de computação pode ser ainda mais dividido por metadados de controle (por exemplo, propriedades de configuração, políticas de agendamento, etc.) e metadados de processo (por exemplo, dependências, status de execução, logs de execução, etc.).
5). Metadados de qualidade: Metadados que descrevem a qualidade dos dados. Normalmente, qualidade dos dados é refletido pela definição de uma série de métricas de qualidade.
6). Metadados operacionais: Uma classe de metadados que descreve como os dados são usados para operações.
- Geração de dados (por exemplo, tempo de geração, informações de trabalho, etc.);
- Acesso à tabela (por exemplo, consultas, associações, agregações, etc.);
- Associações de tabelas (por exemplo, tabelas associadas, campos associados, tipos associados, contagens associadas);
- Acesso ao campo (por exemplo, consulta, associação, agregação, filtragem, etc.).
7). Metadados de operação e manutenção: Metadados que descrevem o nível de operação e manutenção do sistema, geralmente incluindo tarefas, alertas e falhas.
8). Metadados de custo: Metadados que descrevem o custo de armazenamento e computação de dados.
- Custo computacional (por exemplo, CPU, MEM, etc.);
- Custo de armazenamento (por exemplo, espaço, taxa de compressão, etc.).
9). Metadados padrão: Metadados que descrevem o conteúdo padronizado dos dados.
- Gerenciamento de código (por exemplo, regras de transformação, interfaces externas, etc.);
- O mapeamento gerencia a exibição de dados (por exemplo, estilos, regras, semântica, unidades, etc.).
10). Metadados de segurança: Metadados que descrevem o conteúdo da segurança de dados.
Sensibilidade dos dados no nível de segurança (por exemplo, se são sensíveis, algoritmo de dessensibilização, etc.)
11). Metadados compartilhados: Ele descreve como compartilhar dados, como métodos de interface, formato e conteúdo.
2. Metadados de negócios
1). Metadados do modelo: Modelagem de dados é a descrição do negócio, e o negócio pode ser melhor compreendido por meio do modelo. Abordagens comuns de modelagem incluem modelos de paradigma, modelos dimensionais e modelagem multidimensional. Abaixo está um exemplo de um modelo de tamanho, como linhas de negócios, setores, domínios de dados de processo, dimensões de domínio de assunto, fatos de índice de atributo, mercados de métricas e aplicações.
2). Metadados do aplicativo: Refere-se aos metadados que descrevem a classe de aplicação de dados.
3). Metadados de análise: Refere-se à descrição de metadados de negócios da perspectiva da análise de dados. Por exemplo, domínio de dados, domínio de assunto, linha de produto, seção, processo de negócios, regras de negócios, etc.
3. Gerenciar metadados
Metadados de gerenciamento descrevem o conteúdo do gerenciamento de dados dentro de uma empresa, como pessoas, responsabilidades de processos, organizações de trabalho e departamentos.
Recursos de metadados:
- Metadados são dados estruturados sobre dados, que não estão necessariamente em formato digital e podem vir de diferentes fontes.
- Metadados são dados relacionados a objetos que impedem que usuários em potencial tenham uma compreensão completa da existência e das características desses objetos.
- Metadados são uma descrição codificada de um Pacote de Informações.
- Metadados contêm um conjunto de elementos de dados usados para descrever o conteúdo e a localização de objetos de informação, facilitando a descoberta e a recuperação de objetos de informação em um ambiente de rede.
- Os metadados não descrevem apenas objetos de informação, mas também descrevem o ambiente de uso, gerenciamento, processamento, armazenamento e uso de recursos.
- Os metadados são adicionados naturalmente durante o ciclo de vida de um objeto ou sistema de informação.
- Os “dados” na definição convencional de metadados são o símbolo da natureza transacional, que é o valor numérico com base no qual todos os tipos de estatísticas, cálculos, pesquisas científicas e design técnico são realizados, ou a informação que é digitalizada, formulada, codificada e grafizada.
Vantagens dos Metadados
Metadados são essenciais para um modelo de programação mais simples que não requer mais arquivos de Interface Definition Language (IDL), cabeçalhos ou quaisquer métodos de referência de componente externo. Metadados permitem que a linguagem .NET se descreva automaticamente de uma forma não específica da linguagem que é invisível para desenvolvedores e usuários. Além disso, metadados podem ser estendidos usando atributos. Os metadados têm as seguintes vantagens principais:
1) auto descrição: Os módulos e assemblies de tempo de execução de linguagem comum são autodescritivos. Os metadados de um módulo contêm todas as informações necessárias para interagir com outro módulo. Os metadados fornecem automaticamente a funcionalidade de IDL em COM, permitindo que um arquivo seja usado para definição e implementação. Os módulos e assemblies de tempo de execução nem precisam ser registrados no sistema operacional. Como resultado, as instruções usadas pelo tempo de execução sempre refletem o código real no arquivo compilado, melhorando a confiabilidade do aplicativo.
2) Projeto: Metadados fornecem todas as informações necessárias sobre o código compilado para permitir que você herde classes de arquivos PE escritos em diferentes linguagens. Você pode criar instâncias de qualquer classe escrita em qualquer linguagem gerenciada (qualquer linguagem para o common language runtime) sem se preocupar com marshaling explícito ou usar código de interoperabilidade personalizado.
Por que uma organização registra e gerencia seus metadados?
A arquitetura de informação da maioria das organizações é similar à de uma livraria lotada e desorganizada. Os dados estão em todo lugar. Os dados da maioria das organizações não são organizados ou catalogados, dificultando encontrar os dados que você precisa.
Este é o problema central – falta de capacidade de localização de dados e, portanto, falta de disponibilidade de dados. E o problema só está piorando. Em 10 anos, a quantidade de dados organizacionais pode ir de gigabytes para terabytes e petabytes. Na era de “dados são o novo petróleo”, organizações bem-sucedidas devem ser capazes de encontrar e usar todos os dados para obter uma vantagem competitiva. Os recursos de descrição e pesquisa do gerenciamento de metadados são essenciais para encontrar e usar esses dados com sucesso.
O gerenciamento de metadados também é importante porque as definições podem mudar dependendo do contexto da informação. Veja como diferentes grupos pensam e definem a palavra “cliente”. Por exemplo, se você falar com alguém em TI, vendas ou conformidade, eles podem ter uma visão ou perspectiva diferente sobre o que o cliente representa e como os dados são armazenados.
Para a TI, os dados sobre os clientes podem se concentrar na execução de relatórios analíticos e painéis para a empresa, bem como nos aspectos técnicos do armazenamento desses dados. Se você pedir para a TI definir a localização dos dados do “cliente”, eles podem responder: “Isso está em nosso data warehouse empresarial para relatórios, que remonta a 2015. Também temos dados de clientes de novas aquisições no lago de dados. Esses dados estão no data lake e precisam ser convertidos antes que possamos relatar.” Assim, para eles, os dados do “cliente” podem ser muito analíticos ou conter retrocessos históricos.
Sua equipe de vendas pode estar mais focada em operações, como a forma como eles agora usam dados de clientes em vendas. Para eles, dados de clientes podem significar apenas clientes ativos ou dados de clientes em nível de conta (como o nome da empresa), não todos os clientes que a empresa já teve. As equipes de vendas podem se referir aos dados de clientes como nomes de empresas em vez de dados em nível de equipe. Além disso, os departamentos de conformidade podem considerar os dados de clientes em um nível de pessoal, já que seu uso principal de dados é cumprir regulamentações como o GDPR.
Como você pode ver, o desafio não está apenas na definição, mas na inconsistência de definições entre essas diferentes equipes e processos. E os números estão crescendo. Você precisa ser capaz de encontrar seus dados para análise ideal. Em operações, você precisa entender todos os diferentes aplicativos e onde eles obtêm seus dados. Em termos de conformidade, você precisa garantir que sua organização siga as regras; para O departamento de TI, a principal preocupação é gerar análise e preservar o histórico.
Com o gerenciamento de metadados, você pode fornecer a cada parte da sua organização os metadados necessários para entender e gerenciar seus sistemas, seus dados, toda a sua organização e uma visão unificada dos dados em toda a sua organização. Esta é a única maneira de as organizações funcionarem corretamente e garantirem que eventualmente acertem as coisas.
Conclusão
Obrigado por ler nosso artigo e esperamos que ele possa ajudá-lo a ter uma melhor compreensão de o que são metadados. Se você quiser saber mais sobre metadados, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.
Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow pode não apenas analisar arquivos de script SQL, obter linhagem de dados, e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados em formato CSV e executem exibição visual. (Publicado por Ryan em 24 de junho de 2022)
Se você gosta de ler isso, explore nossos outros artigos abaixo: