O que é um Data Mart?
UM mercado de dados é um warehouse que coleta dados de dados operacionais e outras fontes de dados que atendem a um grupo específico de profissionais. Em termos de escopo, os dados são extraídos de um banco de dados de toda a empresa ou de um banco de dados mais especializado Armazém de dados. O ponto de um data center é que ele atende às necessidades específicas de grupos de usuários profissionais em termos de análise, conteúdo, desempenho e facilidade de uso. Os usuários de data centers esperam que os dados sejam representados em termos com os quais estão familiarizados.
Data Mart vs Data Warehouse:
Um data warehouse é uma coleção de dados integrada e orientada a assuntos, projetada para dar suporte à função DSS (Decision Support System). Em um data warehouse, cada unidade de dados é associada a um tempo específico. Um data warehouse, que consiste em dados de nível atômico e dados levemente agregados, é uma coleção de dados orientada a tópicos, integrada, não atualizável (estável) e variável no tempo para dar suporte ao processo de tomada de decisão na gestão empresarial.

Data Mart vs Data Warehouse
Então, o data mart é um subconjunto de data warehouse de nível empresarial, que é principalmente orientado para negócios de nível de departamento e apenas orientado para um tópico específico. Para resolver a contradição entre flexibilidade e desempenho, um data mart é um pequeno data warehouse de nível de departamento ou grupo de trabalho adicionado à arquitetura de data warehouse. Os data marts armazenam dados pré-computados para usuários específicos para atender às necessidades de desempenho dos usuários. Eles podem aliviar o gargalo de acesso a data warehouses até certo ponto.
Características do Data Mart:
- pequeno em tamanho;
- têm aplicações específicas;
- orientado para o departamento;
- definido, projetado e desenvolvido por unidades de negócios;
- gerenciado e mantido por unidades de negócios;
- pode ser implementado rapidamente;
- mais barato para comprar;
- rápida recuperação do investimento;
- integração estreita de conjuntos de ferramentas;
- fornece um subconjunto mais detalhado, preexistente e resumido do data warehouse;
- atualizável para um data warehouse completo;
A estrutura de dados de um Data Mart:
A estrutura de dados em um data mart é frequentemente descrita como uma estrutura de estrela ou floco de neve. Uma estrutura de estrela consiste em duas partes básicas – uma tabela de fatos e várias tabelas de dimensão de suporte.
1.Fmesa de ato
A tabela de fatos descreve os dados mais densos no data mart. Em uma empresa telefônica, os dados usados para chamadas são tipicamente os mais densos. Em bancos, dados relacionados a reconciliação e caixas eletrônicos são tipicamente os mais intensivos. Para varejo, dados de vendas e estoque são os mais densos e assim por diante.
Uma tabela de fatos é uma combinação de vários tipos de dados que são pré-unidos, incluindo: uma chave primária da entidade que reflete a finalidade da tabela de fatos, como um pedido, uma venda, uma chamada telefônica, etc., informações de chave primária, chaves estrangeiras que conectam a tabela de fatos à tabela de dimensão e dados externos não-chave transportados pelas chaves estrangeiras.
Se esses dados externos não essenciais forem usados com frequência para análise de dados na tabela de fatos, está incluído no escopo da tabela de fatos. As tabelas de fatos são altamente indexadas. É muito comum ter de 30 a 40 índices em uma tabela de fatos. Às vezes, cada coluna da tabela de fatos é indexada, e o resultado é que os dados na tabela de fatos são muito fáceis de ler. No entanto, o número de recursos necessário para importar o índice deve fatorar na equação. Normalmente, os dados da tabela de fatos não podem ser alterados, mas os dados podem ser inseridos e, uma vez que um registro é inserido corretamente, nada pode ser alterado para esse registro.
2. Tabela de Dimensões
As tabelas de dimensão são construídas em torno de tabelas de fatos. A tabela de dimensão contém dados não intensivos que são vinculados à tabela de fatos por meio de uma chave estrangeira. As tabelas de dimensão típicas são baseadas em data marts, incluindo catálogos de produtos, listas de clientes, listas de fornecedores e assim por diante.
Os dados no data mart vêm do data warehouse empresarial. Todos os dados, com uma exceção, devem passar por um data warehouse empresarial antes de serem importados para um data mart. A exceção a isso são os dados específicos usados no data mart, que não podem ser usados em outro lugar no data warehouse. Dados externos geralmente se enquadram nessa categoria. Se esse não for o caso, e os dados forem usados em outro lugar no sistema de suporte à decisão, os dados devem passar pelo data warehouse empresarial.
Os data marts contêm dois tipos de dados, geralmente dados detalhados e dados agregados.
1. Dados detalhados
Conforme descrito anteriormente, os dados detalhados no data mart estão contidos em uma estrutura em estrela. Vale mencionar que o esquema em estrela é bem agregado à medida que os dados passam pelo data warehouse corporativo. Nesse caso, o data warehouse corporativo contém os dados básicos necessários, e o data mart contém os dados de tamanho de intervalo maior. No entanto, na mente dos usuários do data mart, os dados estruturados em estrela são tão detalhados quanto eram quando foram adquiridos.
2. Dados agregados
O segundo tipo de dados que um data mart contém são dados agregados. Analistas normalmente criam vários dados agregados a partir de dados em um star schema. Um rollup típico pode ser o total de vendas mensais para os territórios de vendas. Como a base da agregação está em constante evolução, os dados históricos estão no data mart. Mas a vantagem desses dados históricos está no nível de generalização que eles armazenam. Muito poucos dados históricos são mantidos no star schema.
Os data marts são atualizados com base em data warehouses corporativos. Não é incomum que eles sejam atualizados cerca de uma vez por semana. No entanto, o tempo de atualização do data mart pode ser menor que uma semana ou maior que uma semana, o que é determinado principalmente pelas necessidades do departamento ao qual o data mart pertence.
Tipos de Data Mart:
1. Independent
Os dados do data mart independente vêm do banco de dados operacional, que é um ambiente analítico estabelecido para atender às necessidades de usuários especiais. O ciclo de desenvolvimento desse tipo de data mart é geralmente curto e flexível, mas, como é separado do data warehouse, um data mart independente pode levar à existência de ilhas de informações, e os dados não podem ser analisados de uma perspectiva global.
2. Subordinado
Os dados do data mart subordinado vêm do data warehouse da empresa, o que prolongará o ciclo de desenvolvimento, mas o data mart subordinado é mais estável em arquitetura do que o data mart independente, o que pode melhorar o qualidade dos dados análise e garantir a consistência dos dados.
Vantagens do Data Mart:
- É uma das alternativas mais econômicas para data warehouses onde você só precisa processar um pequeno subconjunto de dados.
- Separar dados de fontes tornará os data marts mais eficientes porque um grupo específico de pessoas pode trabalhar em dados de uma fonte específica, em vez de todos usarem o data warehouse.
- Se soubermos qual subconjunto precisamos acessar, podemos usar data marts para acessar os dados mais rapidamente.
- Mais fácil de usar para que os usuários finais possam consultá-lo facilmente.
- Como os dados são segregados em grupos, leva menos tempo para entrar no data mart de tempo de implementação do que em um data warehouse.
- Dados históricos de tópicos específicos podem ser usados para facilitar a análise de tendências.
Etapas para implementar um Data Mart:
Etapa 1. Projetando:
Este será o primeiro passo da implementação, no qual todas as tarefas e fontes necessárias para coletar informações técnicas e comerciais são identificadas. Um plano lógico é implementado mais tarde e, após revisão, é convertido em um plano físico. Além disso, aqui a estrutura lógica e física dos dados é decidida, como particionar os dados e campos de partição como data ou qualquer outro arquivo.
Etapa 2. Construção:
Este é o segundo estágio da implementação, a geração do banco de dados físico com a ajuda do RDBMS é determinada como parte do processo de design e estrutura lógica. Crie todos os objetos como esquemas, índices, tabelas, visualizações, etc.
Etapa 3. Preenchendo:
Este é o terceiro estágio, onde você preenche os dados conforme os busca. Todas as transformações necessárias são implementadas antes que os dados sejam preenchidos.
Etapa 4. Acessando:
Este é o próximo passo na implementação, usaremos os dados populados para consultar e criar um relatório. Usuários finais usam este passo para entender os dados usando a consulta.
Etapa 5. Gerenciando:
Este é o estágio final da implementação do data mart, onde tarefas como gerenciamento de acesso, otimização e ajuste do sistema, gerenciamento e adição de novos dados ao data mart e planejamento de cenários de recuperação para lidar com quaisquer cenários de falha são realizadas aqui.
Conclusão
Obrigado por ler nosso artigo e esperamos que você tenha gostado. Se você quiser saber mais sobre governança de dados, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.
Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow pode não apenas analisar arquivos de script SQL, obter linhagem de dados, e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados em formato CSV e executem exibição visual. (Publicado por Ryan em 22 de junho de 2022)
Um comentário
Deixe um comentário
Se você gosta de ler isso, explore nossos outros artigos abaixo:
[…] e os departamentos de marketing usam data marts para coletar dados de fontes como clientes e […]