Armazém de dados 101
Hoje, com o rápido desenvolvimento de tecnologias como a Internet e a Internet das Coisas, mais e mais dados são gerados, e ferramentas de gerenciamento de dados também foram desenvolvidas rapidamente. Conceitos relacionados a big data surgiram, como bancos de dados, armazéns de dados, gerenciamento de metadados e data lakes etc. Em nosso artigo anterior, detalhamos o que é um data lake e como ele beneficia seu negócio. Hoje, neste artigo, apresentaremos o que é um data warehouse, quais são suas vantagens, como ele se diferencia de um data lake e muito mais.
O que é um data warehouse?
Com a aplicação em larga escala de bancos de dados, os dados na indústria da informação explodiram. Para estudar o relacionamento entre dados e extrair o valor oculto dos dados, mais e mais pessoas precisam usar o processamento analítico online (OLAP) para analisar dados e extrair alguns relacionamentos e informações de nível profundo. No entanto, o compartilhamento de dados entre diferentes bancos de dados é difícil, e a integração e análise de dados são muito desafiadoras.

o que é um data warehouse
Para resolver o problema de integração e análise de dados empresariais, cientista da computação Bill Inmon propôs o conceito de Armazém de dados em 1990. A principal função dele é OLAP a grande quantidade de dados acumulados pelo OLTP ao longo dos anos por meio de sua arquitetura única de armazenamento de dados e, finalmente, ajudar os tomadores de decisão a analisar de forma rápida e eficaz informações valiosas de uma grande quantidade de dados e fornecer suporte à decisão. Desde o surgimento do data warehouse, a indústria da informação se desenvolveu gradualmente de um sistema operacional baseado em um banco de dados relacional para um sistema de suporte à decisão.
Quais são suas vantagens?
Ele tem vantagens únicas na análise eficiente de grandes volumes de dados díspares, na extração de valor dos dados e na preservação de registros históricos. Bill Inmon definiu quatro características do data warehouse e estabeleceu uma base sólida para suas poderosas vantagens.
- Orientado para o assunto: ele pode analisar eficientemente dados sobre um assunto específico ou área funcional, como vendas.
- Integração: cria consistência entre diferentes tipos de dados de diferentes fontes.
- Relativamente estável: Após entrar no data warehouse, os dados permanecerão estáveis e não serão alterados.
- Refletindo a mudança histórica: A análise de data warehouse se concentra em refletir mudanças históricas.
Um data warehouse bem projetado oferece suporte a consultas de alta velocidade, alto rendimento de dados e excelente flexibilidade para ajudar os usuários a subdividir ou reduzir volumes de dados para realizar inspeções de dados mais detalhadas e atender às necessidades de gerenciamento de dados refinado e de alto nível.
Como projetar um data warehouse?
Antes de começar a projetar, você precisa primeiro identificar os requisitos de negócios, concordar com o escopo de negócios e desenvolver um design conceitual e, em seguida, criar o design lógico e físico para o data warehouse. Entre eles, o design lógico foca no relacionamento entre objetos, e o design físico foca em como armazenar e recuperar objetos da melhor maneira. Claro, o design físico também inclui processos de transferência, backup e recuperação.
Qualquer projeto de data warehouse deve abordar as seguintes questões:
- conteúdo de dados específico;
- relacionamentos dentro e entre conjuntos de dados;
- ambiente de sistema que suporta data warehouse;
- tipo de conversão de dados;
- frequência de atualização de dados
Além disso, as necessidades dos usuários finais também são uma questão importante no design do data warehouse. Normalmente, a maioria dos usuários finais está preocupada em executar análises e visualizar dados agregados, não transações individuais. Na verdade, os usuários finais não sabem exatamente o que querem até que necessidades específicas surjam. Portanto, explore e antecipe as necessidades do usuário final o máximo possível durante o processo de planejamento. Finalmente, o design do data warehouse deve deixar espaço suficiente para expansão e crescimento para acomodar as necessidades mutáveis do usuário final.
Qual a diferença entre ele e um data lake?
Um data lake é usado principalmente para armazenar dados centralmente. É como um banco de dados de armazenamento. Ele pode armazenar dados estruturados e não estruturados e é frequentemente usado para processar dados não estruturados, enquanto o data warehouse é um repositório de grande capacidade, é usado principalmente para armazenar uma grande quantidade de dados estruturados, mas também pode ser analisado.
As áreas de aplicação dos data lakes são muito amplas. Podem ser usados no campo da logística, mas também no campo da manufatura e assim por diante. O campo de aplicação do data warehouse também é muito amplo, porque sua capacidade é muito grande. Pode ser usado na operação de grandes empresas. Antes do desenvolvimento posterior, muitas empresas conduzirão análises de mercado por meio de data warehouses, porque os dados de mercado são muito grandes. Além disso, também pode ser aplicado à análise de decisão, porque pode minerar as leis de dados históricos, o que é muito útil para a tomada de decisões.
A diferença entre um data lake e um data warehouse não é particularmente grande. Ambos são muito úteis para o desenvolvimento da organização, porque a análise de dados é muito objetiva, e o data lake e o data warehouse podem fornecer aos usuários uma grande quantidade de dados para tomar decisões corretas.
O que é um data warehouse na nuvem?
Refere-se ao data warehouse que usa tecnologia de nuvem para extrair e armazenar dados de diferentes fontes de dados. Inicialmente, o data warehouse era construído em um servidor local. Hoje, esses data warehouses locais ainda oferecem muitas vantagens, em alguns casos oferecendo um nível mais alto de governança, segurança e velocidade.
No entanto, data warehouses on-premises são menos resilientes, exigindo que as empresas passem por previsões complexas para determinar como expandir o data warehouse para atender às demandas futuras. Além disso, data warehouses on-premises também são muito complexos de gerenciar.
Em contraste, os data warehouses em nuvem oferecem as seguintes vantagens:
- alta flexibilidade, pode expandir independentemente a capacidade de computação e a capacidade de armazenamento;
- altamente escalável, flexível para atender aos requisitos de computação ou armazenamento;
- fácil de usar, fácil de gerenciar e econômico;
O data warehouse ideal na nuvem deve suportar hospedagem completa e direção autônoma, garantindo que até mesmo iniciantes possam criar e usar um data warehouse com apenas alguns cliques. Além disso, a maioria dos data warehouses na nuvem usa um modelo de pagamento conforme o uso, o que pode economizar ainda mais dinheiro.
Conclusão
Obrigado por ler nosso artigo e esperamos que ele possa lhe dar uma melhor compreensão do que é um data warehouse. Se você quiser encontrar mais informações sobre isso, gostaríamos de aconselhá-lo a visitar Site oficial do Gudu SQLFlow para maiores informações.
Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow pode não apenas analisar arquivos de script SQL, obter linhagem de dados e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados no formato CSV e executar exibição visual. (Publicado por Ryan em 31 de maio de 2022)
Comentários 2
Deixe um comentário
Se você gosta de ler isso, explore nossos outros artigos abaixo:
[…] dados brutos infinitos de fontes distintas, você provavelmente já considerou usar um data warehouse em nuvem como o Snowflake para abordar esses dois usos comuns de integração de dados […]
[…] é um aspecto fundamental da maioria das tarefas de integração e gerenciamento de dados, como manipulação de dados, armazenamento de dados, integração de dados e aplicativos […]