11 segredos obscuros do gerenciamento de dados
Alguns chamam os dados de “novo petróleo”, enquanto outros os chamam de “novo ouro”. Deixando de lado a validade dessas metáforas, não há dúvida de que organizar e analisar dados é um trabalho vital para qualquer empresa que busca cumprir a promessa de tomada de decisão baseada em dados. Para esse fim, uma sólida estratégia de gerenciamento de dados é a chave. Isso inclui governança de dados, operações de dados, armazenamento de dados, engenharia de dados, análise de dados, ciência de dados, etc. O gerenciamento de dados, quando feito corretamente, pode fornecer uma vantagem competitiva para empresas em todos os setores. Neste artigo, apresentaremos 11 segredos obscuros da gestão de dados.

Segredos obscuros da gestão de dados
Segredos obscuros do gerenciamento de dados – 1. Dados não estruturados são difíceis de analisar
80%-90% dos dados em empresas são dados não estruturados. À medida que a transformação digital entra gradualmente na área de águas profundas, a quantidade de dados não estruturados está crescendo rapidamente. Esses dados estão espalhados na empresa interna na forma de documentos, imagens, áudio e vídeo, etc. Devido aos motivos de departamentos, aplicativos, arquiteturas, ambiente multi-nuvem e assim por diante, eles formam ilhas de dados não estruturados, que são difíceis de compartilhar e usar, e extraem o valor do conteúdo, dificultando seriamente o processo de transformação digital empresarial.
Segredos obscuros da gestão de dados – 2. Mesmo dados estruturados são frequentemente desestruturados
Bons cientistas e administradores de banco de dados orientam os bancos de dados especificando o tipo e a estrutura de cada campo. Às vezes, em nome de mais estrutura, eles restringem o valor em um determinado campo a um inteiro em um intervalo específico ou uma escolha predefinida. Mesmo assim, as pessoas que preenchem formulários de armazenamento de banco de dados encontrarão maneiras de aumentar a dificuldade.
Quando eles acham que uma pergunta não se aplica, às vezes é indicado pelo campo estar vazio; outros são indicados pela inserção de um traço ou a inicial “na”. Um bom desenvolvedor pode identificar alguns desses problemas por meio da validação. Bom cientistas de dados também pode reduzir essa incerteza limpando. Mas é enlouquecedor que mesmo as tabelas mais estruturadas tenham entradas suspeitas que podem introduzir incógnitas ou até mesmo erros na análise.
Segredos obscuros do gerenciamento de dados – 3. Os esquemas de dados são muito rígidos ou muito frouxos
Não importa o quanto a equipe de dados tente articular restrições de esquema, o esquema final usado para definir os valores em vários campos de dados é muito rigoroso ou muito frouxo. Se a equipe de dados adicionasse restrições rigorosas, os usuários reclamariam que suas respostas não foram encontradas na lista limitada de valores aceitáveis. Se o esquema de dados for muito permissivo, os usuários podem adicionar valores estranhos com pouca consistência.
Segredos obscuros da gestão de dados – 4. As leis de dados são muito rigorosas
As leis sobre privacidade e proteção de dados são fortes e só ficarão mais fortes. Com mais de uma dúzia de regulamentações como GDPR, HIPPA e mais, coletar dados pode ser muito difícil e ainda mais perigoso se hackeado. Em muitos casos, contratar um advogado custará muito mais do que contratar um programador ou cientista de dados. Essas dores de cabeça são o motivo pelo qual algumas empresas descartam dados assim que são processados.
Segredos obscuros da gestão de dados – 5. O custo da limpeza de dados é enorme
Limpeza de dados é o processo de corrigir e remover registros de dados imprecisos de um banco de dados ou tabela de dados. Em termos gerais, a limpeza de dados inclui identificar e substituir dados e registros incompletos, imprecisos, irrelevantes ou problemáticos.
Muitos cientistas de dados admitem que 90% do seu trabalho é simplesmente coletar dados, apresentá-los de forma consistente e lidar com infinitas brechas ou erros. As pessoas que têm os dados sempre dirão: "Tudo está em CSV (Comma Separated Values, um formato de arquivo comum e relativamente simples) pronto para uso". Mas eles não mencionam campos em branco ou descrições de erros. Limpar dados para projetos de ciência de dados pode levar até 10 vezes mais tempo do que iniciar rotinas em R ou Python para realmente executar análises estatísticas.
Segredos obscuros da gestão de dados – 6. Os usuários estão cada vez mais desconfiados de suas práticas de dados
Usuários finais e clientes estão cada vez mais desconfiados das práticas de gerenciamento de dados das empresas, e os algoritmos de IA e seu uso só aumentaram os medos e deixaram mais e mais pessoas profundamente desconfortáveis sobre o próprio ato de capturar seus dados. Essas preocupações estão impulsionando o processo regulatório e frequentemente colocam as empresas em crises de relações públicas. Não apenas isso, mas as pessoas interferem deliberadamente na coleta de dados com valores falsos ou respostas erradas. Às vezes, metade do trabalho é lidar com parceiros e clientes maliciosos.
Segredos obscuros da gestão de dados – 7. Integrar dados externos pode valer a pena, mas também pode significar um desastre
Uma coisa é as empresas possuírem os dados que coletam, mas outra coisa é elas quererem integrar suas próprias informações locais com dados de terceiros e a vasta quantidade de informações personalizadas que existem na Internet. Algumas ferramentas prometem abertamente coletar dados sobre cada cliente para construir um perfil personalizado com cada compra. Isso mesmo, elas estão usando as mesmas palavras que agências de espionagem que rastreiam terroristas para rastrear suas compras de fast food e pontuação de crédito. Não é de se admirar que as pessoas estejam preocupadas e em pânico!
Segredos obscuros da gestão de dados – 8. Os reguladores estão reprimindo o uso de dados
Ninguém sabe quando a análise inteligente de dados cruzará a linha, mas quando isso acontecer, os reguladores entrarão em ação. Em um caso recente no Canadá, uma investigação do governo descobriu que algumas lojas de donuts rastrearam clientes que também compraram em concorrentes.
De acordo com um comunicado de imprensa recém-emitido, "A investigação descobriu que o contrato da Tim Hortons com um provedor de serviços de localização terceirizado nos Estados Unidos continha uma linguagem tão vaga e permissiva que permitiu à empresa vender 'desidentificação' para seus próprios propósitos. dados de localização." Para quê? Vender mais donuts? De qualquer forma, parece que os reguladores estão prestando cada vez mais atenção a qualquer coisa que envolva informações pessoais.
Segredos obscuros do gerenciamento de dados – 9. Seu plano de dados pode não valer a pena
Imaginamos que um ótimo algoritmo pode tornar tudo mais eficiente e lucrativo. Às vezes, tal algoritmo é realmente possível, mas o preço também pode ser muito alto. Por exemplo, consumidores (e até mesmo empresas) estão cada vez mais questionando o valor do marketing direcionado de esquemas de gerenciamento de dados bem projetados. Algumas pessoas apontam que frequentemente vemos anúncios de coisas que compramos porque os rastreadores de anúncios não descobriram que não precisamos mais delas.
O mesmo destino frequentemente recai sobre outros planos. Às vezes, uma análise rigorosa de dados identifica as fábricas com pior desempenho, mas isso não importa porque a empresa assinou um contrato de arrendamento de 30 anos no prédio. As empresas precisam se preparar para a possibilidade de que todos os gênios da ciência de dados possam produzir uma resposta inaceitável.
Segredos obscuros da gestão de dados – 10. No final, as decisões sobre dados são muitas vezes apenas julgamentos subjetivos
Os números podem fornecer precisão suficiente, mas como os humanos os interpretam é frequentemente o que importa. Depois de toda a análise de dados e manipulação de IA, a maioria dos algoritmos precisa decidir se um valor está acima ou abaixo de um limite. Às vezes, os cientistas querem valores de p abaixo de 0,05; outras vezes, a polícia emite multas para carros que são 20 por cento mais rápidos. Esses limites geralmente são apenas valores arbitrários. Para toda a ciência e matemática que podem ser aplicadas aos dados, há mais áreas cinzentas em muitos processos "orientados por dados" do que pensamos, e embora as empresas possam estar investindo todos os seus recursos em suas práticas de gerenciamento de dados, as decisões dependem mais da intuição e do julgamento subjetivo.
Segredos obscuros da gestão de dados – 11. Os custos de armazenamento de dados estão a explodir
As unidades de disco estão ficando maiores e os preços por terabyte estão caindo, mas os programadores estão coletando dados significativamente mais rápido do que os preços estão caindo. Os dispositivos da Internet das Coisas (IoT) estão constantemente carregando dados, e os usuários esperam poder navegar na rica coleção desses bytes para sempre. Ao mesmo tempo, os funcionários de conformidade e reguladores continuam a exigir mais e mais dados em caso de auditorias futuras. Seria uma coisa se alguém realmente olhasse alguns desses dados, mas temos apenas um tempo limitado em um dia. A porcentagem de dados que são realmente revisitados está ficando cada vez menor. No entanto, o preço dos pacotes de expansão de armazenamento tem aumentado.
Conclusão
Obrigado por ler nosso artigo e se você gostou, ficaremos muito felizes. Se você quiser saber mais sobre gerenciamento de dados, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow para maiores informações.
Como um dos melhores ferramentas de linhagem de dados disponível no mercado hoje, o Gudu SQLFlow pode não apenas analisar arquivos de script SQL, obter linhagem de dados, e realizar exibição visual, mas também permitir que os usuários forneçam linhagem de dados no formato CSV e executar exibição visual. (Publicado por Ryan em 27 de agosto de 2022)
Se você gosta de ler isso, explore nossos outros artigos abaixo: