{"id":4961,"date":"2022-07-02T20:14:16","date_gmt":"2022-07-03T04:14:16","guid":{"rendered":"https:\/\/www.gudusoft.com\/?p=4961"},"modified":"2022-07-02T20:14:16","modified_gmt":"2022-07-03T04:14:16","slug":"data-lake-governance-benefits-challenges","status":"publish","type":"post","link":"https:\/\/www.gudusoft.com\/pt\/beneficios-desafios-de-governanca-de-data-lake\/","title":{"rendered":"Governan\u00e7a do Data Lake: Benef\u00edcios, Desafios e Introdu\u00e7\u00e3o"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"background-color: rgba(255,255,255,0);background-position: center center;background-repeat: no-repeat;border-width: 0px 0px 0px 0px;border-color:#e8eaf0;border-style:solid;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start\" style=\"max-width:1310.4px;margin-left: calc(-4% \/ 2 );margin-right: calc(-4% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\" style=\"background-position:left top;background-repeat:no-repeat;-webkit-background-size:cover;-moz-background-size:cover;-o-background-size:cover;background-size:cover;padding: 0px 0px 0px 0px;\"><div class=\"fusion-text fusion-text-1\" style=\"line-height:26px;\"><h2>Governan\u00e7a do Data Lake: Benef\u00edcios, Desafios e Introdu\u00e7\u00e3o<\/h2>\n<p>Um sucesso <a href=\"https:\/\/www.gudusoft.com\/pt\/category\/data-governance-101\/\"><strong>governan\u00e7a de dados<\/strong><\/a> programa alavanca pol\u00edticas, padr\u00f5es e processos para criar <a href=\"https:\/\/www.gudusoft.com\/pt\/como-melhorar-a-qualidade-dos-dados\/\"><strong>dados de alta qualidade<\/strong><\/a> e garantir que seja utilizado adequadamente em toda a organiza\u00e7\u00e3o. A governan\u00e7a de dados inicialmente se concentrou em dados estruturados em bancos de dados relacionais e tradicionais <a href=\"https:\/\/www.gudusoft.com\/pt\/o-que-e-um-data-warehouse\/\"><strong>armaz\u00e9ns de dados<\/strong><\/a>, mas as coisas mudaram. Se sua empresa tem um ambiente de data lake do qual voc\u00ea deseja an\u00e1lises precisas, voc\u00ea tamb\u00e9m precisa implementar <a href=\"https:\/\/www.gudusoft.com\/pt\/o-que-e-um-data-lake\/\"><strong>lago de dados<\/strong><\/a> governan\u00e7a como parte de um plano geral de governan\u00e7a.<\/p>\n<p>Mas os data lakes apresentam v\u00e1rios desafios para todas as \u00e1reas de <a href=\"https:\/\/www.gudusoft.com\/pt\/plataforma-de-gerenciamento-de-metadados-corporativos\/\"><strong>gerenciamento de dados empresariais<\/strong><\/a>, incluindo governan\u00e7a de dados. Abaixo, exploraremos alguns dos principais desafios de governan\u00e7a e os benef\u00edcios de governar efetivamente um data lake.<\/p>\n<p>Primeiro, por\u00e9m, vamos definir o que \u00e9 um data lake: ele se refere a uma plataforma de dados que cont\u00e9m grandes quantidades de dados brutos, frequentemente incluindo v\u00e1rios tipos de dados estruturados, n\u00e3o estruturados e semiestruturados. Ele geralmente \u00e9 constru\u00eddo em cima de Hadoop, Spark e outras tecnologias de big data.<\/p>\n<p>Enquanto a maioria dos data warehouses armazenam dados em tabelas relacionais, os data lakes usam um esquema simples. Cada elemento de dados recebe um identificador exclusivo e \u00e9 marcado com um conjunto de tags de metadados. Portanto, um data lake n\u00e3o \u00e9 t\u00e3o estruturado quanto um data warehouse. Os dados geralmente s\u00e3o mantidos em seu formato original e classificados, organizados e filtrados conforme necess\u00e1rio para fins anal\u00edticos espec\u00edficos, n\u00e3o quando s\u00e3o carregados em um data lake.<\/p>\n<div id=\"attachment_4969\" style=\"width: 925px\" class=\"wp-caption aligncenter\"><img aria-describedby=\"caption-attachment-4969\" decoding=\"async\" class=\"size-full wp-image-4969\" src=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance.png\" alt=\"Governan\u00e7a do Data Lake\" width=\"915\" height=\"550\" srcset=\"https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-200x120.png 200w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-300x180.png 300w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-400x240.png 400w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-600x361.png 600w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-768x462.png 768w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance-800x481.png 800w, https:\/\/www.gudusoft.com\/wp-content\/uploads\/2022\/07\/Data_Lake_Governance.png 915w\" sizes=\"(max-width: 915px) 100vw, 915px\" \/><p id=\"caption-attachment-4969\" class=\"wp-caption-text\">Governan\u00e7a do Data Lake<\/p><\/div>\n<h3>Lagos de dados e p\u00e2ntanos de dados:<\/h3>\n<p>Se um data lake n\u00e3o for bem gerenciado e governado, ele pode se transformar em um p\u00e2ntano em vez de um lago. Os dados s\u00e3o despejados em plataformas sem supervis\u00e3o e registro adequados, dificultando que as equipes de gerenciamento e governan\u00e7a de dados acompanhem o que est\u00e1 no data lake. Isso pode levar a problemas com qualidade, consist\u00eancia, confiabilidade e acessibilidade dos dados.<\/p>\n<p>Como resultado, <a href=\"https:\/\/www.gudusoft.com\/pt\/cientistas-de-dados\/\"><strong>cientistas de dados<\/strong><\/a>, <a href=\"https:\/\/www.gudusoft.com\/pt\/data-engineers\/\"><strong>engenheiros de dados<\/strong><\/a>, e outros usu\u00e1rios finais podem n\u00e3o conseguir encontrar dados relevantes para aplicativos anal\u00edticos. Pior ainda, p\u00e2ntanos de dados podem levar a erros anal\u00edticos e, por fim, a decis\u00f5es comerciais ruins. A seguran\u00e7a de dados e as prote\u00e7\u00f5es de privacidade podem n\u00e3o ser aplicadas adequadamente, colocando os ativos de dados de uma organiza\u00e7\u00e3o e sua reputa\u00e7\u00e3o comercial em risco. Para evitar essa situa\u00e7\u00e3o pantanosa, as empresas devem gerenciar o ambiente do data lake.<\/p>\n<h3><strong>Benef\u00edcios da Governan\u00e7a do Data Lake:<\/strong><\/h3>\n<p>A governan\u00e7a de dados eficaz permite que as empresas melhorem a qualidade dos dados e maximizem o uso de dados para decis\u00f5es de neg\u00f3cios, o que pode levar a melhorias operacionais, estrat\u00e9gias de neg\u00f3cios mais fortes e melhor desempenho financeiro. O mesmo princ\u00edpio se aplica aos data lakes de governan\u00e7a, assim como a outros tipos de sistemas. Os benef\u00edcios espec\u00edficos fornecidos pela governan\u00e7a de data lake incluem:<\/p>\n<ol>\n<li><strong>Aumente o acesso a dados relevantes para an\u00e1lises avan\u00e7adas.<\/strong> Em um data lake bem gerenciado, \u00e9 mais f\u00e1cil para cientistas de dados e o restante da equipe de an\u00e1lise encontrar os dados necess\u00e1rios para aprendizado de m\u00e1quina, an\u00e1lise preditiva e outras aplica\u00e7\u00f5es de ci\u00eancia de dados.<\/li>\n<li><strong>Gaste menos tempo preparando dados para fins anal\u00edticos.<\/strong> Enquanto os dados em um data lake s\u00e3o geralmente mantidos em sua forma bruta, sabendo que uma aplica\u00e7\u00e3o espec\u00edfica os requer, em um ambiente regulado o processo de prepara\u00e7\u00e3o de dados pode ser encurtado. Por exemplo, a limpeza de dados antecipada reduz o tempo para corrigir erros de dados e outros problemas mais tarde.<\/li>\n<li><strong>Reduza os custos de TI e gerenciamento de dados.<\/strong> By preventing the data lake from getting out of control, the required data processing and storage resources can be reduced. It also reduces overall data management needs by improving data accuracy, neatness, and consistency.<\/li>\n<li><strong>Melhore a seguran\u00e7a e a conformidade regulat\u00f3ria de dados confidenciais.<\/strong> Um caso de uso comum para um data lake \u00e9 ajudar com marketing e vendas. Portanto, eles geralmente cont\u00eam confian\u00e7a sens\u00edvel sobre o cliente. Uma governan\u00e7a forte do data lake ajuda a proteger adequadamente esses dados e n\u00e3o us\u00e1-los indevidamente.<\/li>\n<\/ol>\n<h3>Desafios de governan\u00e7a do Data Lake:<\/h3>\n<p>As disciplinas de gerenciamento de dados complementares da governan\u00e7a de dados incluem qualidade de dados, <a href=\"https:\/\/www.gudusoft.com\/pt\/gerenciamento-de-metadados-para-data-warehouses\/\"><strong>gerenciamento de metadados<\/strong><\/a>, e seguran\u00e7a de dados, todos os quais afetam a governan\u00e7a do data lake e seus desafios. Aqui est\u00e3o cinco desafios comuns de governan\u00e7a de dados encontrados em implanta\u00e7\u00f5es de data lake.<\/p>\n<ol>\n<li><strong>Identifique e mantenha as fontes de dados corretas.<\/strong> Em muitas implementa\u00e7\u00f5es de data lake, os metadados de origem n\u00e3o s\u00e3o capturados ou n\u00e3o est\u00e3o dispon\u00edveis, tornando a validade do conte\u00fado do data lake question\u00e1vel. Por exemplo, o propriet\u00e1rio comercial de um sistema de registro ou conjunto de dados n\u00e3o est\u00e1 listado, ou dados aparentemente redundantes podem causar problemas para analistas de dados. No m\u00ednimo, os metadados de origem para todos os dados no data lake devem ser documentados e disponibilizados aos usu\u00e1rios para obter insights sobre de onde eles vieram.<\/li>\n<li><strong>Problemas de gerenciamento de metadados.<\/strong> Metadados s\u00e3o uma parte importante do fornecimento de contexto para o conte\u00fado de um conjunto de dados e facilitam sua compreens\u00e3o e uso em aplicativos. Mas muitas implanta\u00e7\u00f5es de data lake n\u00e3o aplicam a defini\u00e7\u00e3o de dados correta aos dados coletados. Al\u00e9m disso, como os dados brutos s\u00e3o normalmente carregados em um data lake, muitas empresas n\u00e3o t\u00eam as etapas em vigor para validar os dados ou aplicar padr\u00f5es de dados organizacionais. Os dados no data lake s\u00e3o de pouca utilidade para an\u00e1lise devido \u00e0 falta de gerenciamento adequado de metadados.<\/li>\n<li><strong>A governan\u00e7a de dados e a qualidade dos dados carecem de coordena\u00e7\u00e3o.<\/strong> Esfor\u00e7os descoordenados de governan\u00e7a de data lake e qualidade de dados podem levar \u00e0 entrada de dados de baixa qualidade no data lake. Quando os dados s\u00e3o usados para analisar e conduzir decis\u00f5es de neg\u00f3cios, isso pode levar a resultados imprecisos, levando a uma perda de confian\u00e7a no data lake e a uma desconfian\u00e7a geral dos dados em toda a organiza\u00e7\u00e3o. Uma implementa\u00e7\u00e3o eficaz de data lake requer <a href=\"https:\/\/www.gudusoft.com\/pt\/habilidades-de-analistas-de-dados\/\"><strong>analistas de qualidade de dados<\/strong><\/a> e engenheiros para trabalhar em estreita colabora\u00e7\u00e3o com a equipe de governan\u00e7a de dados e neg\u00f3cios <a href=\"https:\/\/www.gudusoft.com\/pt\/administradores-de-dados\/\"><strong>administradores de dados<\/strong><\/a> aplicar pol\u00edticas de qualidade de dados, analisar os dados e tomar as medidas necess\u00e1rias para melhorar sua qualidade.<\/li>\n<li><strong>Falta de coordena\u00e7\u00e3o entre governan\u00e7a de dados e seguran\u00e7a de dados.<\/strong> Neste caso, os padr\u00f5es e pol\u00edticas de seguran\u00e7a de dados que n\u00e3o s\u00e3o aplicados adequadamente no processo de governan\u00e7a podem levar a problemas de acesso a dados pessoais e outros tipos de dados sens\u00edveis protegidos por regulamenta\u00e7\u00f5es de privacidade. Embora os data lakes sejam projetados para serem fontes de dados razoavelmente abertas, os controles de seguran\u00e7a e acesso ainda s\u00e3o necess\u00e1rios, e as equipes de governan\u00e7a de dados e seguran\u00e7a de dados devem trabalhar juntas no design e no processo de carregamento do data lake e nos esfor\u00e7os cont\u00ednuos de governan\u00e7a de dados.<\/li>\n<li><strong>Conflitos entre unidades de neg\u00f3cios que usam o mesmo data lake.<\/strong> Departamentos diferentes podem ter regras de neg\u00f3cios diferentes para dados semelhantes, o que pode levar \u00e0 incapacidade de reconciliar discrep\u00e2ncias de dados para uma an\u00e1lise precisa. Ter um programa de governan\u00e7a de dados robusto com uma vis\u00e3o empresarial de pol\u00edticas, padr\u00f5es, procedimentos e defini\u00e7\u00f5es de dados, incluindo um gloss\u00e1rio empresarial de neg\u00f3cios, pode reduzir os problemas que surgem quando v\u00e1rias unidades de neg\u00f3cios usam um data lake. Se uma empresa tiver v\u00e1rios data lakes, cada data lake deve ser inclu\u00eddo no processo de governan\u00e7a de data lake e atribu\u00eddo a um administrador de dados empresariais.<\/li>\n<\/ol>\n<h3>Como come\u00e7ar a gerenciar data lakes?<\/h3>\n<p>Assim como na governan\u00e7a de dados em outros tipos de sistemas, as etapas iniciais comuns para governan\u00e7a de data lake incluem:<\/p>\n<ol>\n<li>Documente o caso de neg\u00f3cios para gerenciar o data lake, incluindo m\u00e9tricas de qualidade de dados e outras maneiras de medir os benef\u00edcios dos esfor\u00e7os de gerenciamento.<\/li>\n<li>Encontre executivos ou patrocinadores empresariais para ajudar a obter aprova\u00e7\u00e3o e financiamento para esfor\u00e7os de governan\u00e7a.<\/li>\n<li>Se voc\u00ea ainda n\u00e3o tem uma estrutura de governan\u00e7a de dados, crie uma que inclua uma equipe de governan\u00e7a, administra\u00e7\u00e3o de dados e um comit\u00ea de governan\u00e7a de dados, composto por l\u00edderes empresariais e outros propriet\u00e1rios de dados relevantes.<\/li>\n<li>Trabalhe com o comit\u00ea de governan\u00e7a para desenvolver padr\u00f5es de dados e pol\u00edticas de governan\u00e7a para o ambiente do data lake.<\/li>\n<\/ol>\n<p>Outro bom passo inicial \u00e9 criar um cat\u00e1logo de dados para ajudar os usu\u00e1rios finais a localizar e entender os dados armazenados no data lake. Ou, se voc\u00ea j\u00e1 tem um cat\u00e1logo de outros ativos de dados, pode expandi-lo para incluir um data lake. O cat\u00e1logo de dados captura metadados e cria um invent\u00e1rio de dados dispon\u00edveis que os usu\u00e1rios podem pesquisar para encontrar os dados de que precisam. Voc\u00ea tamb\u00e9m pode incorporar informa\u00e7\u00f5es no cat\u00e1logo sobre as pol\u00edticas de governan\u00e7a de dados da sua organiza\u00e7\u00e3o, bem como mecanismos para impor regras e restri\u00e7\u00f5es.<\/p>\n<p>Concluindo, o valor de um data lake pode ser significativamente aprimorado ao incluir uma forte governan\u00e7a de dados, bem como processos de gerenciamento de metadados, qualidade de dados e seguran\u00e7a de dados no design, carregamento e manuten\u00e7\u00e3o do ambiente de dados. O envolvimento ativo de profissionais experientes em todas essas \u00e1reas tamb\u00e9m \u00e9 crucial. Caso contr\u00e1rio, seu data lake pode de fato se tornar mais um p\u00e2ntano de dados.<\/p>\n<h3>Conclus\u00e3o<\/h3>\n<p>Obrigado por ler nosso artigo e esperamos que ele possa ajud\u00e1-lo a ter um melhor entendimento sobre governan\u00e7a de data lake. Se voc\u00ea quiser saber mais sobre governan\u00e7a de data lake, gostar\u00edamos de aconselh\u00e1-lo a visitar <a href=\"https:\/\/www.gudusoft.com\/pt\/\"><strong>Gudu SQLFlow<\/strong><\/a> para maiores informa\u00e7\u00f5es.<\/p>\n<p>Como um dos\u00a0<strong><a href=\"https:\/\/www.dpriver.com\/blog\/2022\/05\/11\/best-data-lineage-tools\/\" target=\"_blank\" rel=\"noopener noreferrer\">melhores ferramentas de linhagem de dados<\/a><\/strong>\u00a0dispon\u00edvel no mercado hoje, o Gudu SQLFlow pode n\u00e3o apenas analisar arquivos de script SQL, obter\u00a0<a href=\"https:\/\/www.gudusoft.com\/pt\/whats-data-lineage-why-important\/\"><strong>linhagem de dados<\/strong><\/a>, e executar exibi\u00e7\u00e3o visual, mas tamb\u00e9m permitir que os usu\u00e1rios forne\u00e7am linhagem de dados em formato CSV e executem exibi\u00e7\u00e3o visual.\u00a0<strong>(Publicado por Ryan em 3 de julho de 2022)<\/strong><\/p>\n<\/div><\/div><\/div><style type=\"text\/css\">.fusion-body .fusion-builder-column-0{width:100% !important;margin-top : 0px;margin-bottom : 0px;}.fusion-builder-column-0 > .fusion-column-wrapper {padding-top : 0px !important;padding-right : 0px !important;margin-right : 1.92%;padding-bottom : 0px !important;padding-left : 0px !important;margin-left : 1.92%;}@media only screen and (max-width:1024px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}@media only screen and (max-width:640px) {.fusion-body .fusion-builder-column-0{width:100% !important;}.fusion-builder-column-0 > .fusion-column-wrapper {margin-right : 1.92%;margin-left : 1.92%;}}<\/style><\/div><style type=\"text\/css\">.fusion-body .fusion-flex-container.fusion-builder-row-1{ padding-top : 0px;margin-top : 0px;padding-right : 0px;padding-bottom : 0px;margin-bottom : 0px;padding-left : 0px;}<\/style><\/div>","protected":false},"excerpt":{"rendered":"","protected":false},"author":27,"featured_media":4988,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[178],"tags":[262,137,260,263,261,264],"_links":{"self":[{"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/posts\/4961"}],"collection":[{"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/users\/27"}],"replies":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/comments?post=4961"}],"version-history":[{"count":25,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/posts\/4961\/revisions"}],"predecessor-version":[{"id":4987,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/posts\/4961\/revisions\/4987"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/media\/4988"}],"wp:attachment":[{"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/media?parent=4961"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/categories?post=4961"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.gudusoft.com\/pt\/wp-json\/wp\/v2\/tags?post=4961"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}