스노우플레이크 데이터 거버넌스

SaaS 애플리케이션의 등장과 데이터 처리의 클라우드 마이그레이션으로 인해 셀 수 없이 많은 데이터가 끊임없이 증가하는 속도로 도착하여 실시간 비즈니스 의사 결정이 필요합니다. 조직에서 레거시 데이터 사일로에서 데이터를 마이그레이션하거나 다양한 소스에서 무한한 원시 데이터를 로드하기로 결정하든, 아마도 이미 클라우드 사용을 고려했을 것입니다. 데이터웨어하우스 예를 들어 Snowflake는 이러한 두 가지 일반적인 문제를 해결합니다. 데이터 통합 사용 사례.

스노우플레이크 데이터 거버넌스

스노우플레이크 데이터 거버넌스

그러나 너무 많은 다른 소스의 데이터는 추적하기 어려울 수 있습니다. 데이터 소스의 정확성과 적절성을 보장하는 것은 조직의 최우선 과제이며, 가장 중요한 것은 모든 사용자의 셀프 서비스에 대한 기대를 충족하는 것입니다. 여기서 데이터 거버넌스 가장 영향력이 크다.

데이터 거버넌스는 데이터 보호 및 제어를 포함하며, 조직 전체의 사람들이 이 데이터에서 추출된 의미 있는 정보를 공유, 처리 및 사회화할 수 있도록 합니다. 조직 전체에서 공유되는 데이터의 무결성, 품질 및 신뢰성을 보호합니다. 잘 설계되면 이점이 확대될 수 있습니다. 데이터 거버넌스 전략 클라우드 기반 데이터웨어하우스에 적용됩니다.

현대적 데이터웨어하우스로서의 Snowflake

클라우드 데이터 웨어하우스인 Snowflake는 조직의 모든 데이터를 한곳에 저장하고 분석하는 데 필요한 성능, 동시성 및 단순성을 제공합니다. Snowflake는 보고 및 데이터 분석을 위해 구조화된 데이터를 수집하기 위한 데이터 저장소를 제공합니다. 다양한 형식의 많은 소스에서 정제되지 않은 대량의 데이터를 수용할 수 있는 기능은 IT를 많은 IT 의사 결정권자에게 매력적인 데이터 레이크 솔루션으로 만듭니다. 스토리지를 컴퓨팅에서 분리할 수 있는 기능 때문에 자원, 저장 용량을 동적으로 늘릴 수 있습니다. 데이터 레이크 컴퓨팅 노드를 고려하지 않고, 필요할 때만 수요를 충족시키기 위해 컴퓨팅 클러스터의 크기를 유연하게 조정합니다.

창고를 지나 호수로

데이터 레이크는 분산되고 분산된 데이터 사일로에 분산되고 때로는 제한적인 데이터 세트를 저장하는 대안으로 사용할 수 있습니다. 대량의 데이터를 쉽게 저장하고 액세스할 수 있는 단일 통합 시스템을 제공해야 하며, 원시(필터링되지 않은) 조직 데이터에 대한 완전하고 직접적인 액세스를 제공해야 합니다. 이는 비즈니스 인텔리전스 전문가와 조직 전체의 많은 다른 사용자가 데이터에 액세스할 수 있는 곳입니다.

최신 데이터웨어하우스를 기반으로 구축된 데이터 레이크는 다음과 같은 장점을 가져야 합니다.

  • 원시 데이터는 사전 구문 분석 없이 즉시 로드, 분석 및 쿼리될 수 있습니다. 변환.
  • 구조화되고 반구조화된 데이터는 수동 코딩이나 수동 개입 없이 흐릅니다.
  • 구조화되고 반구조화된 데이터에 대한 기본 SQL 및 읽기 시간 스키마 쿼리를 관리합니다.
  • 필요한 만큼의 컴퓨팅 성능만 배포하면서 대량의 원시 데이터를 비용 효율적으로 저장합니다.

데이터 거버넌스의 중요성

분석 및 비즈니스 인텔리전스를 위해 데이터를 최대한 활용하고자 하는 모든 데이터 중심 조직의 경우 데이터 거버넌스가 최우선 순위여야 하며 Snowflake와 같은 클라우드 데이터 웨어하우스를 사용하는 것이 올바른 접근 방식입니다. 결과적으로 적절한 데이터 거버넌스 전략을 계획하지 않고 디지털 전환의 과제를 수용하고자 하는 IT 리더는 이미 구축된 데이터 레이크에 맨 먼저 뛰어드는 실수를 저지르고 데이터 늪에서 다시 떠오르는 자신을 발견할 수 있습니다.

데이터 거버넌스와 데이터 품질이 없는 경우의 결과

셀 수 없이 많은 데이터가 점점 더 빠른 속도로 데이터 레이크에 쏟아져 들어오면서, 비즈니스 결정은 실시간으로 내려져야 합니다. 적절한 조치 없이는 어떤 종류의 데이터 품질도 확장하는 것이 거의 불가능합니다. 이상적으로는 데이터 레이크에 들어가는 데이터 세트가 그것을 풍부하게 해야 하지만, 불행히도 때로는 그것을 오염시킵니다.

결과적으로 IT 팀은 몇 초 만에 수집할 수 있는 새로운 데이터 소스를 게시하는 데 몇 주가 걸릴 수 있습니다. 더 나쁜 점은 데이터 소비자가 새로운 데이터가 이미 사용 가능하다는 것을 깨닫지 못할 때 고객이 새로 만든 데이터 소스 위에 자체 규칙을 추가하여 "진실"의 자체 버전을 만들게 된다는 것입니다. 궁극적으로 정보를 분석하고 귀중한 비즈니스 통찰력을 제공하는 대신 데이터를 준비하고 보호하는 데 너무 많은 시간을 소비하거나 낭비하게 됩니다.

탑다운과 바텀업

일반적으로 데이터 거버넌스는 엔터프라이즈 데이터 웨어하우스를 구축할 때 탑다운 방식을 통해 적용됩니다. 먼저, 중앙 데이터 모델을 정의해야 하며, 여기에는 데이터 전문가(예: 데이터 관리자, 데이터 과학자, 데이터 관리자, 데이터 보호 책임자 또는 데이터 엔지니어분석을 위해 추출하기 전에 의미적 목적으로 데이터를 여러 번 재구성합니다.

섭취 후, 데이터 카탈로그 혈통과 접근성을 조화시킬 것입니다. 이 접근 방식은 중앙에서 데이터를 관리하는 데 효과적이지만, 데이터 거버넌스에 대한 이러한 전통적인 접근 방식은 디지털 시대에 맞게 확장할 수 없습니다. 데이터에 액세스할 수 있는 사람이 너무 적습니다.

또 다른 접근 방식은 하향식 접근 방식을 통해 데이터 레이크에 대한 데이터 거버넌스를 설계하는 것입니다. 중앙 집중화된 모델과 비교할 때, 이 더 민첩한 모델은 여러 가지 장점이 있습니다. 예를 들어, 데이터 소스, 사용 사례 및 대상에 걸쳐 확장 가능하며 데이터를 수집하기 위해 특정 파일 구조가 필요하지 않습니다. 클라우드 인프라와 빅 데이터를 사용하여 이 접근 방식은 원시 데이터의 데이터 수집 프로세스를 크게 가속화할 수 있습니다.

데이터 레이크는 일반적으로 가장 데이터에 정통한 사람만 원시 데이터에 액세스할 수 있는 데이터 랩 접근 방식으로 시작합니다. 그런 다음 다른 사용자가 데이터를 사용하기 전에 데이터를 비즈니스 컨텍스트에 연결하기 위해 다른 거버넌스 계층이 필요합니다. 이와 같은 데이터 거버넌스 전략은 데이터 레이크가 모든 사용자에게 신뢰할 수 있는 단일 사실 소스를 지속적으로 제공하도록 보장합니다.

협업적 데이터 거버넌스 프로세스의 균형

조직의 여러 부서에서 점점 더 많은 사람들이 점점 더 많은 유입 데이터 소스를 가져오면서, 이상적인 거버넌스 데이터 레이크는 올바른 데이터 거버넌스 전략을 갖게 될 것입니다. 거버넌스에 대한 보다 협력적인 접근 방식을 미리 확립합니다. 이를 통해 가장 지식이 풍부한 비즈니스 사용자가 콘텐츠 제공자 및 큐레이터가 될 수 있습니다. 이 접근 방식의 경우 처음부터 팀으로서 데이터를 사용하는 것이 중요합니다. 그렇지 않으면 데이터 레이크에 쏟아지는 데이터의 신뢰성을 확인하는 데 필요한 작업량에 압도당할 수 있습니다.

신뢰할 수 있는 데이터 제공

이제 우리는 클라우드 데이터 마이그레이션의 초기 단계에서 데이터 거버넌스가 왜 그렇게 중요한지, 그리고 협력적 데이터 거버넌스 전략을 구현하는 것이 앞으로 나아갈 유일한 방법인 이유를 이해했습니다. 이제 Snowflake의 데이터 레이크에 적용하기 위한 권장 단계를 살펴보겠습니다.

1단계: 발견 및 청소

최신 패턴 인식, 데이터 프로파일링 및 데이터 품질 도구를 사용하여 데이터 세트 품질을 보장하는 데 필요한 사항을 포착하고 결정합니다. 데이터가 환경에 들어오자마자 적용하면 데이터에 무엇이 있는지 이해하고 더 의미 있게 만들 수 있습니다. 발견 및 정리 단계에는 다음 도구와 기능이 포함되어야 합니다.

  • 데이터 카탈로그화를 통한 자동 프로파일링. 각 핵심 데이터 세트에 자동으로 적용하여 프로세스를 체계화합니다. 자동으로 데이터를 프로파일링하고, 메타데이터를 생성하고 분류하여 데이터 발견을 용이하게 합니다.
  • 셀프 서비스 데이터 준비. 누구나 데이터 세트에 액세스한 다음 데이터를 정리, 정규화, 변환 또는 보강할 수 있도록 허용할 수 있습니다.
  • 데이터 품질 작업은 신뢰할 수 있는 데이터가 모든 데이터 운영자, 사용자 또는 애플리케이션에서 최종적으로 사용할 수 있도록 보장하기 위해 데이터 소스와 데이터 수명 주기부터 시작됩니다.
  • 셀프 서비스를 통한 보편성. 모든 플랫폼과 애플리케이션에서 역량을 제공하고 개발자부터 비즈니스 분석가까지 모든 사람에게 제공합니다.

2단계: 조직화 및 권한 부여

신뢰할 수 있는 데이터를 공유 가능한 환경으로 중앙 집중화하는 이점은 일단 실행 가능해지면 조직의 시간과 리소스를 절약할 수 있다는 것입니다. 이는 다음과 같은 방법으로 수행할 수 있습니다.

  • 데이터 카탈로그를 구성하고 기록된 데이터와 그 계통에 대한 제어를 제공하는 신뢰할 수 있고 보호되는 데이터의 단일 소스를 만듭니다. 이 정보에는 데이터가 어디에서 왔는지, 누가 데이터에 액세스할 수 있었는지, 다양한 데이터 세트 간의 관계가 무엇인지가 포함되어야 합니다. 데이터 계보 데이터 소스에서 최종 목적지까지 데이터 흐름을 추적하는 방법과 GDPR이나 CCPA와 같은 개인정보 보호 규정을 준수하는 방법에 대한 개요를 제공합니다.
  • 사람들이 데이터를 관리, 수정 및 보호할 수 있도록 지원합니다. 백오피스 기능을 지원하여 데이터 관리자를 지정하여 데이터를 유지 관리하고 데이터를 찾고 사용하기 쉽고 매력적으로 만듭니다. 준비를 정확하게 식별할 수 있는 사람에게 맡기고 민감한 데이터는 살펴봐야 하는 사람에게 맡깁니다.
  • 동료를 참여시켜 데이터를 개선합니다. 데이터 스튜어드십과 같은 협업적 데이터 관리 기능을 사용하면 모든 사람이 데이터 품질에 참여하는 조정된 워크플로 및 관리 활동을 만들 수 있습니다.

3단계: 자동화 및 활성화

모든 발견 및 정리된 데이터가 중앙에서 정리되고 주요 이해 관계자가 데이터를 공동으로 관리하여 신뢰할 수 있고 규정을 준수하도록 한 후에는 자동화 단계를 구현할 때입니다. 데이터 처리를 자동화하는 것은 확장 가능한 워크플로를 유지하는 데 필수적일 뿐만 아니라 반복적이고 지루하며 비생산적인 수동 작업을 없애는 데도 필수적입니다.

  • 머신 러닝을 사용하여 수정 및 중복 제거를 통해 데이터 파이프라인에 적용할 가장 좋은 다음 조치를 제안하거나 사용자로부터 암묵적인 지식을 수집하여 자동화를 통해 대규모로 실행합니다.
  • 자동 보호를 사용하거나 암호화합니다. 권한이 없는 사람에게 개인 식별 정보를 공개하지 않고 개발, 분석 등을 위해 조직 내에서 데이터를 선택적으로 공유합니다.
  • 모든 사람을 활성화하세요. 모든 사람을 위한 플랫폼을 구축하고, 이해관계자 커뮤니티를 위한 사용자 친화적인 애플리케이션을 활용하세요.
  • API 서비스를 사용하여 귀중한 데이터 세트를 데이터 레이크에서 사업 분야 애플리케이션으로 다시 가져옵니다. 데이터 거버넌스 노력으로 생성된 신뢰할 수 있는 데이터의 이점을 얻는 애플리케이션으로 데이터를 파이프라인하고 귀중한 인텔리전스를 사업 분야 애플리케이션으로 다시 공급합니다.

불가피하게 더 많은 조직이 디지털 변환 전략을 전개하고 클라우드 데이터 통합으로 이동함에 따라 데이터 거버넌스에 큰 관심을 갖게 될 것입니다. 앞서 언급했듯이 Snowflake는 형식이나 출처에 관계없이 빅 데이터 마이그레이션에서 빅 데이터 프로젝트에 이르기까지 모든 것을 수용할 수 있는 데이터 레이크를 구축할 수 있는 최신 클라우드 데이터 웨어하우스 솔루션을 제공합니다. 이는 모든 데이터를 단일 진실 소스에서 로드하고 액세스할 수 있다는 점을 고려할 때 큰 이점입니다.

즉, 강력한 데이터 거버넌스 전략이 마련되지 않는 한 데이터 레이크에 제공된 정보가 신뢰할 수 있다는 보장은 없습니다. 데이터 거버넌스는 적절한 발견 및 정리, 관리, 품질 및 셀프 서비스를 통해서만 진정으로 달성될 수 있습니다.

결론

저희 기사를 읽어주셔서 감사합니다. 이 기사가 스노우플레이크 데이터 거버넌스를 더 잘 이해하는 데 도움이 되기를 바랍니다. 스노우플레이크 데이터 거버넌스에 대해 더 자세히 알고 싶으시다면 방문하시기를 권장합니다. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 현재 시중에 판매되고 있는 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고, 데이터 계보를 얻고, 시각적으로 표시할 수 있을 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적으로 표시할 수 있도록 해줍니다. (2022년 6월 21일 Ryan이 게시)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment