데이터 계보 기술, 모범 사례 및 도구
무엇인가요 데이터 계보? 무엇입니까? 데이터 계보 기술, 모범 사례, 도구? 이 글에서는 이러한 질문에 하나씩 답하겠습니다.
데이터 계보는 데이터가 기업의 IT 시스템을 통과하는 과정을 문서화하여 데이터가 어떻게 시스템 간에 이동하고 프로세스에서 다양한 용도로 변환되는지 보여줍니다. 메타데이터 (데이터에 대한 데이터) 최종 사용자와 데이터 관리 전문가가 데이터 자산의 기록을 추적하고 해당 데이터의 비즈니스적 중요성이나 기술적 속성에 대한 정보를 얻을 수 있도록 합니다.
예를 들어, 데이터 계보 레코드는 도움이 될 수 있습니다. 데이터 과학자, 다른 데이터 분석가, 그리고 비즈니스 사용자는 자신이 사용하는 데이터를 이해하고 그것이 정보 요구 사항과 관련이 있는지 확인합니다. 데이터 계보는 또한 중요한 역할을 합니다. 데이터 거버넌스, 주인 데이터 관리및 규정 준수 프로그램. 이러한 이니셔티브의 다른 사항들 중에서, 그것은 두 가지 핵심 데이터 거버넌스 절차를 간소화합니다: 근본 원인 분석 데이터 품질 문제점과 데이터 세트 변경의 영향.

데이터 계보 기술, 모범 사례 및 도구
데이터 계보 정보는 주로 운영 체제(데이터 처리 시)에서 수집되며, 데이터웨어하우스 그리고 데이터 레이크 – BI 및 분석 애플리케이션을 위해 데이터 세트가 저장되는 곳입니다. 자세한 설명서 외에도 데이터 흐름 다이어그램과 다이어그램을 만들어 비즈니스 프로세스에 매핑된 데이터 계보를 시각적으로 볼 수 있습니다. 최종 사용자가 계보 정보에 쉽게 액세스할 수 있도록 종종 통합됩니다. 데이터 카탈로그데이터 자산과 관련 메타데이터를 나열하는 사이트입니다.
데이터 계보가 중요한 이유는 무엇입니까?
데이터 계보에 대한 정보는 데이터 관리 및 분석 노력에 중요합니다. 계보 세부 정보는 기업이 데이터를 효과적으로 관리하고 사용하는 데 도움이 됩니다. 이러한 세부 정보에 액세스하지 못하면 기업이 데이터의 잠재적인 비즈니스 가치를 충분히 활용하기 어려울 것입니다.
다음은 다음과 같습니다 데이터 계보가 제공하는 이점:
보다 정확하고 유용한 분석. 분석 팀과 비즈니스 사용자에게 데이터가 어디에서 왔는지, 무엇을 의미하는지 알려줌으로써 데이터 계보는 BI 및 데이터 과학에 필요한 데이터를 더 빨리 찾을 수 있는 능력을 향상시킵니다. 이를 통해 더 나은 분석 결과가 도출되고 데이터 분석 노력이 비즈니스 의사 결정을 이끌어내는 의미 있는 정보를 제공할 가능성이 높아집니다.
더 나은 데이터 거버넌스. 데이터 계보는 또한 데이터를 추적하고 거버넌스 프로세스의 다른 핵심 부분을 수행하는 데 도움이 됩니다. 데이터 거버넌스 관리자와 팀원이 데이터가 유효하고, 깨끗하고, 일관되고, 적절하게 보호, 관리 및 사용되는지 확인하는 데 도움이 됩니다.
더 엄격한 데이터 보안 및 개인정보 보호. 기업은 데이터 계보 정보를 사용하여 특히 강력한 보안이 필요한 민감한 데이터를 식별할 수 있습니다. 또한 보안 및 데이터 개인정보 보호 정책에 따라 다양한 수준의 사용자 액세스를 설정하고 기업 위험 관리 전략의 일환으로 잠재적인 데이터 위험을 평가하는 데 사용할 수도 있습니다.
규정 준수를 개선합니다. 데이터 계보는 더 나은 보안 보호를 제공하여 기업이 데이터 개인 정보 보호법 및 기타 규정을 준수하도록 도울 수 있습니다. 잘 문서화된 데이터 계보는 또한 내부 규정 준수 감사 및 규정 준수 수준 보고를 수행하기 쉽게 해줍니다.
데이터 관리를 간소화합니다. 데이터 품질 개선 외에도 데이터 계보는 다양한 다른 데이터 관리 작업을 용이하게 합니다. 예를 들어 데이터 마이그레이션 관리, 데이터 사일로 분해, 데이터 세트의 갭 감지 및 해결 등이 있습니다.
데이터 계보, 데이터 분류 및 데이터 출처
데이터 계보는 또한 데이터 분류와 데이터 출처의 두 가지 데이터 관리 프로세스와 긴밀하게 관련되어 있습니다. 그것들이 무엇이고 데이터 계보와 어떻게 다르고 관련이 있는지 살펴보겠습니다.
- 데이터 분류. 여기에는 주로 보안 및 규정 준수 목적으로 특성에 따라 데이터를 여러 범주로 할당하는 것이 포함됩니다. 분류는 개인, 독점, 기밀 또는 공개 정보와 같이 민감성에 따라 데이터를 분류하는 데 사용됩니다. 이를 통해 더 높은 수준의 보안과 더 엄격한 액세스 제어가 필요한 데이터 세트와 그렇지 않은 데이터 세트를 구분할 수 있습니다. 데이터 계보는 데이터 세트를 분류하는 데 도움이 되는 정보를 제공합니다.
- 데이터 출처. 때로는 데이터 계보와 동의어로 간주되거나, 데이터 출처는 소스 시스템과 생성 방법을 포함하여 데이터의 출처에 대한 보다 좁은 초점으로 간주됩니다. 이 경우 데이터 계보와 데이터 출처는 함께 작동할 수 있으며, 후자는 데이터가 어디에서 왔고 무엇을 의미하는지에 대한 높은 수준의 문서를 제공합니다.
데이터 계보 및 데이터 거버넌스
데이터 거버넌스의 본질은 기업 데이터 정책을 만들고 사람들이 해당 정책을 준수하도록 하는 것입니다. 이러한 정책은 의도를 포괄할 수 있으며 데이터 보호, 검증 및 사용에 대한 지침을 포함할 수 있습니다. 데이터 거버넌스 관리자 및 데이터 관리자 비즈니스 사용자의 데이터 요구 사항을 수집하고 의사 결정 데이터 거버넌스 위원회 구성원과 협력하여 공통 데이터 정의에 동의하고, 데이터 품질 측정 항목을 지정하고, 정책 및 관련 절차를 개발해야 합니다.
그러나 데이터 거버넌스 정책을 정의하고 배포하는 사이에는 갭이 있으며, 이 갭을 메우는 것은 엄청난 과제입니다. 여기서 데이터 계보가 등장합니다. 데이터 소스와 흐름을 문서화하여 거버넌스 팀이 데이터가 시스템을 통해 어떻게 이동하고 어떻게 수정되고 사용되는지 모니터링할 수 있습니다. 계보 정보는 적절한 데이터 보안 및 액세스 제어가 제자리에 있는지 확인하고 거버넌스 정책에 따라 데이터를 저장, 유지 관리 및 사용하는 데 도움이 됩니다.
데이터 계보는 거버넌스와 관련된 특정 작업을 간소화할 수도 있습니다. 예를 들어, 데이터 오류가 시스템에 도입된 위치를 확인할 방법이 없다면 데이터 관리자와 데이터 품질 분석가가 오류를 식별하고 수정하기 어려울 수 있습니다. 이는 다음과 같은 결과를 초래합니다. 데이터 결함이 발견되지 않으면 기업은 일관되지 않거나 부정확한 분석 결과로 어려움을 겪을 수 있으며, 이는 잘못된 비즈니스 의사 결정으로 이어질 수 있습니다.
데이터 오류의 근본 원인 분석에서 계보 기록은 데이터 세트가 거친 처리 단계의 순서에 대한 가시성을 제공합니다. 기업은 각 단계에서 품질 수준을 확인하여 데이터 오류의 출처를 파악할 수 있습니다. 오류가 처음 발견된 곳에서 거꾸로 작업하여 데이터 관리자는 데이터가 이전 기대치를 충족하는지 또는 당시에 오류가 포함되었는지 확인할 수 있습니다. 입력 시 데이터가 규정을 준수하지만 종료 시 결함이 있는 단계를 정확히 파악함으로써 데이터 거버넌스 프로그램에 참여하는 직원은 잘못된 데이터를 수정할 뿐만 아니라 오류의 근본 원인을 제거할 수 있습니다.
오늘날 점점 더 역동적인 데이터 환경에서 흔히 발생하는 문제인 소스 데이터 형식 및 구조의 변경으로 인해 발생하는 문제를 파악하기 위한 영향 분석을 수행할 때도 데이터 계보는 유용합니다.
데이터가 변경되면 다운스트림에서 의도치 않은 결과가 발생할 수 있습니다. 데이터 관리자는 데이터 생성 또는 수집 지점에서 작업하여 데이터 계보 문서를 사용하여 데이터 종속성을 추적하고 변경의 영향을 받는 처리 단계를 식별할 수 있습니다. 그런 다음 이러한 단계를 재설계하여 변경 사항을 수용하고 시스템 전체에서 데이터가 일관되게 유지되도록 할 수 있습니다.
주요 데이터 계보 기술
기업은 다양한 기술을 사용하여 데이터 계보 정보를 수집하고 기록할 수 있습니다. 이러한 기술은 반드시 상호 배타적이지 않으며 기업은 애플리케이션 요구 사항과 데이터 환경의 특성에 따라 두 개 이상의 계보 기술을 사용할 수 있습니다. 사용 가능한 방법은 다음과 같습니다.

데이터 계보 기술, 모범 사례 및 도구
주요 데이터 계보 기술 – 1. 데이터 태그. 메타데이터를 검토하여 레이블을 데이터 세트에 적용하여 데이터 계보 목적으로 설명하고 특성화하는 데 도움이 될 수 있습니다. 태그 지정은 데이터 관리자, 다른 데이터 거버넌스 팀원 및 최종 사용자가 수동으로 수행하거나 소프트웨어에서 자동으로 수행할 수 있습니다. 예를 들어, 데이터 계보 도구 데이터 거버넌스 소프트웨어에 내장된 계보 기능에는 종종 사용자가 데이터 세트에 레이블을 지정하기 위해 실행할 수 있는 자동화된 알고리즘이 포함됩니다.
주요 데이터 계보 기술 – 2. 패턴 기반 계보. 이 접근 방식은 유사한 데이터 요소, 행 및 열과 같은 여러 데이터 세트에서 패턴을 찾습니다. 이러한 패턴이 있다는 것은 데이터 세트가 서로 관련되어 있고 데이터 흐름의 일부일 수 있음을 나타내는 반면, 데이터 값 또는 속성의 차이는 데이터가 한 시스템에서 다른 시스템으로 이동하면서 변환되었음을 나타냅니다. 데이터 변환 그러면 데이터 흐름을 데이터 계보 레코드의 일부로 기록할 수 있습니다.
주요 데이터 계보 기술 – 3. 파스 기반 계보. 이 경우 데이터 계보 도구는 데이터 변환 논리, 런타임 로그 파일, 데이터 통합 워크플로 및 기타 데이터 처리 코드를 파싱하여 계보 정보를 식별하고 추출합니다. 파싱은 다양한 시스템에서 데이터 계보를 추적하는 종단 간 접근 방식을 제공하며 스키마 기반 계보보다 정확할 수 있지만 더 복잡할 수도 있습니다.
주요 데이터 계보 기술 – 4. 또 다른 접근 방식은 완전히 수동적입니다. 비즈니스 사용자, BI 분석가, 데이터 과학자, 데이터 관리자, 데이터 통합 개발자 및 기타 직원을 인터뷰하여 데이터가 시스템을 통해 어떻게 이동하고 사용 및 수정되는지 이해합니다. 수집된 정보는 데이터 흐름과 변환을 매핑하는 데 사용할 수 있으며, 아마도 더 자동화된 기술을 배포하기 전에 데이터 계보 계획을 위한 시작점으로 사용할 수 있습니다.
데이터 계보 모범 사례
데이터 계보 프로세스를 원활하게 유지하고 데이터 세트에 대한 정확하고 유용한 정보를 제공하는 데 도움이 되는 몇 가지 모범 사례는 다음과 같습니다.
- 처음부터 기업 임원과 사용자를 참여시킵니다. 데이터 거버넌스 프로그램은 성공하기 위해 임원의 지원과 참여가 필요하며, 이는 데이터 계보에도 동일하게 적용됩니다. 고위 경영진의 지원에 대한 액세스는 승인 및 자금 조달에 대한 요구 사항입니다. 또한 기업 관리자와 직원은 데이터 관리 팀이 비즈니스 프로세스에서 데이터가 어떻게 사용되는지 완전히 이해하고 데이터 계보 정보의 관련성과 유효성을 검증하도록 참여해야 합니다.
- 비즈니스 및 기술 데이터 계보를 문서화합니다. 비즈니스 계보는 데이터가 어디에서 왔는지, 어떻게 흐르는지, 그리고 비즈니스 맥락에 세심한 주의를 기울입니다. 기술 계보는 데이터 변환, 통합 및 파이프라인에 대한 세부 정보와 테이블, 열 및 쿼리 수준 계보 뷰의 조합을 제공합니다. 이 두 가지 정보를 수집하면 한편으로는 비즈니스 사용자와 분석 팀에, 다른 한편으로는 데이터 아키텍트, 데이터 모델러, 데이터 품질 분석가 및 기타 IT 전문가에게 유용한 정보를 제공합니다.
- 데이터 계보를 실제 비즈니스 및 IT 요구 사항과 연관시킵니다. 데이터 계보는 학문적 연습이 되어서는 안 됩니다. 예상되는 이점을 창출하려면 더 나은 비즈니스 의사 결정 및 전략, 더 효과적인 데이터 거버넌스, 향상된 데이터 품질 및 기타 데이터 관리 이점을 가능하게 하는 데 도움이 되어야 합니다. 그렇지 않으면 낭비되는 투자가 될 가능성이 큽니다.
- 데이터 계보에 대한 기업 전체 접근 방식을 구축합니다. 또한 특정 데이터 세트에 대한 데이터 계보 프로세스에 집중하는 것은 그다지 유용하지 않습니다. 실제로 성과를 거두려면 계보 노력을 지원하는 단일 메타데이터 저장소와 함께 모든 기업 데이터를 포함하는 포괄적인 노력이 되어야 합니다.
- 내장된 데이터 계보 정보가 포함된 데이터 카탈로그를 만듭니다. 관련 데이터를 찾고 이해하는 것은 종종 BI 및 분석 사용자에게 큰 과제입니다. 데이터 카탈로그를 구축함으로써 데이터 관리 팀은 계보 정보도 포함하는 사용 가능한 데이터 자산의 인벤토리를 제공할 수 있습니다.
데이터 계보 도구에서 찾아야 할 것은 무엇입니까?
수동으로 메타데이터를 수집하고 데이터 계통을 문서화하려면 상당한 투자가 필요합니다. 자원. 또한 오류가 발생하기 쉽고 큰 문제를 일으킬 수 있습니다. 특히 기업이 비즈니스 운영을 추진하기 위해 데이터 분석에 점점 더 의존함에 따라 더욱 그렇습니다. 따라서 데이터 거버넌스를 더 잘 수행하려면 데이터 계보 표현을 관리하고 이를 기업 전체에 자동으로 매핑하는 도구를 찾아야 합니다.
가능한 구매에 대한 기술 평가 프로세스를 진행하기로 결정한 경우 다음을 수행할 수 있는 데이터 계보 도구를 찾아야 합니다.
- 다양한 데이터 소스와 데이터 제품에 로컬로 접근하여, 여기에 포함된 메타데이터를 조사하고 데이터 거버넌스를 위해 이를 수집합니다. 여기에는 인공 지능과 머신 러닝 알고리즘을 점점 더 많이 활용합니다.
- 수집된 메타데이터를 중앙 저장소에 집계합니다.
- 데이터 유형을 추론하고 참조 데이터의 일반적인 용도를 다른 시스템의 데이터 요소와 일치시킵니다.
- 최종 사용자에게 통합된 메타데이터의 간소화된 프레젠테이션을 제공하고, 메타데이터 설명의 유효성을 검증하기 위한 협업을 지원합니다.
- 조직의 시스템을 통해 데이터가 흐르는 방식에 대한 종단 간 매핑
- 데이터 계통의 시각적 표현을 생성합니다.
- 개발자가 계보 기록을 쿼리할 수 있는 애플리케이션을 구축할 수 있도록 API를 제공합니다.
- 다양한 처리 단계에서의 용도에 맞게 데이터 요소 이름을 매핑하는 역색인을 만듭니다.
- 데이터 소스 지점부터 다운스트림 대상 지점까지 데이터 흐름을 빠르게 추적할 수 있는 검색 기능을 제공합니다.
- 사용자가 정방향 및 역방향 데이터 흐름을 모니터링할 수 있습니다.
결론
저희 기사를 읽어주셔서 감사합니다. 이 기사가 데이터 계보 기술, 모범 사례 및 도구에 대한 더 나은 이해를 얻는 데 도움이 되기를 바랍니다. 데이터 계보 기술 및 도구에 대해 자세히 알아보려면 다음을 방문하시기 바랍니다. Gudu SQLFlow 자세한 내용은.
현재 시중에서 판매되는 최고의 데이터 계보 도구 중 하나인 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적으로 표시할 수 있을 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적으로 표시할 수 있도록 해줍니다. (2022년 8월 8일 Ryan이 게시)
이 글을 재미있게 읽으셨다면 아래의 다른 기사도 읽어보세요.