데이터 계보에 대해 알아야 할 모든 것
무엇인가요 데이터 계보? 데이터 계보의 특징은 무엇인가? 데이터 계보의 용도는 무엇인가? 데이터 계보 수집 방법은 무엇인가? 위의 질문에 대한 답을 찾고 있다면, 당신은 올바른 곳에 왔습니다. 이 글에서는 다음에 대해 자세히 알아보겠습니다. 데이터 계보에 대해 알아야 할 모든 것.

데이터 계보에 대해 알아야 할 모든 것
데이터 계보에 대해 알아야 할 모든 것 – 데이터 계보란 무엇입니까?
데이터 생성, 처리 및 통합, 유통, 최종 소멸의 전체 과정에서 데이터 간에는 자연스럽게 관계가 형성됩니다. 이러한 데이터 간의 관계는 인간 사회에서 유사한 관계를 바탕으로 표현되는데, 이를 데이터 계보 관계라고 합니다. 데이터 계보는 데이터 계보의 구성 요소 중 하나입니다. 메타데이터.
데이터 소스에서 현재 테이블까지의 테이블과 필드의 계보 경로를 분석하고, 계보 필드 간의 관계가 충족되는지 여부, 우려 사항의 데이터 일관성 및 테이블 디자인의 합리성을 분석하는 데 사용할 수 있습니다. 업스트림 데이터의 변경이 다운스트림 데이터에 미치는 영향을 분석하고 다운스트림 데이터의 변경이 발생할 때 업스트림 문제의 근원을 추적하는 데 사용할 수 있습니다.
데이터 계보에 대해 알아야 할 모든 것 – 데이터 계보의 특징
- 귀속: 일반적으로 특정 데이터는 특정 조직이나 개인에 속하며, 데이터에는 귀속이 있습니다.
- 다중 소스: 동일한 데이터는 여러 소스를 가질 수 있습니다. 하나의 데이터는 여러 데이터를 처리하여 생성될 수 있으며, 이 처리 과정은 여러 개일 수 있습니다.
- 추적성: 데이터 계보 관계는 데이터의 수명 주기를 반영하며, 추적성을 통해 생성부터 소멸까지 데이터의 전체 프로세스를 반영합니다.
- 계층적: 데이터 계보 관계는 계층적입니다. 데이터의 분류, 유도, 요약과 같은 데이터의 설명 정보는 새로운 데이터를 형성하고, 다양한 정도의 설명 정보는 데이터의 레벨을 형성합니다.
데이터 계보에 대해 알아야 할 모든 것 – 데이터 계보의 용도
- 데이터 추적성: 데이터 계보 관계는 데이터의 내부와 외부를 반영하여 데이터 출처를 추적하고 데이터 처리 프로세스를 추적하는 데 도움이 될 수 있습니다. 데이터가 비정상적일 경우 비정상의 원인을 추적하고 적절한 수준으로 위험을 제어하는 것이 필요합니다. 특히 기업의 발전과 함께 많은 데이터 소스와 다양한 수준의 품질이 있어 필연적으로 데이터 결과에 영향을 미칩니다. 따라서 데이터 추적 능력은 매우 귀중합니다.
- 영향 분석: 점점 더 많은 데이터 애플리케이션이 등장하면서 데이터 흐름 체인이 점점 더 길어지고 있습니다. 소스의 핵심 사업이 변경되면 다운스트림 분석 애플리케이션은 동기화 상태를 유지해야 합니다. 영향 분석이 없으면 각 데이터 서비스에 비정상적인 액세스가 발생합니다. 이는 종종 영향 평가를 용이하게 하기 위한 개발 부문의 핵심 요구 사항입니다.
- 데이터 가치: 데이터의 가치를 측정하는 방법은 매우 어려운 문제입니다. 데이터의 가치를 평가하려면 기초가 필요합니다. 데이터 계보는 평가를 용이하게 하기 위해 여러 측면에서 참조 데이터를 제공합니다. 데이터 대상자: 데이터 수요자가 많을수록 데이터의 가치는 커집니다.
업데이트 크기: 업데이트되는 데이터의 양이 많을수록 데이터의 가치는 더욱 커집니다.
업데이트 빈도: 업데이트가 빈번할수록 데이터의 가치는 더욱 커집니다. - 품질 평가: 이것은 다음의 요구 사항입니다. 데이터 분석 응용 프로그램이며 최종 결과 데이터의 품질을 제어하는 것이 필요합니다. 데이터 문제가 발견되면 데이터 소스를 추가로 추적하고 품질 문제의 원인을 분석한 다음 해결해야 합니다. 데이터 계통도에서 데이터 처리 프로세스를 쉽게 얻을 수 있으며 가능한 품질 문제를 분석할 수 있습니다.
- 수명 주기: 데이터 계통을 통해 데이터의 전체 수명 주기를 직관적으로 얻을 수 있습니다. 가치가 낮은 데이터의 경우 계층화, 보관 또는 심지어 파괴를 고려하세요.
- 규정 준수 요구 사항: 이는 종종 상위 경영진의 요구 사항입니다. 규정 준수를 위해 모든 데이터 흐름 지점과 소스는 규제해야 할 핵심 지점입니다. 따라서 데이터 간의 관계에 대한 포괄적인 이해가 필요합니다.
- 보안 제어: 이는 종종 데이터가 어떻게 사용되는지 이해하기 위한 보안 준수 요구 사항입니다. 대상 고객은 누구입니까? 이러한 모든 정보는 데이터 계보에서 제공됩니다. 또한 권한 관리(테이블 수준, 필드 수준 권한 부여)의 기반을 제공하여 더 높은 수준에서 데이터 보안을 보장합니다. 메타데이터의 보안 식별자(예: 어떤 데이터를 감작 해제해야 하는지 등)와 결합하여 전체 도메인의 보안 관리 및 제어를 수행할 수 있습니다.
- 아키텍처 설계: 데이터 계보는 데이터 처리 관점에서 데이터를 이해할 수 있는 가능성을 제공합니다. 어떤 시나리오에서는 이것이 완벽하게 타당합니다. 예를 들어, 특정 이전 프로젝트가 종료되고 새 프로젝트가 인수해야 할 때 데이터 흐름 매핑 테이블이 없으면 구성하는 데 많은 시간이 걸리고 마이그레이션의 무결성과 정확성을 보장하기 어렵습니다.
- 데이터 자산: 회사 경영진의 경우, 데이터 계보를 통해 전체 데이터 흐름을 이해할 수 있습니다. 이는 회사의 데이터 자산 전략 수립에 큰 도움이 됩니다.
- R&D 요구 사항: 데이터 R&D 인력의 경우 데이터 계보가 있으면 데이터 처리 논리를 찾아 이해하고 문제를 해결하는 데 편리합니다.
데이터 계보에 대해 알아야 할 모든 것 – 데이터 계보 수집 방법
- 자동 파싱: 자동 파싱은 현재 주요 수집 방법입니다. 구체적인 방법은 SQL 문, 저장 프로시저, ETL 프로시저 및 기타 파일을 파싱하는 것입니다. 복잡한 코드와 애플리케이션 환경 및 기타 이유로 인해 국제 제조업체의 경험에 따르면 자동 분석은 70-95%의 엔터프라이즈 데이터를 포괄할 수 있지만 현재 100%를 달성하는 것은 불가능합니다.
- 시스템 추적: 즉, 데이터 처리 흐름 과정에서 데이터 처리 프로그램은 데이터 계보 정보를 보내는 것을 담당합니다. 예를 들어, 주석 섹션에서 계보에 대한 설명을 추가합니다. 이 접근 방식의 장점은 수집이 정확하고 시기 적절하며 세분화된 지원이라는 것입니다. 물론 단점은 방해가 된다는 것입니다. 그러나 회사가 통합 처리 플랫폼을 채택하는 경우 이 방법을 적극 권장합니다.
- 머신 러닝: 이 방법은 데이터 집합 간의 종속성을 기반으로 데이터의 유사성을 계산합니다. 이 방법의 장점은 도구와 비즈니스에 대한 의존성이 없다는 것이고, 단점은 정확도 비율을 수동으로 확인해야 한다는 것입니다.
- 수동 수집: 마지막 방법은 R&D에서 수동으로 데이터 계통을 구성하는 "보편적인" 방법입니다.
데이터 계보에 대해 알아야 할 모든 것 – 데이터 계보의 적용
데이터 계보의 능력에 따라 일반적으로 다음과 같은 응용 프로그램이 사용됩니다.
- 테이블/필드를 지정하여 해당 다단계 객체를 추적합니다.
- 테이블/필드를 지정하여 해당 테이블/필드의 이전 다단계 객체를 연관시킵니다.
- 단일 객체에 국한되지 않고 더 큰 규모(예: 프로젝트 내부 등)에서 전체 데이터 흐름을 이해할 수 있습니다. 이는 핫 객체 분석, 데이터 정리 등에 적합합니다.
- 즉, "운영" 관점에서 시작하여 전방 및 후방 운영을 분석합니다. 이는 문제 해결, 품질 분석 등에 적합합니다.
- 우리의 일반적인 혈통 감각 외에도 보다 일반화된 혈통이 있습니다. 객체 간에는 데이터 수준 관계가 있을 뿐만 아니라 참조 수준 관계, 즉 테이블, 뷰, 모델, 보고서, 작업 등을 포함하되 이에 국한되지 않는 객체 간의 연관된 사용이 있습니다. 이는 데이터 가치 평가, 데이터 자산 관리 등에 의미가 있습니다.
- 전통적인 데이터 탐색의 경우, 이는 종종 데이터 계층 정의에 따라 완료됩니다. 데이터 계보가 있는 경우, 또 다른 탐색 방법, 즉 데이터 처리 논리에 따른 단계별 탐색이 제공됩니다.
결론
저희 기사를 읽어주셔서 감사합니다. 도움이 되셨으면 좋겠습니다. 데이터 계보에 대해 더 자세히 알고 싶으시다면 방문하시기를 권장합니다. Gudu SQLFlow 자세한 내용은.
그 중 하나로서 최상의 데이터 계보 도구 현재 시중에 판매되고 있는 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고, 데이터 계보를 얻고, 시각적 표시를 수행할 수 있을 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적 표시를 수행할 수 있도록 합니다.Ryan이 2022년 8월 29일에 게시)
3 Comments
Leave A Comment
이 글을 재미있게 읽으셨다면 아래의 다른 기사도 읽어보세요.
[…] 오늘날 시중에 나와 있는 도구 중 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적으로 표시할 수 있을 뿐만 아니라 사용자가 CSV 형식으로 데이터 계보를 제공하고 […]
[…] 오늘날 시중에 나와 있는 도구 중 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적으로 표시할 수 있을 뿐만 아니라 사용자가 CSV 형식으로 데이터 계보를 제공하고 […]
[…] 저희 기사를 읽어주셔서 감사합니다. 재미있게 읽으셨기를 바랍니다. 데이터 계보에 대해 알고 싶으시다면 Gudu SQLFlow를 방문하여 자세한 정보를 얻으시기 바랍니다. 최고의 데이터 […]