Marquez: 오픈 소스 메타데이터 관리 도구 - 데이터 계보 시각화: 복잡한 SQL 쿼리 분석

Marquez: 오픈소스 메타데이터 관리 도구

Marquez는 데이터 생태계 메타데이터의 수집, 집계 및 시각화를 위한 오픈소스 메타데이터 서비스입니다. 데이터셋 사용 및 생성을 관리하고, 작업 런타임 및 데이터셋 접근 빈도에 대한 글로벌 가시성을 제공하며, 중앙 집중식 데이터셋 수명 주기 관리 등의 기능을 제공합니다. WeWork는 Marquez를 출시하고 오픈소스로 공개했습니다.

오픈소스 메타데이터 관리 도구

마르케스의 특징:

1. 중앙화된 메타데이터 관리 지원:

데이터 계보
데이터 거버넌스
데이터 건강
데이터 발견 및 탐색

2. 정확한 고차원 데이터 모델:

일자리
데이터 세트

3. 지정된 메타데이터 API를 통해 메타데이터를 쉽게 수집합니다.

데이터 세트 데이터에 주의하세요
작업 및 데이터 세트 소유권 강화
최소한의 의존성을 갖춘 간단한 작동 및 설계

4. RESTful API는 다른 시스템과의 복잡한 통합을 지원합니다.

공기 흐름
아문센
다그스터
조직 내 팀 구성원이 서로의 데이터 세트를 원활하게 공유하고, 자신감을 가지고 안전하게 활용할 수 있는 건강한 데이터 생태계를 촉진하도록 설계되었습니다.

왜 마르케스를 선택해야 하나요?

Marquez는 전체 데이터 세트에 걸쳐 매우 유연한 데이터 계보 쿼리를 지원하는 동시에, 생성 및 사용 데이터 세트 간의 작업과 해당(업스트림 및 다운스트림) 종속성을 안정적이고 효율적으로 상관관계를 분석합니다.

마르케스의 디자인

Marquez는 모듈형 시스템을 가능하게 합니다. 메타데이터 관리 확장성과 확장성이 뛰어난 탈플랫폼 솔루션입니다. 다음 시스템으로 구성됩니다.

메타데이터 저장소: 전체 작업 실행 내역과 작업 수준 통계(예: 총 실행 시간, 평균 실행 시간, 성공/실패 등)를 포함하여 모든 작업 및 데이터 세트 메타데이터를 저장합니다.
메타데이터 API: RESTful API를 사용하면 다양한 클라이언트가 데이터 세트의 생성 및 소비와 관련된 메타데이터를 수집할 수 있습니다.
메타데이터 UI: 데이터세트 검색, 여러 데이터세트 연결 및 종속성 그래프 탐색을 위한 UI입니다.

오픈소스 메타데이터 관리 도구

다양한 데이터 처리 애플리케이션의 도입을 용이하게 하고 메타데이터 수집을 설계의 핵심 요구 사항으로 삼을 수 있도록, Marquez는 메타데이터 API를 구현하는 언어별 클라이언트를 제공합니다. 초기 릴리스에서는 Java와 Python을 지원합니다.

메타데이터 API는 데이터세트 생성 및 사용에 대한 정보를 기록하기 위한 추상화입니다. 지연 시간이 짧고 가용성이 높은 상태 비저장 계층으로, 영구 메타데이터와 컬렉션 계보 정보를 캡슐화합니다. 이 API를 통해 클라이언트는 메타데이터 저장소에서 데이터세트 정보를 수집 및/또는 가져올 수 있습니다.

메타데이터는 메타데이터 UI를 통해 풍부한 탐색적 쿼리를 위해 수집, 구성 및 저장되어야 합니다. 메타데이터 저장소는 메타데이터 API를 통해 압축 및 정리된 데이터 세트 정보의 추상 카탈로그입니다.

마르케스의 데이터 모델

마르케즈의 데이터 모델은 데이터세트의 불변성과 적시 처리(Just-in-Time processing)를 강조합니다. 데이터세트는 작업 실행을 통해 생성되며, 그 값은 중요합니다. 작업 실행은 버전 코드와 연결되어 하나 이상의 불변 버전 출력을 생성합니다. 데이터세트의 변경 사항은 경량 API 호출을 통해 작업 실행의 여러 지점에서 기록되며, 여기에는 실행 자체의 성공 또는 실패도 포함됩니다.

아래 그림은 여러 번의 실행에 걸쳐 주어진 작업에 대해 수집되고 카탈로그화된 메타데이터와 입력 데이터 세트에 적용된 시계열 변경 사항을 보여줍니다.

오픈소스 메타데이터 관리 도구

작업: 작업에는 소유자, 고유 이름, 버전 및 선택적 설명이 포함됩니다. 작업은 하나 이상의 버전 입력을 종속성으로 정의하고 하나 이상의 버전 출력을 아티팩트로 정의합니다. 작업은 입력 데이터 세트만 정의하거나 출력 데이터 세트만 정의할 수 있습니다.
작업 버전: 읽기 전용 불변 버전의 작업으로, 고유하게 참조되는 링크가 있으며, 소스 코드 재생성을 보장하기 위해 저장소에 인코딩되어 있습니다. 작업 버전은 하나 이상의 입력 및 출력 데이터 세트를 작업 정의에 연결합니다. 다양한 작업을 통한 데이터 흐름은 계보 정보를 문서화하는 데 중요합니다. 이러한 연결은 소스 링크를 분류하고 강력한 시각적 데이터 흐름을 제공합니다.
데이터셋: 데이터셋은 소유자, 고유 이름, 스키마, 버전, 그리고 선택적인 설명을 갖습니다. 데이터셋은 데이터 소스에 포함되어 있습니다. 데이터 소스는 물리적 데이터셋을 각각의 물리적 소스로 그룹화할 수 있습니다. 각 데이터셋에는 Marquez가 관리하는 과거 변경 집합에 대한 버전 포인터가 있습니다. 데이터셋 변경 사항이 Marquez에 커밋되면 고유 버전 ID가 생성되어 저장된 후 현재 버전으로 설정되고, 포인터는 내부적으로 업데이트됩니다.
데이터셋 버전: 데이터셋의 읽기 전용 불변 버전입니다. 각 버전은 독립적으로 읽을 수 있으며, 고유 ID를 가지며, 특정 시점의 상태를 유지하기 위해 데이터셋의 변경 사항에 매핑됩니다. 최신 버전 ID는 데이터셋의 변경 사항이 기록될 때만 업데이트됩니다. 고유한 버전 ID를 계산하기 위해 Marquez는 기본 데이터 소스의 데이터셋에 해당하는 속성 집합에 버전 관리 기능을 적용합니다.

결론

저희 글을 읽어주셔서 감사합니다. 이 글이 오픈소스 메타데이터 관리 도구인 Marquez를 더 잘 이해하는 데 도움이 되기를 바랍니다. 메타데이터 관리에 대해 더 자세히 알아보려면 다음 웹사이트를 방문하세요. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 현재 시중에 판매되고 있는 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고, 데이터 계보를 얻고, 시각적으로 표시할 수 있을 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적으로 표시할 수 있도록 해줍니다. (2022년 6월 28일 Ryan 게시)