2022년에 고려해야 할 최고의 오픈소스 데이터 계보 도구 5가지

의 본질 데이터 거버넌스 기업이 데이터 정책을 수립하고 사람들이 해당 정책을 준수할 수 있도록 지원하는 것입니다. 이러한 정책은 데이터 보호, 검증 및 사용 지침을 포함한 다양한 데이터 관련 프로세스를 다룹니다. 데이터 관리자 비즈니스 사용자로부터 데이터 요구 사항을 요청하고 데이터 거버넌스 위원회 구성원과 협력하여 공통 데이터 정의에 동의하고 지정해야 합니다. 데이터 품질 측정 항목을 정의하고, 관련 정책을 구체화하며, 규정 준수를 측정하는 방법을 개발합니다.

최고의 오픈소스 데이터 계보 도구

최고의 오픈소스 데이터 계보 도구

그러나 데이터 거버넌스 정책 정의와 구현 사이에 다리를 놓는 것은 종종 어려운 과제입니다. 이러한 전략의 목적은 비즈니스 워크플로 전반에서 데이터 자산의 품질을 제어하고 모니터링하는 것이지만, 핵심 데이터 품질 관리 책임을 맡은 데이터 관리자는 적절한 교육을 받지 못하거나 자격을 갖추지 못한 경우가 많습니다. 바로 이 부분이 데이터 계보 도구 들어옵니다. 이 기사에서는 소개하겠습니다. 최고의 오픈소스 데이터 계보 도구 5가지 2022년 시장에서 발견될 수 있습니다.

최고의 오픈소스 데이터 계보 도구 – 1. Tokern

토큰 개요:

Tokern은 클라우드를 위해 구축되었습니다. 데이터웨어하우스 그리고 데이터 레이크Google BigQuery, AWS Redshift 및 Snowflake에 호스팅된 데이터베이스 및 데이터웨어하우스에서 열 수준 데이터 계보를 확보할 수 있도록 전담적인 접근 방식을 사용합니다. 또한, 자원 SparkSQL, AWS Athena, Presto 등이 개발 중입니다. Tokenn은 대부분의 오픈 소스 데이터 카탈로그 및 ETL 프레임워크와 원활하게 작동하기 때문에 상당한 통합 기능을 갖추고 있습니다.

Tokern 데이터 계보 기능:

토큰은 얼마 전 출시되었으며 최신 데이터 엔지니어링 및 디자인 패턴을 반영합니다. 예를 들어, 데이터 계보 DBCAT(데이터 디렉터리)에서 Tokern을 사용하면 쿼리 기록이나 ETL 스크립트에서 데이터 계보를 구축할 수 있으므로 BI 및 ETL 도구 통합에 이상적입니다. Tokern은 데이터 카탈로그와 계보를 PostgreSQL 데이터베이스에 저장합니다. 사용자는 SQL을 사용하여 추가 분석을 위해 이 데이터베이스에 접근하거나 다른 시각화 및 분석 엔진에 데이터를 입력할 수 있습니다.

Tokenn의 탁월한 시각화 및 분석 기능은 시각화 엔진 Kedro-Viz와 네트워크 그래프 분석 라이브러리 NetworkX를 기반으로 합니다. 이 라이브러리는 열 단위 계보 데이터를 추적, 시각화 및 분석하는 데 도움을 줍니다. Tokenn의 SDK 또는 API를 사용하여 계보 데이터와 상호 작용할 수도 있습니다.

Tokern은 최첨단 데이터 계보 기능 외에도 PIICatcher를 사용하여 PII(개인 식별 정보) 및 PHI(개인 건강 정보) 탐지 기능을 제공합니다. 내장된 도구는 정규 표현식과 Spacy 및 Stanford NER과 같은 여러 표준 NLP 라이브러리를 결합하여 PII 탐지를 수행합니다.

최고의 오픈소스 데이터 계보 도구 – 2. Egeria

에게리아 개요:

세계 최초의 오픈 소스 메타데이터 표준으로 불리는 에제리아(Egeria)는 데이터 엔지니어링 도구를 원활하게 통합하여 안정적이고 일관된 메타데이터 뷰를 제공합니다. 이 표준은 메타데이터 카탈로그화 및 검색 외에도 데이터 계보 추적, 데이터 품질 검사, 개인 식별 정보(PII) 식별 등을 위한 더욱 발전된 솔루션을 구축할 수 있도록 지원합니다.

많은 데이터 엔지니어링 아키텍처는 다양한 데이터 도구 간의 불가피한 대화(chatter)를 수반합니다. 에게리아는 이러한 방식에서 벗어나 모든 것이 에게리아를 거치는 '스포크 앤 휠(spoke and wheel)' 모델을 채택합니다. 이를 통해 사용자는 하나의 도구만 사용하여 대화할 수 있습니다.

에게리아 데이터 계보 기능:

에게리아의 데이터 계보는 잘 알려진 개방형 표준을 활용하여 OpenLineage라는 데이터 계보를 수집하고 저장합니다. OpenLineage는 또한 수평 및 수직 추적 데이터 계보를 제공하여 데이터에 대한 더욱 심층적인 통찰력을 제공합니다.

에제리아는 소스 시스템에서 발생하는 카프카 이벤트를 수신하여 데이터 계보 정보를 수집합니다. 데이터 계보 정보를 수집한 후, 에제리아는 계보 관리자에게 에제리아에서 처리할 수 없는 계보 차트를 매칭하고 연결하도록 지시합니다. 그 후, 해당 계보는 상업적으로 활용 가능합니다.

에제리아의 데이터 계보 기능은 데이터 검색 및 관리, 메타데이터 출처 등의 기능과 긴밀히 연계되어 있습니다. 이러한 기능과 에제리아의 계보 설계 및 아키텍처는 에제리아를 매력적이고 면밀하게 설계된 데이터 거버넌스 및 데이터 계보 도구로 만들어줍니다.

최고의 오픈소스 데이터 계보 도구 – 3. Pachyderm

후피동물 개요:

방금 언급했던 Tokenn과 마찬가지로 Pachyderm은 또 다른 전문 데이터 계보 도구입니다. 클라우드 데이터 웨어하우스에 집중하는 대신, 개발자가 언어 및 프레임워크에 독립적인 방식으로 머신 러닝 파이프라인을 구축할 수 있도록 지원하는 것을 목표로 합니다.

데이터 객체의 계보를 유지하기 위해 lakeFS 또는 Git과 같은 버전 제어 시스템을 구현했습니다. Pachyderm은 이러한 객체의 변경 사항(예: 커밋)을 캡처하고 저장하여 완전하고 변경 불가능한 이벤트 감사 추적을 유지합니다. 감사 추적을 통해 데이터 계보 맵을 확보하여 조회 및 분석할 수 있으며, 디버깅 또는 규정 준수를 위해 언제든지 데이터와 코드를 재현할 수 있습니다.

Pachyderm Data 계통 특징:

Pachyderm은 원활한 데이터 계보 추적 및 버전 관리를 위해 AWS S3와 같은 객체 저장소를 PFS(Pachyderm File System)라는 맞춤형 파일 시스템에 통합하는 중앙 저장소를 사용합니다. PFS는 객체 저장소(예: S3)가 완전한 기록을 보유한 유일한 데이터 소스가 되도록 지원합니다.

Pachyderm은 데이터 소스의 불변성을 강화하여 계보 이벤트와 데이터 객체에 전역 ID를 할당할 수 있도록 합니다. Pachyderm을 사용하면 UI에서 변경 불가능한 데이터 계보 다이어그램을 DAG(데이터 기반 데이터 연결)로 처리할 수 있습니다. 이 두 기능 모두 ML 파이프를 사용하고 결과를 입력까지 추적하려는 경우 유용합니다.

Pachyderm은 가장 널리 사용되는 데이터베이스, 데이터웨어하우스 및 데이터 레이크와 통합됩니다. 또한 SQL 기반 수집 도구를 사용하여 모든 데이터베이스의 데이터를 Pachyderm으로 가져올 수 있습니다. 그러나 Pachyderm은 범용 데이터 계보 도구로서 한계가 있기 때문에 대부분의 Pachyderm 기업 고객은 MLOps, 비정형 데이터 ETL 및 NLP 워크로드를 처리하는 데 Pachyderm을 사용합니다.

최고의 오픈소스 데이터 계보 도구 – 4. OpenLineage

OpenLineage 개요:

OpenLineage는 위워크(WeWork)가 오픈한 후 마르케즈(Marquez)의 개발을 이어받은 데이터킨(DataKin)이 설립했습니다. 데이터킨은 2021년 중반, OpenLineage 프로젝트를 리눅스 재단(Linux Foundation)에 샌드박스 프로젝트로 넘겼습니다. 데이터 관측 분야에서 널리 사용되는 OpenTelemetry에서 큰 영감을 받은 OpenLineage는 데이터 계보 수집 및 분석을 위한 개방형 표준을 확립하는 것을 목표로 합니다.

OpenLineage 기능:

통합은 OpenLineage의 설계와 사명의 핵심입니다. ETL 프레임워크, 데이터 오케스트레이션 엔진, 메타데이터 디렉터리, 데이터 품질 엔진, 그리고 데이터 계보 도구와 통합됩니다. OpenLineage는 JSONSchema를 API 정의로 사용하며 다양한 언어와 프레임워크를 지원합니다. Egeria는 핵심 메타데이터 계층이 OpenLineage를 기반으로 구축된 인기 있는 데이터 도구 중 하나입니다.

WeWork의 Marquez는 OpenLineage 아키텍처의 핵심이기도 합니다. Marquez는 UI와 메타데이터 저장소를 제공하고, 메타데이터 수집 API는 OpenLineage에서 제공합니다. OpenLineage는 GraphQL 및 REST API를 통해서도 제공됩니다.

OpenLineage는 대부분의 기존 데이터 엔지니어링 스택과 쉽게 사용할 수 있고, 포괄적으로 데이터 계보를 수집, 추적, 분석할 수 있는 다양하고 흥미로운 가치 있는 기능을 제공하기 때문에 매력적인 선택입니다.

최고의 오픈소스 데이터 계보 도구 – 5. TrueDat

TrueDat 개요:

완벽한 데이터 거버넌스 솔루션인 TrueDat을 사용하면 데이터를 세부적으로 분류, 검색 및 추적할 수 있습니다. TrueDat의 데이터 계보 기능을 통해 데이터의 전체 수명 주기를 시각화하여 시간 경과에 따른 데이터 이동 경로에 대한 통찰력을 얻을 수 있습니다.

TrueDat은 2017년 BlueTab(IBM 계열사)에서 개발되었으며, 그 이후로 활발하게 개발되어 왔으며, 최신 버전인 V4.39는 2022년 3월에 출시되었습니다.

TrueDat 데이터 계보 기능:

TrueDat을 사용하면 데이터 계보를 활용하여 데이터베이스 변경의 영향을 분석하고 보고 비즈니스 로직을 더욱 정확하게 이해할 수 있습니다. 특정 시점의 가시성을 통해 데이터 객체의 계보를 추적할 수 있습니다. 고급 분석을 위해 계보 객체에 필터를 적용하여 계보 다이어그램의 특정 부분을 살펴볼 수도 있습니다. UI에 표시되는 그래픽 표현 외에도 수집된 데이터 계보 정보를 CSV 파일로 다운로드할 수 있습니다. TrueDat은 탁월한 데이터 거버넌스 및 계보 기능을 제공하므로 데이터 계보 문제를 해결하는 데 매우 유용합니다.

결론

저희 기사를 읽어주셔서 감사합니다. 이 기사가 여러분이 원하는 것을 찾는 데 도움이 되기를 바랍니다. 최고의 오픈소스 데이터 계보 도구데이터 계보에 대해 자세히 알아보려면 다음을 방문하시기 바랍니다. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 오늘날 시장에 출시된 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 얻을 수 있을 뿐만 아니라 데이터 계보, 시각적 표시를 수행할 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적 표시를 수행할 수 있도록 합니다. (2022년 7월 14일 Ryan 게시)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment