2022년 최고의 오픈소스 데이터 거버넌스 도구 7가지

좋은 오픈 소스 찾기 데이터 거버넌스 도구 여러 가지 이유로 어려울 수 있습니다. 무엇보다도, 관련된 모든 것을 결정하는 데 있어 가장 큰 장애물은 데이터 거버넌스 표준화된 접근 방식이 부족하여 목표가 명확하게 정의되지 않았습니다. 또한, 대부분의 오픈 소스 도구의 데이터 거버넌스 기능이 불분명합니다. 특정 도구가 특정 사용 사례에 적합한지 확인하려면 문서 페이지와 GitHub 저장소를 꼼꼼히 살펴봐야 합니다.

또한, 대부분의 오픈소스 도구의 데이터 거버넌스 기능은 명확하지 않으므로 특정 도구가 특정 사용 사례에 적합한지 확인하려면 문서 페이지와 GitHub 저장소를 꼼꼼히 살펴봐야 합니다. 평가 과정을 간소화하기 위해 2022년 최고의 오픈소스 데이터 거버넌스 도구 목록을 정리했습니다.

최고의 오픈소스 데이터 거버넌스 도구

최고의 오픈소스 데이터 거버넌스 도구

최고의 오픈소스 데이터 거버넌스 도구 – 1. Amundsen

Amundsen은 원래 Lyft에서 개발되었으며, 현재 LF AI & Data Foundation에서 호스팅 및 관리하고 있습니다. 데이터 거버넌스 측면에서는 주로 데이터 보안, 데이터 프라이버시 및 주권법 준수를 다룹니다. 핵심은 메타데이터 계층에서 모든 데이터에 태그를 지정하고 분류하는 것입니다.

Amundsen을 사용하면 메타데이터를 검색하고 누가 데이터를 사용하고 얼마나 자주 사용하는지 파악할 수 있습니다. 이러한 데이터 접근 패턴을 살펴보면 데이터에 대한 이해를 얻을 수 있지만, 이 접근 방식은 좀 더 사후 대응적입니다. 보다 사전 예방적인 접근 방식을 위해서는 팀, 역할, 개인, 시스템 등의 데이터 접근 정책에 따라 사용자의 데이터 접근을 차단하는 세분화된 접근 제어가 필요합니다.

아직 Amundsen에는 역할 기반 액세스 제어인 RBAC가 없지만 태그 지정 및 메타데이터 분류와 같은 필수적인 데이터 거버넌스 기능은 여전히 사용할 수 있습니다.

기본 Neo4J 백엔드에서 사용 가능한 데이터 거버넌스 기능이 제한적이었기 때문에 Amundsen은 Apache Atlas 지원을 추가하기로 결정했습니다. Apache Atlas는 가장 성숙한 백엔드 중 하나이기 때문에 메타데이터 관리 플랫폼, 다양한 시스템에서 많은 기능이 시험 및 테스트되어 데이터 카탈로그 및 거버넌스 솔루션의 안정성을 높였습니다. Amundsen은 다음을 지원합니다. 데이터 계보 그리고 라벨/배지 전파(혈통 사용).

Neo4j 또는 Atlas 백엔드는 일반적으로 대부분의 기업에 적합합니다. 하지만 데이터 카탈로그 및 거버넌스 솔루션에서 더욱 고급 기능을 원하는 기업도 있습니다.

최고의 오픈소스 데이터 거버넌스 도구 – 2. DataHub

LinkedIn은 WhereHows가 증가하는 메타데이터 검색 및 탐색 도구 수요를 충족하는 데 더 이상 적합하지 않게 되자 DataHub를 개발했습니다. DataHub 출시 이전에는 LinkedIn이 WhereHows와 함께 다른 도구들을 활용하여 데이터 거버넌스 기능을 추가했습니다.

DataHub를 사용하면 메타데이터에 대한 세밀한 액세스 제어가 가능합니다. 액세스는 웹 UI 및 GraphQL API에서 선언할 수 있는 정책에 따라 결정됩니다. DataHub의 전략은 플랫폼 및 메타데이터의 두 가지 수준에서 적용됩니다. 플랫폼 정책을 통해 DataHub의 사용자 권한을 제어할 수 있습니다. 예를 들어, 사용자가 어떤 기능을 보고 사용할 수 있는지, 그리고 어느 정도까지 사용할 수 있는지 제어할 수 있습니다.

이러한 정책은 개별 사용자 또는 그룹에 적용할 수 있습니다. 반면, 메타데이터 정책을 사용하면 어떤 사용자가 다양한 메타데이터 엔터티, 차트, 데이터 원본, 대시보드 등에 액세스할 수 있는지, 그리고 이러한 항목에 대해 어떤 작업을 수행할 수 있는지 제어할 수 있습니다. 하지만 DataHub에서는 현재 읽기 권한을 제어할 수 없습니다.

DataHub 로드맵에는 여러 다른 기능들이 포함되어 있지만, 아직 명확하게 정의된 일정은 없습니다. 주요 데이터 거버넌스 기능 중 하나는 엔티티 및 애스펙트(PDL 레코드)에 대한 역할 기반 액세스 제어(RBAC)입니다. RBAC는 메타데이터에 대한 더욱 정교한 액세스 제어를 제공할 뿐만 아니라, 레이블 관리, 데이터 미리보기 액세스 제어 등 다양한 기능을 지원합니다.

거버넌스/개인정보보호 측면에서 DataHub는 데이터 세트 수준 분류, 관리형 데이터 이동, 자동 데이터 삭제, 데이터 내보내기 등을 지원합니다. 로드맵의 일환으로 일부 규정 준수 기능을 오픈소스로 제공할 계획입니다.

최고의 오픈소스 데이터 거버넌스 도구 – 3. Apache Atlas

데이터 거버넌스 기능을 통합한 최초의 오픈소스 데이터 카탈로그 중 하나인 Apache Atlas 프로젝트는 개발 속도가 다소 느렸을 뿐만 아니라, Hadoop 생태계를 위해 특별히 개발되었다는 점도 빼놓을 수 없습니다. Hive와 통합된 모든 플랫폼과 호환됩니다.

Apache Atlas는 특히 분류에 탁월하여 데이터 민감도, 만료일, 품질 범주를 즉석에서 생성할 수 있습니다. 이는 Apache Atlas의 또 다른 인기 기능인 데이터 계보(data lineage)를 설명합니다. Atlas는 진정한 데이터 계보를 구현합니다. 즉, 계보가 운영되는 것입니다.

Apache Atlas는 계보 데이터를 사용하여 계보 계층 구조의 엔터티에 메타데이터 속성을 전파할 수 있습니다. 이 기능은 다른 데이터 거버넌스 도구에서는 찾을 수 없습니다.

Apache Atlas는 다양한 DE 데이터 프라이버시 및 보안 기능을 제공합니다. 예를 들어, 엔티티 및 범주에 대한 세분화된 액세스 제어 기능을 제공하며, Apache Ranger와 연동하여 데이터 권한 부여 및 마스킹을 지원합니다. 이러한 기능들을 함께 사용하면 효과적인 데이터 프라이버시 및 보안 네트워크를 형성하여 데이터를 보호하거나 개인 식별 정보(PII), 민감한 정보 등으로 분류할 수 있습니다. 특히, 개인 식별 정보 및 민감한 데이터에 누가 접근할 수 있는지 제어할 수 있는 프레임워크도 제공합니다.

최고의 오픈소스 데이터 거버넌스 도구 – 4. Magda

호주 연방 과학 산업 연구 기구(CSIRO)의 데이터 과학 부서인 Data61에서 개발한 MAGDA는 'Making Australian Government Data Available(호주 정부 데이터 활용)'의 약자입니다. CSIRO는 Magda를 활용하여 호주 연방 및 주 정부의 7만 개 이상의 데이터 세트를 포함하는 오픈 데이터 포털을 구축했으며, 다른 사람들이 사용할 수 있도록 이 프로젝트를 오픈소스로 공개했습니다.

Magda의 가장 풍부하고 성숙한 기능은 검색 및 탐색 기능이지만, 데이터 세트 주제 태그 지정 및 정의 기능도 강력하게 지원합니다. 또한 Magda에는 스프레드시트 및 대화형 차트를 포함한 기본 제공 데이터 미리보기 옵션이 있습니다. Amundsen과 같은 다른 도구는 Superset과 통합해야 합니다. 한 가지 주의할 점은 Superset과 같은 도구와 통합하여 데이터 미리보기를 구현하면 확장성이 더 뛰어나다는 것입니다.

Magda는 현재 RBAC(역할 기반 액세스 제어)를 지원하지 않지만 액세스를 엄격하게 제어할 수 있는 기능은 지원합니다. 자원 Magda에 통합되었습니다. Magda는 쿠버네티스를 사용하여 클라우드에 대한 독립성을 유지합니다. 개방형 정책 브로커 표준을 사용하여 액세스 정책을 관리하며, 이를 통해 역할 기반, 속성 기반 등 다양한 유형의 액세스 제어가 가능합니다.

최고의 오픈소스 데이터 거버넌스 도구 – 5. 오픈 메타데이터

2021년 8월에 발표됨, 메타데이터 열기 스키마 우선 접근 방식을 사용하여 메타데이터를 표준화하기 위한 사양을 정의하며, 이는 중앙 집중식 메타데이터 저장소와 데이터 스택에서 널리 사용되는 커넥터를 지원하는 수집 프레임워크로 구성됩니다.

Open Metadata는 태그 지정에 있어 차별화된 접근 방식을 취합니다. 데이터 소유자에게 데이터 세트를 태그로 지정할 수 있으며, 중요도에 따라 데이터 세트를 여러 계층으로 분류할 수 있습니다. 또한 Open Metadata는 모든 메타데이터 버전 제어를 구현합니다. 즉, 데이터베이스 엔티티(테이블, 뷰, 모드), 태그, 데이터 세트 소유권, 상세 정보 및 관련 비즈니스 용어를 포함하여 버전 제어를 위한 모든 메타데이터, 변경 사항 관련 정보(변경 내용 변경자 및 변경 시점 등)를 제공합니다.

최고의 오픈소스 데이터 거버넌스 도구 – 6. Egeria

2019년에 출시되어 Linux Foundation의 AI 및 데이터 부서에서 관리하는 Egeria는 벤더 중립적인 방식으로 도구와 플랫폼 간에 메타데이터를 쉽게 교환하도록 설계되었습니다. 다른 도구들은 SDK와 API를 통해 이를 수행하지만, 그 기능은 제한적입니다. 반면 Egeria는 플랫폼 독립성, 확장성, 데이터 접근성이라는 원칙을 기반으로 구축되어 이러한 기능을 훌륭하게 수행합니다.

지금까지 살펴본 다른 모든 도구가 주로 사용자 관점에서 메타데이터 관리 및 거버넌스 문제를 다루는 반면, Egeria는 사용자와 시스템의 문제를 해결하려고 하며 다양한 데이터 도구와 잘 작동합니다.

에제리아는 거버넌스 리전, 유효 기간, 메타데이터 보관, 메타데이터 출처 등을 통해 메타데이터에 대한 매우 세밀하고 정교한 제어 기능을 제공하며, 이 중 일부는 에제리아만의 고유한 기능입니다. 800개 이상의 사전 정의된 기능을 제공하지만 이에 국한되지 않는다는 점도 언급할 가치가 있습니다. 메타데이터 유형또한, 귀사의 비즈니스 요구 사항에 따라 고유한 유형을 정의할 수 있으므로 Egeria는 귀사의 비즈니스 요구 사항에 맞춰 유연하게 조정할 수 있습니다.

최고의 오픈소스 데이터 거버넌스 도구 – 7. Truedat

마지막으로 TrueDat은 아마도 유일하게 성숙한 오픈소스 데이터 거버넌스 도구 목록에 있는 것은 BlueTab(현 IBM)이 데이터 솔루션 공급업체로서 시장의 요구를 이해하고 데이터 거버넌스 분야의 차이점을 발견한 후 만든 것입니다.

TrueDat에는 위에 언급된 다른 도구와 중복되는 기능 세트가 있습니다. 데이터 카탈로그, 검색 엔진, 데이터 계보 기능 등이 있습니다. 여전히 가장 인기 있는 기능은 다음과 같습니다. 비즈니스 어휘 그리고 데이터 관리, 데이터 소유권 관리, 분류 등에 초점을 맞춘 세분화된 제어 기능을 통해 팀 간에 데이터를 공유할 수 있는 기능이 있습니다.

TrueDat을 이 목록에서 완전히 차별화하는 다른 기능들도 있는데, 그중 하나는 Snowflake 데이터 공유와 유사한 데이터 공유 기능으로, 팀원들이 더욱 효과적으로 데이터를 공유하고 협업할 수 있도록 지원합니다. 또한, 높은 수준의 보안과 데이터 제어를 보장하기 위해 구독 및 알림 기능을 사용하여 감사 추적에 변경 이벤트를 기록하고 실시간으로 모니터링할 수 있습니다.

결론

저희 글을 읽어주셔서 감사합니다. 최고의 오픈소스 데이터 거버넌스 도구를 찾는 데 도움이 되기를 바랍니다. 오픈소스 데이터 거버넌스 도구에 대한 자세한 정보를 원하시면 다음 웹사이트를 방문하시기 바랍니다. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 오늘날 시장에 출시된 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적 표시를 수행할 뿐만 아니라 사용자가 다음을 제공할 수 있도록 합니다. 데이터 계보 CSV 형식으로 저장하고 시각적으로 표시합니다. (2022년 7월 16일 Ryan 게시)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment