메타데이터란 무엇이고 어떻게 작동하나요?

메타데이터란 무엇인가?

메타데이터 다른 데이터를 구조화되고 일관된 방식으로 설명하는 데이터이므로 시간이 지남에 따라 대량의 데이터를 수집, 저장, 분석할 수 있습니다. 데이터웨어하우스 빅데이터를 저장할 때 쉬운 검색 및 관리를 위해 메타데이터가 필요합니다. 데이터 웨어하우스는 표준화되고, 깨끗하고, 데이터 소스 전반에 걸쳐 일관된 구조화된 데이터를 사용합니다. 메타데이터는 이 데이터의 수집 및 저장에서 균일성을 보장하여 사업 소유자와 데이터 분석가 데이터에 쉽게 접근하여 통찰력을 얻을 수 있습니다.

메타데이터란 무엇인가?

효과적인 메타데이터 관리 안정적이고 유연한 빅데이터 "생태계"의 필수적인 부분으로, 회사가 데이터 자산을 보다 효율적으로 관리하고 이를 사용할 수 있도록 도와줍니다. 데이터 과학자 및 다른 분석가.

메타데이터 분류 및 예:

1. 기술 메타데이터

1). 물리적 메타데이터: 물리적 정보를 설명하는 메타데이터 자원예를 들어, 서버, 운영체제, 컴퓨터실 위치 및 기타 정보입니다.

2). 데이터 소스 메타데이터: 일반적으로 4가지 유형의 정보를 포함하는 데이터 소스를 설명하는 메타데이터:

데이터 소스 주소(예: IP, PORT 등)
물리적 토폴로지(예: 활성/대기, 역할 등)
권한(예: 사용자 이름, 비밀번호 등)
라이브러리 이름, 버전, 도메인 이름 등

3) 스토리지 메타데이터: 개체 저장소를 설명하는 메타데이터는 일반적으로 "좁은" 메타데이터이기도 하며 여기에는 여러 가지 주요 유형의 관리 속성(예: 작성자, 애플리케이션 시스템, 사업부, 사업 소유자 등)이 포함됩니다.

수명 주기(생성 시간, DDL 시간, 버전 정보 등)
저장 속성(위치, 물리적 크기 등)
데이터 특성(예: 데이터 왜곡, 평균 길이 등)
특성 사용(예: DML, 새로 고침 빈도 등)
데이터 구조 테이블/파티션(예: 이름, 유형, 설명 등)
열(예: 이름, 유형, 길이, 정밀도 등)
인덱스(예: 이름, 유형, 필드 등)；
제약조건(예: 유형, 필드 등)

4). 계산 메타데이터: 데이터 계산 프로세스를 설명하는 메타데이터는 일반적으로 데이터 추출(Data Extraction)과 데이터 계산의 두 가지 유형으로 분류할 수 있습니다.전자상거래) 또는 데이터 처리(JOB). 각 유형의 계산은 제어 메타데이터(예: 구성 속성, 스케줄링 정책 등) 및 프로세스 메타데이터(예: 종속성, 실행 상태, 실행 로그 등)로 추가로 세분화할 수 있습니다.

5). 품질 메타데이터: 데이터의 품질을 설명하는 메타데이터입니다. 일반적으로, 데이터 품질 일련의 품질 측정 항목을 정의하여 반영합니다.

6). 운영 메타데이터: 데이터가 작업에 사용되는 방법을 설명하는 메타데이터 클래스입니다.

데이터 생성(생성 시간, 작업 정보 등)
테이블 액세스(예: 쿼리, 연결, 집계 등)
테이블 연관(예: 연관된 테이블, 연관된 필드, 연관된 유형, 연관된 개수)
필드 액세스(예: 쿼리, 연결, 집계, 필터링 등).

7) 운영 및 유지 관리 메타데이터: 일반적으로 작업, 경고, 오류를 포함하여 시스템의 운영 및 유지 관리 수준을 설명하는 메타데이터입니다.

8). 비용 메타데이터: 데이터 저장 및 계산 비용을 설명하는 메타데이터입니다.

계산 비용(예: CPU, MEM 등)
저장 비용(예: 공간, 압축 비율 등)

9) 표준 메타데이터: 데이터의 표준화된 콘텐츠를 설명하는 메타데이터입니다.

코드 관리(예: 변환 규칙, 외부 인터페이스 등)
매핑은 데이터 표시(스타일, 규칙, 의미, 단위 등)를 관리합니다.

10). 보안 메타데이터: 데이터 보안 내용을 설명하는 메타데이터입니다.

보안 수준 데이터 민감도(예: 민감한지, 둔감화 알고리즘인지 등)

11) 공유 메타데이터: 인터페이스 메서드, 형식, 콘텐츠 등의 데이터를 공유하는 방법을 설명합니다.

2. 비즈니스 메타데이터

1). 모델 메타데이터: 데이터 모델링은 비즈니스에 대한 설명이며, 비즈니스는 모델을 통해 더 잘 이해될 수 있습니다. 일반적인 모델링 접근 방식에는 패러다임 모델, 차원 모델, 다차원 모델링이 있습니다. 아래는 사업 라인, 부문, 프로세스 데이터 도메인, 주제 도메인 차원, 속성 인덱스 사실, 메트릭 시장 및 애플리케이션과 같은 크기 모델의 예입니다.

2). 애플리케이션 메타데이터: 데이터 응용 프로그램 클래스를 설명하는 메타데이터를 의미합니다.

3). 분석 메타데이터: 데이터 분석 관점에서 비즈니스 메타데이터에 대한 설명을 말합니다. 예를 들어, 데이터 도메인, 주제 도메인, 제품 라인, 섹션, 비즈니스 프로세스, 비즈니스 규칙 등입니다.

3. 메타데이터 관리

관리 메타데이터는 사람, 프로세스 책임, 작업 조직, 부서 등 기업 내의 데이터 관리 내용을 설명합니다.

메타데이터 기능:

메타데이터는 데이터에 대한 구조화된 데이터로, 반드시 디지털 형태일 필요는 없으며 다양한 소스에서 제공될 수 있습니다.
메타데이터는 잠재적 사용자가 이러한 객체의 존재와 특성을 완전히 이해하는 것을 방해하는 객체 관련 데이터입니다.
메타데이터는 정보 패키지에 대한 인코딩된 설명입니다.
메타데이터는 정보 객체의 내용과 위치를 설명하는 데 사용되는 일련의 데이터 요소를 포함하며, 네트워크 환경에서 정보 객체를 검색하고 검색하는 것을 용이하게 합니다.
메타데이터는 정보 객체를 설명하는 것뿐만 아니라 리소스의 사용 환경, 관리, 처리, 저장, 활용에 대한 내용도 설명합니다.
메타데이터는 정보 객체나 시스템의 수명 주기 동안 자연스럽게 추가됩니다.
메타데이터의 기존 정의에서 "데이터"는 거래적 성격의 상징이며, 모든 종류의 통계, 계산, 과학적 연구 및 기술 설계가 수행되는 데 기반이 되는 수치적 값이거나 디지털화, 공식화, 코드화 및 그래프화된 정보입니다.

메타데이터의 장점

메타데이터는 더 이상 인터페이스 정의 언어(IDL) 파일, 헤더 또는 외부 구성 요소 참조 메서드가 필요하지 않은 더 간단한 프로그래밍 모델의 핵심입니다. 메타데이터를 사용하면 .NET 언어가 개발자와 사용자에게 보이지 않는 비언어적 방식으로 자동으로 자신을 설명할 수 있습니다. 또한 메타데이터는 속성을 사용하여 확장할 수 있습니다. 메타데이터에는 다음과 같은 주요 장점이 있습니다.:

1). 자기소개: 공통 언어 런타임 모듈과 어셈블리는 자체 설명적입니다. 모듈의 메타데이터에는 다른 모듈과 상호 작용하는 데 필요한 모든 정보가 포함되어 있습니다. 메타데이터는 COM에서 IDL의 기능을 자동으로 제공하여 정의와 구현에 모두 파일을 사용할 수 있습니다. 런타임 모듈과 어셈블리는 운영 체제에 등록할 필요조차 없습니다. 결과적으로 런타임에서 사용하는 명령어는 항상 컴파일된 파일의 실제 코드를 반영하여 애플리케이션의 안정성을 향상시킵니다.

2) 디자인: 메타데이터는 다양한 언어로 작성된 PE 파일에서 클래스를 상속할 수 있도록 컴파일된 코드에 대한 모든 필수 정보를 제공합니다. 명시적 마샬링이나 사용자 지정 상호 운용성 코드 사용에 대한 걱정 없이 모든 관리 언어(공통 언어 런타임의 모든 언어)로 작성된 모든 클래스의 인스턴스를 만들 수 있습니다.

조직이 메타데이터를 기록하고 관리하는 이유는 무엇입니까?

대부분 조직의 정보 아키텍처는 혼잡하고 무질서한 서점과 유사합니다. 데이터는 어디에나 있습니다. 대부분 조직의 데이터는 정리되거나 카탈로그화되지 않아 필요한 데이터를 찾기 어렵습니다.

이것이 핵심 문제입니다. 데이터 검색 가능성 부족, 따라서 데이터 가용성 부족입니다. 그리고 문제는 점점 더 악화될 뿐입니다. 10년 안에 조직 데이터의 양은 기가바이트에서 테라바이트, 페타바이트로 늘어날 수 있습니다. "데이터가 새로운 석유" 시대에 성공적인 조직은 경쟁 우위를 확보하기 위해 모든 데이터를 찾고 사용할 수 있어야 합니다. 메타데이터 관리의 설명 및 검색 기능은 이 데이터를 성공적으로 찾고 사용하는 데 중요합니다.

메타데이터 관리도 중요한데, 정의는 정보 맥락에 따라 달라질 수 있기 때문입니다. 다양한 그룹이 "고객"이라는 단어를 어떻게 생각하고 정의하는지 살펴보세요. 예를 들어, IT, 영업 또는 규정 준수 담당자와 이야기를 나누면 고객이 무엇을 나타내는지, 데이터가 어떻게 저장되는지에 대해 다른 견해나 관점을 가질 수 있습니다.

IT의 경우 고객에 대한 데이터는 회사의 분석 보고서 및 대시보드 실행과 이 데이터를 저장하는 기술적 측면에 초점을 맞출 수 있습니다. IT에 "고객" 데이터의 위치를 정의해 달라고 요청하면 "이것은 2015년으로 거슬러 올라가는 보고용 엔터프라이즈 데이터 웨어하우스에 있습니다. 또한 새로운 인수에서 얻은 고객 데이터도 있습니다. 데이터 레이크. 이 데이터는 데이터 레이크에 있으며 보고하기 전에 변환해야 합니다.” 따라서 그들에게 “고객” 데이터는 매우 분석적일 수 있거나 과거 추적을 포함할 수 있습니다.

영업팀은 운영에 더 집중할 수 있습니다. 예를 들어, 영업에서 고객 데이터를 사용하는 방식과 같은 것입니다. 영업팀에게 고객 데이터는 회사가 소유했던 모든 고객이 아니라 활성 고객 또는 계정 수준 고객 데이터(예: 회사 이름)만 의미할 수 있습니다. 영업팀은 직원 수준 데이터가 아닌 회사 이름으로 고객 데이터를 언급할 수 있습니다. 또한 규정 준수 부서는 GDPR과 같은 규정을 준수하는 것이 주요 데이터 사용이므로 인사 수준에서 고객 데이터를 고려할 수 있습니다.

보시다시피, 문제는 정의에만 있는 것이 아니라 이러한 다양한 팀과 프로세스 간의 정의 불일치에 있습니다. 그리고 숫자는 계속 늘어나고 있습니다. 최적의 분석을 위해 데이터를 찾을 수 있어야 합니다. 운영에서는 모든 다양한 애플리케이션과 데이터를 어디에서 얻는지 이해해야 합니다. 규정 준수 측면에서는 조직이 규칙을 따르도록 해야 합니다. IT 부서의 경우 가장 중요한 관심사는 분석을 생성하고 기록을 보존하는 것입니다.

메타데이터 관리를 통해 조직의 각 부분에 시스템, 데이터, 전체 조직을 이해하고 관리하는 데 필요한 메타데이터를 제공하고 조직 전체의 데이터에 대한 통합된 뷰를 제공할 수 있습니다. 이것이 조직이 제대로 기능하고 결국 모든 것을 올바르게 수행할 수 있는 유일한 방법입니다.

결론

저희 기사를 읽어주셔서 감사합니다. 이 기사가 여러분이 더 잘 이해하는 데 도움이 되기를 바랍니다. 메타데이터란 무엇인가메타데이터에 대해 자세히 알아보려면 다음을 방문하시기 바랍니다. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 오늘날 시장에 출시된 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 얻을 수 있을 뿐만 아니라 데이터 계보, 시각적 표시를 수행할 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적 표시를 수행할 수 있도록 합니다. (2022년 6월 24일 Ryan이 게시)