데이터 계보가 중요한 이유와 그것이 왜 그토록 어려운가?

변화는 위험을 가져온다. 이것은 우리 대부분이 경력 초기에 배우는 소프트웨어 개발의 기본 원칙 중 하나이다. 그러나 이러한 반복적인 삶의 교훈에도 불구하고, 변화는 항상 계속되는 듯하다. 변화의 영향을 예측할 수 없는 우리의 무능력, 심지어 작은 변화라도, 종종 부정적인 결과로 이어진다. 이 문제는 상호 연결된 IT 시스템의 복잡성이 증가함에 따라 더욱 심화된다. 작은 수정조차도 변화의 상류 또는 하류 시스템에 어떤 영향을 미칠지 예측하는 것이 점점 더 어려워지고 있다. 데이터 계보 이를 달성할 수는 있지만, 잘하는 것은 매우 어렵습니다.

데이터 계보가 중요한 이유

데이터 계보가 중요한 이유

데이터 계보가 중요한 이유는 무엇입니까?

예전에는 데이터가 사일로에 보관되어 있었고, 그 사이에 연결 지점이 비교적 적었습니다. 하지만 오늘날 데이터는 여러 시스템 간에 여러 방향으로 흐릅니다. 이러한 시스템 중 다수는 외부 조직과 데이터를 공유하는데, 이는 정보가 그 내부 시스템으로도 흐른다는 것을 의미합니다. 그 결과, 여러 다른 시스템에 대한 단일 변경 사항의 영향을 무시하는 것이 그 어느 때보다 쉬워졌습니다.

예를 들어, 귀사에서 고객이 빠르고 쉽게 새로운 서비스 콜을 요청할 수 있는 모바일 애플리케이션을 제공한다고 가정해 보겠습니다. 과거에는 고객이 보유한 제품 변형을 지정할 수 있었습니다. 귀사의 디자인 팀은 CRM 데이터베이스에 이미 해당 정보가 있으므로 더 이상 모바일 앱 사용자로부터 이 정보를 수집할 필요가 없다고 판단했습니다.

귀하의 작업은 애플리케이션을 간소화하는 것이었으므로 해당 입력 필드를 제거하고 CRM에서 고객 제품 정보를 추출하는 쿼리로 대체했습니다. 이론적으로 생성된 작업 주문에는 현장 서비스 직원이 작업을 완료하는 데 필요한 모든 정보가 포함되어야 합니다.

불행히도 문제가 있습니다. CRM 시스템의 일부 고객 제품 레코드에 null 값이 포함되어 있습니다. 모바일 애플리케이션에서 이 정보를 찾고 있었지만 티켓팅 시스템에 잘못된 결과를 제공했습니다. 현장 서비스 담당자는 더 이상 다음 서비스 콜을 준비하는 방법을 모릅니다.

이것은 비교적 간단한 것처럼 들립니다. 데이터 품질 문제 – 누군가가 CRM 데이터를 더 철저히 검토했다면 예상할 수 있었을 문제입니다. 그러나 CRM 데이터베이스의 null 값이 나중에 도입되었다면, 그것조차도 문제를 해결하지 못할 수 있습니다. 예를 들어, 새로 인수한 회사의 고객 데이터를 CRM 시스템에 통합하는 경우 해당 새 레코드와 관련된 제품 정보가 없을 수 있습니다.

때때로 이러한 문제는 예측하기 어렵고 즉시 나타나지 않을 수도 있습니다. 마케팅 팀이 고객 세분화 기준을 재정의하기로 결정했을 때 어떤 일이 일어나는지 상상해 보세요. 고객 범주를 지정하기 위해 새 데이터 필드가 추가되고, 그러면 모든 고객 값이 채워지고, 이전 필드는 권장되지 않습니다.

그러나 마케팅 부서는 모르고 있었지만, 회사의 최고 경영진은 여전히 오래된 데이터를 보고 있었습니다. 그들이 사용하는 대시보드는 더 이상 사용되지 않는 필드의 데이터에 의존합니다. 매일 새로운 고객이 추가되지만, 아무도 더 이상 사용되지 않는 필드에 값을 입력하지 않습니다. 결과적으로 임원 팀은 왜곡된 데이터를 보고 있습니다. 갑자기 최고 경영진은 조직의 나머지와 매우 다른 KPI를 추적하고 있습니다. 더 나쁜 것은, 아무도 문제가 발생한 지 몇 주 또는 몇 달이 지나서야 문제가 있다는 것을 알아차렸습니다.

다음으로 비슷한 시나리오를 상상해 보세요. 하지만 임원 대시보드를 채우는 대신 소스 시스템은 데이터를 AI 알고리즘에 공급하여 전자상거래 사이트에서 고객 추천을 유도합니다. AI가 결함이 있는 데이터로 훈련을 받거나 데이터가 어떤 식으로든 크게 변경되면 기술의 효과에 큰 영향을 미칠 수 있습니다. 이 경우 고객 추천 엔진이 왜곡됩니다.

데이터 계보 문제 해결

데이터 계보 도구 상류 및 하류의 잠재적 영향에 대한 완전한 로드맵을 제공함으로써 변화의 영향을 이해하는 데 체계적인 접근 방식을 제공합니다.

이는 위험 감소 및 비용 관리와 동일합니다. 변경 사항이 다른 시스템에 어떤 영향을 미칠지 예측할 수 있다면 앞서 설명한 문제를 피할 수 있습니다. 이는 낭비되는 노력 감소, 출시 시간 단축 및 비용 절감으로 이어집니다. 개발 프로세스 초기에 문제를 식별하면 더 빠르고 저렴하게 해결할 수 있다는 원칙은 우리 모두가 잘 알고 있습니다. 데이터 계보는 중요한 누락된 연결 고리를 제공하며, QA에 도달하기 전에도 문제를 식별할 수 있습니다.

또한 이점이 있습니다 데이터 거버넌스 그리고 준수. 유럽 연합이 2016년에 일반 데이터 보호 규정(GDPR)을 통과시켰을 때, 개인 식별 정보(PII)가 포함된 시스템에 일련의 새로운 요구 사항을 부과했습니다. 고객이 데이터를 삭제해 달라고 요청하면, 귀하는 법적으로 그 요청을 준수할 의무가 있습니다. 하지만 이 변경 사항의 상류와 하류에서는 무슨 일이 일어날까요? 무언가가 깨질까요? 아니면 고객의 PII 중 일부가 시스템의 다른 곳에 남아서 법을 준수하지 못하게 될까요?

데이터 계보는 상류 및 하류 영향을 감지하는 프로세스를 자동화하여 이러한 문제를 해결합니다. 이는 변경 사항의 출처와 데이터가 현재 상태에 도달한 방식을 확인하는 데 도움이 되는 명확한 감사 가능성을 제공합니다.

열 수준 데이터 계보는 SQL 쿼리를 구문 분석하여 정확히 무엇이 어떻게 변경되었는지 식별해야 하기 때문에 특히 어렵습니다. 즉, 데이터베이스 로그를 활용해야 합니다. 그러나 각자 고유한 SQL 방언을 사용하는 데이터베이스 공급업체가 많기 때문에 다양한 데이터베이스에 대한 이 정보를 구문 분석하는 것이 특히 어려울 수 있습니다. 각 SQL 방언이 시간이 지남에 따라 진화함에 따라, 데이터 계보 도구 이러한 변화에 적응하기 위해 발전해야 합니다.

상호 연결된 시스템이 범위를 더욱 확장하고 정보 흐름이 가속화됨에 따라 열 수준 데이터 계보는 더욱 중요해질 것입니다. 오늘날, 그것은 시간, 노력, 비용을 절약하는 매우 유용한 도구입니다. 곧 데이터 계보는 없어서는 안 될 것이 될 것입니다.

결론

저희 기사를 읽어주셔서 감사합니다. 이 기사를 통해 데이터 계보가 중요한 이유와 데이터 계보가 왜 그렇게 어려운지 더 잘 이해하실 수 있기를 바랍니다. 데이터 계보에 대해 더 자세히 알고 싶으시다면 다음 사이트를 방문해 보시기 바랍니다. Gudu SQLFlow 자세한 내용은.

현재 시중에서 판매되는 최고의 데이터 계보 도구 중 하나인 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적으로 표시할 수 있을 뿐만 아니라, 사용자가 CSV 형식으로 데이터 계보를 제공하고 시각적으로 표시할 수 있도록 해줍니다. (Ryan이 2022년 7월 23일에 게시)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment