데이터 관리의 11가지 어두운 비밀

어떤 사람들은 데이터를 "새로운 석유"라고 부르고, 다른 사람들은 데이터를 "새로운 금"이라고 부릅니다. 이러한 은유의 타당성을 제쳐두고, 데이터 기반 의사 결정의 약속을 이행하려는 모든 기업에 데이터를 구성하고 분석하는 것이 필수적인 일이라는 것은 의심의 여지가 없습니다. 이를 위해 견고한 데이터 관리 전략 핵심입니다. 여기에는 다음이 포함됩니다. 데이터 거버넌스, 데이터 작업, 데이터웨어하우징, 데이터 엔지니어링, 데이터 분석, 데이터 과학 등. 데이터 관리가 올바르게 수행되면 모든 산업의 기업에 경쟁 우위를 제공할 수 있습니다. 이 기사에서는 다음을 소개합니다. 데이터 관리의 11가지 어두운 비밀.

데이터 관리의 어두운 비밀

데이터 관리의 어두운 비밀

데이터 관리의 어두운 비밀 – 1. 구조화되지 않은 데이터는 분석하기 어렵습니다.

80%-90% 기업의 데이터는 비정형 데이터입니다. 디지털 변환이 점차 심해 영역으로 진입함에 따라 비정형 데이터의 양이 빠르게 증가하고 있습니다. 이러한 데이터는 문서, 사진, 오디오 및 비디오 등의 형태로 기업 내부에 분산되어 있습니다. 부서, 애플리케이션, 아키텍처, 멀티 클라우드 환경 등의 이유로 공유 및 사용이 어려운 비정형 데이터 섬을 형성하고 콘텐츠 가치를 파헤쳐 기업 디지털 변환 프로세스를 심각하게 방해합니다.

데이터 관리의 어두운 비밀 – 2. 구조화된 데이터조차도 종종 구조화되지 않음

훌륭한 과학자와 데이터베이스 관리자는 각 필드의 유형과 구조를 지정하여 데이터베이스를 안내합니다. 때로는 더 많은 구조라는 명목으로 주어진 필드의 값을 특정 범위의 정수나 미리 정의된 선택으로 제한합니다. 그렇더라도 데이터베이스 저장 양식을 작성하는 사람들은 어려움을 증가시키는 방법을 찾을 것입니다.

질문이 적용되지 않는다고 생각될 때는 필드가 비어 있는 것으로 표시되기도 하고, 대시나 첫 글자 "na"를 입력하여 표시하는 경우도 있습니다. 훌륭한 개발자는 검증을 통해 이러한 문제 중 일부를 발견할 수 있습니다. Good 데이터 과학자 정리를 통해 불확실성을 줄일 수도 있습니다. 하지만 가장 구조화된 표에도 의심스러운 항목이 있어 분석에 알려지지 않은 내용이나 오류를 도입할 수 있다는 것은 짜증나는 일입니다.

데이터 관리의 어두운 비밀 – 3. 데이터 스키마가 너무 엄격하거나 너무 느슨합니다.

데이터 팀이 스키마 제약 조건을 명확히 하려고 아무리 노력하더라도 다양한 데이터 필드의 값을 정의하는 데 사용된 최종 스키마는 너무 엄격하거나 너무 느슨합니다. 데이터 팀이 엄격한 제약 조건을 추가하면 사용자는 제한된 허용 가능한 값 목록에서 답변을 찾을 수 없다고 불평할 것입니다. 데이터 스키마가 너무 관대한 경우 사용자는 일관성이 거의 없는 이상한 값을 추가할 수 있습니다.

데이터 관리의 어두운 비밀 – 4. 데이터 법률은 매우 엄격합니다

개인정보 보호 및 데이터 보호에 대한 법률은 강력하며 앞으로도 더욱 강화될 것입니다. GDPR, HIPPA 등 12개 이상의 규정이 있기 때문에 데이터 수집은 매우 어렵고 해킹당하면 더욱 위험할 수 있습니다. 많은 경우 변호사를 고용하는 데 드는 비용은 프로그래머나 데이터 과학자를 고용하는 것보다 훨씬 더 비쌉니다. 이러한 골치 아픈 문제 때문에 일부 회사는 데이터를 처리하자마자 폐기합니다.

데이터 관리의 어두운 비밀 – 5. 데이터 정리 비용이 엄청납니다

데이터 정리는 데이터베이스나 데이터 테이블에서 부정확한 데이터 레코드를 수정하고 제거하는 프로세스입니다. 광범위하게 말해서, 데이터 정리에는 불완전하고, 부정확하고, 관련이 없거나 문제가 있는 데이터와 레코드를 식별하고 교체하는 것이 포함됩니다.

많은 데이터 과학자들은 그들의 작업의 90%가 단순히 데이터를 수집하고, 일관된 형태로 제시하고, 끝없는 허점이나 오류를 다루는 것이라고 인정합니다. 데이터를 가진 사람들은 항상 "모든 것이 CSV(Comma Separated Values, 일반적이고 비교적 간단한 파일 형식)로 되어 있어 바로 사용할 수 있습니다."라고 말할 것입니다. 하지만 그들은 빈 필드나 오류 설명에 대해서는 언급하지 않습니다. 데이터 과학 프로젝트를 위한 데이터 정리는 실제로 통계 분석을 수행하기 위해 R이나 Python에서 루틴을 시작하는 것보다 최대 10배 더 많은 시간이 걸릴 수 있습니다.

데이터 관리의 어두운 비밀 – 6. 사용자는 귀하의 데이터 관행을 점점 더 의심하고 있습니다.

최종 사용자와 고객은 회사의 데이터 관리 관행을 점점 더 의심하고 있으며, AI 알고리즘과 그 사용은 두려움을 증폭시키고 점점 더 많은 사람들이 데이터를 수집하는 행위 자체에 대해 깊은 불안을 느끼게 했습니다. 이러한 우려는 규제 프로세스를 주도하고 종종 회사를 홍보 위기에 빠뜨립니다. 그뿐만 아니라 사람들은 가짜 값이나 잘못된 답변으로 데이터 수집을 고의로 방해합니다. 때로는 작업의 절반이 악의적인 파트너와 고객을 상대하는 것입니다.

데이터 관리의 어두운 비밀 – 7. 외부 데이터 통합은 이익을 낼 수 있지만 재앙을 의미할 수도 있습니다.

회사가 수집한 데이터를 소유하는 것은 한 가지 일이지만, 자체 로컬 정보를 타사 데이터와 인터넷에 존재하는 방대한 양의 개인화된 정보와 통합하려는 것은 또 다른 일입니다. 일부 도구는 각 구매 시 개인화된 프로필을 구축하기 위해 각 고객에 대한 데이터를 수집하겠다고 공개적으로 약속합니다. 맞습니다. 그들은 패스트푸드 구매와 신용 점수를 추적하기 위해 테러리스트를 추적하는 스파이 기관과 같은 단어를 사용하고 있습니다. 사람들이 걱정하고 당황하는 것은 당연합니다!

데이터 관리의 어두운 비밀 – 8. 규제 기관이 데이터 사용을 단속하고 있습니다.

현명한 데이터 분석이 언제 한계를 넘을지는 아무도 모르지만, 그럴 때 규제 기관이 개입할 것입니다. 최근 캐나다에서 발생한 사건에서 정부 조사 결과 일부 도넛 가게가 경쟁업체에서 쇼핑한 고객을 추적한 것으로 밝혀졌습니다.

새로 발행된 보도자료에 따르면, "조사 결과, 팀 호튼스가 미국 내 제3자 위치 서비스 제공업체와 맺은 계약에는 회사가 자체 목적으로 '식별 정보 삭제'를 판매할 수 있도록 허용하는 모호하고 관대한 언어가 포함되어 있었습니다. 위치 데이터." 무슨 이유로? 도넛을 더 많이 판매하기 위해서? 어쨌든 규제 기관이 개인 정보와 관련된 모든 것에 점점 더 많은 주의를 기울이고 있는 것으로 밝혀졌습니다.

데이터 관리의 어두운 비밀 – 9. 귀하의 데이터 플랜이 가치가 없을 수도 있습니다

우리는 훌륭한 알고리즘이 모든 것을 더 효율적이고 수익성 있게 만들 수 있다고 생각합니다. 때때로 그러한 알고리즘이 실제로 가능하지만, 가격이 너무 높을 수도 있습니다. 예를 들어, 소비자(그리고 회사)는 잘 설계된 데이터 관리 계획에서 타겟 마케팅의 가치에 대해 점점 더 의문을 품고 있습니다. 어떤 사람들은 광고 추적기가 더 이상 필요하지 않다는 것을 알아차리지 못했기 때문에 구매한 물건에 대한 광고를 자주 본다고 지적합니다.

다른 계획에도 종종 같은 운명이 닥친다. 때로는 엄격한 데이터 분석을 통해 성과가 가장 나쁜 공장을 찾아내기도 하지만, 회사가 건물에 30년 임대 계약을 맺었기 때문에 상관없다. 회사는 모든 데이터 과학 천재가 받아들일 수 없는 답을 내놓을 가능성에 대비해야 한다.

데이터 관리의 어두운 비밀 – 10. 결국 데이터 결정은 종종 주관적인 판단일 뿐입니다.

숫자는 충분한 정밀도를 제공할 수 있지만, 인간이 숫자를 어떻게 해석하느냐가 종종 중요합니다. 모든 데이터 분석과 AI 조작을 거친 후, 대부분의 알고리즘은 값이 임계값보다 높거나 낮은지 결정해야 합니다. 과학자들은 때때로 p-값이 0.05 미만이 되기를 원하고, 경찰은 20% 더 빠른 차량에 티켓을 발급합니다. 이러한 임계값은 일반적으로 임의의 값일 뿐입니다. 데이터에 적용할 수 있는 모든 과학과 수학에도 불구하고, 우리가 생각하는 것보다 많은 "데이터 중심" 프로세스에는 불분명한 영역이 있으며, 회사가 모든 것을 투자하고 있을 수 있지만 자원 데이터 관리 관행에서 의사 결정은 직감과 주관적인 판단에 더 많이 의존합니다.

데이터 관리의 어두운 비밀 – 11. 데이터 저장 비용이 폭발적으로 증가하고 있습니다.

디스크 드라이브는 점점 더 커지고 테라바이트당 가격은 떨어지고 있지만, 프로그래머는 가격 하락보다 훨씬 빠르게 데이터를 수집하고 있습니다. 사물 인터넷(IoT)의 장치는 끊임없이 데이터를 업로드하고 있으며, 사용자는 이러한 바이트의 풍부한 컬렉션을 영원히 탐색할 수 있기를 기대합니다. 동시에, 규정 준수 담당자와 규제 기관은 향후 감사의 경우를 대비해 점점 더 많은 데이터를 요구하고 있습니다. 누군가가 실제로 이 데이터 중 일부를 살펴보는 것은 하나의 일이겠지만, 하루에 할 수 있는 시간이 한정되어 있습니다. 실제로 다시 검토되는 데이터의 비율은 점점 낮아지고 있습니다. 그러나 스토리지 확장 팩의 가격은 상승하고 있습니다.

결론

저희 기사를 읽어주셔서 감사합니다. 마음에 드셨다면 저희는 매우 기쁠 것입니다. 데이터 관리에 대해 더 자세히 알고 싶으시다면 방문하시기를 권장합니다. Gudu SQLFlow 자세한 내용은.

그 중 하나로서 최고의 데이터 계보 도구 오늘날 시장에 출시된 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 얻을 수 있을 뿐만 아니라 데이터 계보, 시각적 표시를 수행할 뿐만 아니라 사용자가 다음을 제공할 수도 있습니다. 데이터 계보 CSV 형식으로 저장하고 시각적으로 표시합니다. (2022년 8월 27일 Ryan이 게시)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment