데이터 레이크 101
데이터 레이크는 현재 인기 있는 개념이며, 많은 회사가 자체 데이터 레이크를 구축하거나 구축할 계획입니다. 그러나 데이터 레이크를 계획하고 구축하기 전에 데이터 레이크가 무엇이고, 왜 필요한지, 그 가치는 무엇이고, 그 적용 시나리오는 무엇인지 명확히 해야 합니다. 이 글에서는 이러한 질문에 답하여 더 잘 이해할 수 있도록 하겠습니다.

데이터 레이크란 무엇인가?
데이터 레이크란 무엇인가?
데이터 레이크는 구조화된, 반구조화된, 비구조화된 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 저장소입니다. 데이터를 기본 형식으로 저장하고 크기 제한에 관계없이 모든 변환 형식을 처리할 수 있습니다.
이는 기업이 온프레미스, 클라우드 또는 엣지 컴퓨팅 시스템에서 어떤 시스템으로부터든 어떤 데이터든 어떤 속도로든 수집하고, 모든 유형이나 양의 데이터를 완전한 충실도로 저장하고, 실시간 또는 일괄 처리로 데이터를 처리하고, SQL, Python, R 또는 기타 언어, 타사 데이터 또는 분석 애플리케이션을 사용하여 데이터를 분석할 수 있는 확장 가능하고 안전한 플랫폼을 제공합니다.
왜 필요한가요?
데이터에서 비즈니스 가치를 성공적으로 창출하는 조직은 경쟁사보다 성과가 좋습니다. Aberdeen의 조사에 따르면 데이터 레이크를 구현하는 조직은 유기적 매출 성장에서 비슷한 회사보다 9% 더 높은 성과를 보였습니다. 이러한 리더는 로그 파일, 클릭 스트림 데이터, 소셜 미디어, 데이터 레이크에 저장된 인터넷 연결 장치와 같은 새로운 소스에서 머신 러닝과 같은 새로운 유형의 분석을 가능하게 합니다. 이를 통해 고객을 유치하고 유지하고, 생산성을 높이고, 장비를 사전에 유지 관리하고, 정보에 입각한 의사 결정을 내림으로써 비즈니스 성장 기회를 더 빠르게 식별하고 대응하는 데 도움이 됩니다.
그 가치는 무엇인가?
한편으로는 다양한 유형의 데이터를 하나로 모을 수 있습니다. 다른 한편으로는 사전 정의된 모델 없이도 데이터 분석을 수행할 수 있다는 점이 장점입니다. 오늘날의 빅데이터 아키텍처는 확장 가능하며 사용자에게 점점 더 많은 실시간 분석을 제공할 수 있습니다. 오늘날 비즈니스 인텔리전스(BI)와 데이터웨어하우스가 없어지기 전에 빅데이터 분석과 빅데이터 레이크는 실시간 의사 결정을 지원할 수 있는 더 많은 유형의 실시간 지능형 서비스로 발전하고 있습니다.
이는 기업에 어떤 이점이 있나요?
첫 번째, 데이터 가치 마이닝을 위한 더 강력한 기능을 가지고 있습니다. 데이터 분석, 머신 러닝, 데이터 접근 및 관리와 같은 세분화된 권한 부여 및 감사의 실현에서 데이터 레이크의 가치는 더 예리합니다.
두번째, 데이터 사일로 현상이 제거됩니다. 데이터 형식의 유형에 대한 제한이 없으며 모든 데이터가 데이터 레이크로 유입될 수 있습니다. 사용자 데이터가 생성된 후 데이터 레이크로 유입되기 전에 데이터를 처리하거나 구조화하지 않고도 데이터의 원래 내용과 속성에 따라 데이터 레이크에 직접 저장할 수 있습니다.
그만큼 제삼 사용자의 대규모 데이터 저장소의 탄력적 확장을 충족하는 것입니다. 관계형 데이터베이스의 테이블과 같은 구조화된 데이터, CSV, JSON, XML, 로그 등과 같은 반구조화된 데이터, 이메일, 문서, PDF, 그래픽, 오디오, 비디오 등과 같은 비구조화된 데이터를 포함하여 현재 사용자를 위한 복잡한 데이터 유형을 지원합니다. 데이터 레이크는 PB 수준 및 EB 수준에서 대규모 저장소 배포를 실현할 수 있습니다.
네번째, 컴퓨팅과 스토리지의 분리가 달성되었습니다. 업계에서 인식하는 미래의 일반적인 방향을 고려할 때, 스토리지와 컴퓨팅 분리 아키텍처는 독립적인 확장성을 제공하여 컴퓨팅 엔진이 데이터가 레이크로 유입되는 동안 필요에 따라 확장할 수 있도록 합니다. 더 중요한 것은, 스토리지와 컴퓨팅의 분리 모드가 더 나은 비용 성능을 제공한다는 것입니다. 데이터 레이크에서 컴퓨팅과 스토리지를 분리한다는 것은 데이터 처리 및 분석 엔진과 디스크가 다른 호스트에 있다는 것을 의미하지 않고 데이터 콘텐츠 스토리지와 데이터 처리 및 분석 엔진을 분리한다는 것을 지적해야 합니다.
데이터 레이크가 필요한지 어떻게 판단하시나요?
회사에 데이터 레이크가 필요한지 여부를 결정할 때는 처리하고 있는 데이터 유형, 해당 데이터로 수행하려는 작업, 데이터 수집 프로세스의 복잡성, 데이터 관리 등을 고려해야 합니다. 데이터 거버넌스 귀하의 조직 내 사람들이 사용하는 전략, 도구 및 기술 수준입니다.
오늘날 기업들은 데이터 레이크의 가치를 다른 관점에서 바라보기 시작했습니다. 즉, 데이터 레이크는 완전한 충실도의 데이터를 저장하는 데 사용될 뿐만 아니라 사용자가 비즈니스 상황에 대해 더 깊이 이해하는 데 도움이 될 수도 있습니다. 데이터 레이크는 그 어느 때보다 풍부한 맥락을 제공하기 때문에 분석 실험의 속도를 높이는 데 도움이 됩니다.
데이터 레이크는 주로 대량의 빅데이터를 처리하기 위해 개발되었으며, 기업은 종종 원시 데이터를 변환하지 않고 일괄 처리 및/또는 스트리밍을 통해 데이터 레이크로 옮길 수 있습니다. 기업은 주로 다음과 같은 목적으로 이를 사용합니다.
- 총 소유 비용 절감
- 데이터 관리를 간소화합니다.
- 인공지능과 머신러닝을 도입할 준비를 하세요.
- 분석 속도 향상
- 보안과 거버넌스를 강화합니다.
사용 시나리오는 무엇입니까?
데이터 레이크는 분석과 인공지능의 기반을 제공하므로 모든 산업 분야의 기업이 이를 활용해 수익을 늘리고, 비용을 절감하고, 위험을 줄이고 있습니다.
- 미디어 및 엔터테인먼트: 음악, 라디오, 팟캐스트의 온라인 스트리밍 서비스를 제공하는 기업은 사용자가 더 많은 서비스를 소비하도록 추천 시스템을 개선하여 수익을 늘릴 수 있으며, 이를 통해 기업은 더 많은 광고를 판매할 수 있습니다.
- 통신: 다국적 통신 회사는 고객 이탈률을 줄이기 위해 고객 이탈 경향성 모델을 구축하여 비용을 절감할 수 있습니다.
- 금융 서비스: 투자 회사는 데이터 레이크를 활용하여 머신 러닝을 구현함으로써 실시간 시장 데이터가 제공되는 즉시 포트폴리오 리스크를 관리할 수 있습니다.
결론
저희 기사를 읽어주셔서 감사합니다. 이 기사가 데이터 레이크가 무엇인지 더 잘 이해하는 데 도움이 되기를 바랍니다. 이에 대해 자세히 알아보려면 다음을 방문하시기 바랍니다. Gudu SQLFlow 자세한 내용은.
그 중 하나로서 최고의 데이터 계보 도구 오늘날 시장에 출시된 Gudu SQLFlow는 SQL 스크립트 파일을 분석하고 데이터 계보를 얻고 시각적 표시를 수행할 뿐만 아니라 사용자가 다음을 제공할 수 있도록 합니다. 데이터 계보 CSV 형식으로 저장하고 시각적으로 표시합니다. (2022년 5월 29일 Ryan이 게시)
이 글을 재미있게 읽으셨다면 아래의 다른 기사도 읽어보세요.