본문 바로가기

Cloud Data Lakes 데이터 레이크는 기업 내에 존재하는 다양한 데이터 소스에서 생성되는 모든 데이터 유형을 수집하여 저장하고, 해당 데이터를 기반으로 분석 업무를 수행하기 위해 10년 전 처음 소개되었습니다. 데이터 레이크 개념은 과거 기업 환경에서 정형 데이터 분석을 위한 데이터 웨어하우스로는 현재 대다수 기업 환경에서 요구하는 다양한 데이터 소스와 유형을 수용할 수 없으며, 데이터 규모 역시 페타-바이트로 확장하여 사용할 수 없는 제약사항이 존재했기 때문에 등장하였습니다. 빅 데이터 시장 규모가 커짐에 따라, 데이터 레이크는 많은 양의 데이터 수집, 저장 및 분석이 가능한 이상적인 데이터 플랫폼으로 간주되었습니다. 오늘날 대부분의 기업들은 데이터를 매우 중요한 자산임으로 데이터 레이크에 대한 관심이 증가하었습니다. 데이.. 더보기
Snowflake – Partitioning Part I : Performance of MIN/MAX Functions - Metadata Operations & Partition Pruning Snowflake는 테이블 데이터를 마이크로 파티셔닝 기반으로 저장하며, 모든 파티션의 개별 데이터와 전체 테이블에 대한 MIN/MAX 통계 값은 Snowflake 내부 테이블 형태로 저장보관됩니다. 우선은 MIN/MAX 통계값을 활용하여 SQL 쿼리 성능에 어떤 영향을 미치는지 살펴보도록 하겠습니다. 예를 들어 625억 건의 데이터 레코드가 있는 9.1TB 데이터-셋이 있는 이벤트 테이블이 있다고 가정해 보겠습니다. 최초 쿼리는 매우 간단합니다: SELECT MIN(event_hour), MAX(event_hour) FROM events; --------.. 더보기
Snowflake Elastic Data Warehouse 현재 우리는 데이터 시대에 살고 있습니다. 분석해야 하는 데이터양이 증가함에 따라 데이터 처리는 분산 컴퓨팅 아키텍처(Shared-Nothing)를 통해 처리되고 있습니다. 또 하나 주목해야 하는 점은 분산 처리 시스템이 기존 데이터 센터에서 퍼블릭 클라우드로 전환되고 있는 추세입니다. 퍼블릭 클라우드는 거의 무제한의 컴퓨팅 및 스토리지 리소스를 온디맨드 방식으로 제공하고 있으며, SaaS 모델은 기업용 솔루션을 비용과 복잡성으로 인해 이전에 도입하여 사용할 수 없었던 사용자들에게도 엔터프라이즈 수준의 솔루션을 제공하고 사용할 수 있습니다. 이와 같은 환경적인 변화에 따라 기존 데이터 플랫폼 제공 업체들은 새로운 환경에 적응하기 위해 다양한 시도를 하고 있지만, 동시에 퍼블릭 클라우드 환경에 완벽하게 적.. 더보기