본문 바로가기

Snowflake - The Data Cloud

Cloud Data Warehousing 1. Getting Up to Speed on Cloud Data Warehousing 어떤 이유든 클라우드 컴퓨팅과 SaaS는 수십 년동안 기업 환경에서 사용되어 왔습니다. 그러나 클라우드 DWaaS(Data Warehouse-as-a-service)는 온-프레미스 DW와 유사한 솔루션으로 최근에 등장했습니다. 지금 등장한 이유가 무엇이며, 변경된 사항이 무엇입니까? 여기에서는 이 질문에 대한 답변입니다. 먼저 데이터 웨어하우스를 정의하고, 데이터 웨어하우스 진화과정을 알아보고 클라우드에서 데이터 웨어하우스를 어떻게 적용했는지를 살펴보도록 하겠습니다. 그런 다음 기업들이 클라우드 DWaaS의 이점을 얻을 수 있는 방법을 알아보고 데이터 중심의 기업으로 전환하기 위해서 데이터 웨어하우스를 도입한 이유를 .. 더보기
Snowflake Data Cloud Snowflake의 Data Cloud 소개 데이터 클라우드는 거의 무제한의 규모, 동시성 및 성능으로 기업 내의 데이터를 모바일화하는 글로벌 네트워크입니다. 데이터 클라우드 내에서 개별 부서 사용자는 그들의 사일로 된 데이터를 단일 플랫폼으로 통합하고, 데이터를 쉽게 탐색하고, 이 데이터를 다른 부서의 사용자와 안전하게 공유하여, 다양한 분석 워크로드를 수행할 수 있습니다. 데이터나 사용자의 위치와 관련 없이 데이터 클라우드는 동일한 사용자 경험을 제공합니다. 데이터와 워크로드가 멀티-클라우드 환경에서 저장되어 있거나 실행되더라도 상관없습니다. 데이터 클라우드를 통해 부서, 공급 업체, 협력사와 고객에게 데이터를 공유할 수 있으며, Snowflake Data Marketplace에는 125개 이상의 파.. 더보기
Cloud Data Platforms 데이터는 효율적인 비즈니스 활동을 지원하며, 새로운 수익 기회를 창출하고, 탁월한 사용자 경험을 제공하기 위해 사용되어야 하는 필수 요소입니다. 그러나 기업 환경에서 사용되었던 기존 환경, 도구 및 아키텍처는 오늘날 급증하는 데이터 공급 및 수요를 맞추지 못하고 있습니다. 단순한 리포팅 업무, 데이터 시각화 앱 그리고 알고리즘 기반의 고급 AI/ML에 이르기까지 데이터에 의존하는 애플리케이션 및 워크로드는 데이터의 양과 다양성이 증가하면서 사용자 요구사항을 만족시켜주지 못하는 한계에 도달했습니다. 클라우드 기반의 데이터 플랫폼은 새로운 아키텍처가 아닙니다. 모든 데이터를 안전하게 저장하고 일관되게 작동하도록 하는 통합된 서비스입니다. 클라우드 기반의 데이터 플랫폼에서는 분석을 위한 데이터 웨어하우스, 데.. 더보기
Cloud Data Lakes 데이터 레이크는 기업 내에 존재하는 다양한 데이터 소스에서 생성되는 모든 데이터 유형을 수집하여 저장하고, 해당 데이터를 기반으로 분석 업무를 수행하기 위해 10년 전 처음 소개되었습니다. 데이터 레이크 개념은 과거 기업 환경에서 정형 데이터 분석을 위한 데이터 웨어하우스로는 현재 대다수 기업 환경에서 요구하는 다양한 데이터 소스와 유형을 수용할 수 없으며, 데이터 규모 역시 페타-바이트로 확장하여 사용할 수 없는 제약사항이 존재했기 때문에 등장하였습니다. 빅 데이터 시장 규모가 커짐에 따라, 데이터 레이크는 많은 양의 데이터 수집, 저장 및 분석이 가능한 이상적인 데이터 플랫폼으로 간주되었습니다. 오늘날 대부분의 기업들은 데이터를 매우 중요한 자산임으로 데이터 레이크에 대한 관심이 증가하었습니다. 데이.. 더보기
Snowflake – Partitioning Part I : Performance of MIN/MAX Functions - Metadata Operations & Partition Pruning Snowflake는 테이블 데이터를 마이크로 파티셔닝 기반으로 저장하며, 모든 파티션의 개별 데이터와 전체 테이블에 대한 MIN/MAX 통계 값은 Snowflake 내부 테이블 형태로 저장보관됩니다. 우선은 MIN/MAX 통계값을 활용하여 SQL 쿼리 성능에 어떤 영향을 미치는지 살펴보도록 하겠습니다. 예를 들어 625억 건의 데이터 레코드가 있는 9.1TB 데이터-셋이 있는 이벤트 테이블이 있다고 가정해 보겠습니다. 최초 쿼리는 매우 간단합니다: SELECT MIN(event_hour), MAX(event_hour) FROM events; --------.. 더보기
Snowflake Elastic Data Warehouse 현재 우리는 데이터 시대에 살고 있습니다. 분석해야 하는 데이터양이 증가함에 따라 데이터 처리는 분산 컴퓨팅 아키텍처(Shared-Nothing)를 통해 처리되고 있습니다. 또 하나 주목해야 하는 점은 분산 처리 시스템이 기존 데이터 센터에서 퍼블릭 클라우드로 전환되고 있는 추세입니다. 퍼블릭 클라우드는 거의 무제한의 컴퓨팅 및 스토리지 리소스를 온디맨드 방식으로 제공하고 있으며, SaaS 모델은 기업용 솔루션을 비용과 복잡성으로 인해 이전에 도입하여 사용할 수 없었던 사용자들에게도 엔터프라이즈 수준의 솔루션을 제공하고 사용할 수 있습니다. 이와 같은 환경적인 변화에 따라 기존 데이터 플랫폼 제공 업체들은 새로운 환경에 적응하기 위해 다양한 시도를 하고 있지만, 동시에 퍼블릭 클라우드 환경에 완벽하게 적.. 더보기
Snowflake의 데이터 공유(Data Sharing) 1. 데이터 공유의 필요성 오늘날 모든 기업들은 매일 데이터를 통해 업무 성과를 추적하고, 데이터 기반으로 의사결정을 하며, 고객 성향을 파악할 때도 데이터를 활용합니다. 또한, 판매, 재고, 물류에 관련된 다양한 업무 영역에서 추세 예측을 위해 데이터를 활용합니다. 데이터는 부서 단위의 활용에서 벗어나 기업 내의 다양한 팀에서 데이터를 생성하고 소비하며, 외부 기간 및 고객으로부터 생성되는 데이터를 분석 또는 업무 목적으로 활용하거나 기업 내부의 데이터를 외부 기간에 제공할 필요가 있습니다. 오늘날 데이터는 기업 내/외부 조직간에 사용되는 중요한 리소스의 하나가 되었습니다. 하지만, 기업 내에서 생성된 데이터는 사일로된 데이터 분석환경에 의해 특정 부서 단위로 제한된 사용자에게만 제공되고 있습니다. 이.. 더보기