본문 바로가기

Impala Timeout Setting Timeout Periods for Daemons, Queries, and SessionsCDH 클러스터의 상태에 따라 다양한 timeout 옵션의 값을 조정할 필요가 있습니다. Impala 쿼리가 평소보다 느리지만 지속적으로 처리되는 환경에서는 timeout 옵션에 의해 쿼리 수행이 취소되지 않도록 조치하는 것이 바람직하며, 동작하는 쿼리가 장시간동안 hang 상태로 유지되거나 Connection이 idle 상태로 오랫동안 유지되는 경우 timeout 값을 짧게 설정하는 것이 더 효율적일 수 있습니다.Increasing the Statestore Timeout예를 들어 수백 개의 데이터베이스, 수만 개의 테이블등과 같이 대량의 Impala 스키마가 있는 환경에서, Impala 서비스를 실.. 더보기
Using Impala through a Proxy for High Availability 다중 사용자 및 운영 클러스터 환경에서 Impala 서비스에 대한 가용성을 확보하기 위해 Proxy 서버나 하드웨어 Load-Balancer를 설정할 수도 있습니다. 현재 버전에서 Impala statestore 메카니즘은 로드발랜서와 같은 기능이 포함되지 않았습니다. 대 규모 운영환경에서는 "L4 -> HAProxy와 같은 소프트웨어 Load-Balancer -> Impala Daemons"과 같이 구성가능합니다. 본 문서에서는 데이터 노드에 배포 구성된 다중 Impala 데몬 프로세스를 HAProxy로 구성하고, Hue와 같은 JDBC 연결 역시 HAProxy를 통해 구성하는 방식을 설명할 예정이며, Kerberos로 보호되는 클러스터 환경에서는 몇 가지 추가 고려 사항이 있지만 본 문서에 포함되지 .. 더보기
Components of the Impala Server Impala의 주 목적은 빠르고 효율적인 SQL-On-Hadoop 오퍼레이션을 제공하는 것입니다. 특히, Impala는 Hive에서 사용하는 테이블 메타 정보를 보관 관리하는 Metastore을 직접 참조하기 때문에, Hive가 정의한 테이블에 로드된 데이터가 Impala에서 지원되는 데이터 유형, 파일 포멧 및 압축 코덱인 경우 해당 테이블을 직접 접속하여 사용할 수 있습니다.Overview of Impala Metadata and the MetastoreImpala는 Hive Metastore라는 데이터베이스에 테이블 메타 정보를 유지관리하며, 다음과 같은 데이터 파일의 특성에 대한 다른 메타데이터 정보를 추적관리합니다: HDFS내의 블록 위치 정보많은 양의 데이터나 많은 파티션이 있는 테이블에 대해.. 더보기