본문 바로가기

Big DATA/Impala

Impala - Statestore와 Coordinator간의 연결 불량 다음과 같이 워크로드가 많은 상황에서 Impala Daemon이 불특정하게 불량 상태.. 로그를 보면, 1. StateStore - 16:43:52초에 Dedicated Coordinator와 연결이 끊어집니다. -------------------------------------------- I1113 16:43:52.344728 46588 client-cache.h:351] RPC recv timed out: dest address: ip-addr or dns:23000, rpc: N6impala18THeartbeatResponseE I1113 16:43:52.344836 46588 client-cache.cc:174] Broken Connection, destroy client for impala_c.. 더보기
[Impala JDBC 인증 설정] WAS에서 JDBC 연결 시 kerberos 통합? Kerberos기반으로 secure Hadoop 클러스터를 구성한 경우, 웹 애플리케이션에서 JDBC 연결을 하는 경우, Kerberos 인증 통합이 되어야만 하는가?- 현실적으로 이와 같은 구성은 기존 레가시 시스템 구성을 변경해야 하는 경우가 발생하기 때문에 불가능한 구성이 되는 경우가 많다.때문에 WAS에서 연동되는 JDBC Connection 인증에 대해서만 LDAP 연동을 하도록 설정이 가능하다. 다음과 같이 JDBC에서 Kerberos 인증 대신 LDAP 인증으로 변경하시면 됩니다.AuthMech=3 1) 클라이언트 사이드의 JDBC 연결 정보에서 인증방식을 LDAP으로 구성Building the Connection URLUsing the connection URL, you supply con.. 더보기
Impala Options 1) SCHEDULE_RANDOM_REPLICA Query Option (CDH 5.7 이상)"SCHEDULE_RANDOM_REPLICA" 쿼리 옵션은 각 HDFS 데이터 블록을 처리하는 호스트를 설정할 때 활용되는 알고리즘입니다. 이 옵션은 HDFS 캐싱 기능을 사용하지 않은 테이블과 파티션에만 적용됩니다. Default: falseHDFS 캐시 복제본이 있는 경우, Impala는 캐시된 데이터 블록을 처리할 호스트를 임의로 선택합니다. "SCHEDULE_RANDOM_REPLICA"은 HDFS 캐싱을 사용하지 않은 테이블과 파티션에 적용되는 쿼리 옵션입니다. 기본 동작 방식으로 Impala는 요청받은 쿼리에 대해 개별 호스트에서 실행될 작업량을 예측한 뒤, 가장 적은 워크로드를 가진 호스트를 선택합니다.. 더보기
Impala Timeout Setting Timeout Periods for Daemons, Queries, and SessionsCDH 클러스터의 상태에 따라 다양한 timeout 옵션의 값을 조정할 필요가 있습니다. Impala 쿼리가 평소보다 느리지만 지속적으로 처리되는 환경에서는 timeout 옵션에 의해 쿼리 수행이 취소되지 않도록 조치하는 것이 바람직하며, 동작하는 쿼리가 장시간동안 hang 상태로 유지되거나 Connection이 idle 상태로 오랫동안 유지되는 경우 timeout 값을 짧게 설정하는 것이 더 효율적일 수 있습니다.Increasing the Statestore Timeout예를 들어 수백 개의 데이터베이스, 수만 개의 테이블등과 같이 대량의 Impala 스키마가 있는 환경에서, Impala 서비스를 실.. 더보기
Using Impala through a Proxy for High Availability 다중 사용자 및 운영 클러스터 환경에서 Impala 서비스에 대한 가용성을 확보하기 위해 Proxy 서버나 하드웨어 Load-Balancer를 설정할 수도 있습니다. 현재 버전에서 Impala statestore 메카니즘은 로드발랜서와 같은 기능이 포함되지 않았습니다. 대 규모 운영환경에서는 "L4 -> HAProxy와 같은 소프트웨어 Load-Balancer -> Impala Daemons"과 같이 구성가능합니다. 본 문서에서는 데이터 노드에 배포 구성된 다중 Impala 데몬 프로세스를 HAProxy로 구성하고, Hue와 같은 JDBC 연결 역시 HAProxy를 통해 구성하는 방식을 설명할 예정이며, Kerberos로 보호되는 클러스터 환경에서는 몇 가지 추가 고려 사항이 있지만 본 문서에 포함되지 .. 더보기
Components of the Impala Server Impala의 주 목적은 빠르고 효율적인 SQL-On-Hadoop 오퍼레이션을 제공하는 것입니다. 특히, Impala는 Hive에서 사용하는 테이블 메타 정보를 보관 관리하는 Metastore을 직접 참조하기 때문에, Hive가 정의한 테이블에 로드된 데이터가 Impala에서 지원되는 데이터 유형, 파일 포멧 및 압축 코덱인 경우 해당 테이블을 직접 접속하여 사용할 수 있습니다.Overview of Impala Metadata and the MetastoreImpala는 Hive Metastore라는 데이터베이스에 테이블 메타 정보를 유지관리하며, 다음과 같은 데이터 파일의 특성에 대한 다른 메타데이터 정보를 추적관리합니다: HDFS내의 블록 위치 정보많은 양의 데이터나 많은 파티션이 있는 테이블에 대해.. 더보기