본문 바로가기

Big DATA

CDP 7.1.4+ - Hive-Kafka 통합 1. Concept : Kafka Handler - github.com/apache/hive/blob/master/kafka-handler/README.md 2. Security Consideration : github.com/strimzi/strimzi-kafka-operator/issues/4190 * 원하는 구성 Hadoop 클러스터 (CDP Base 7.1.5+) : Hive on Tez (Kerberos 환경) Kafka 클러스터 (CDP Base 7.1.5) : Kafka (unkerberized 환경) * 테스트 방식 Kafka 클러스터 ( Unkerberized 환경) 테스트용 토픽 생성 : hive_test 테스트용 메시지 입력 : JSON 형식 - 예) { "cust_id": 13131.. 더보기
CDP > Kerberos 환경에서 Hive on Tez 모니터링을 위한 webui 활성화 방안 현상 : CDP7.1.x 환경에서 보안 관련 설정을 클러스터에 적용한 경우, Hive 쿼리에 관련된 모니터링 정보가 hiveserver2 webui에 기록되지 않는 경우가 발생. - 해당 이슈의 원인은 크게 두 가지 경우가 존재. 1. Kerberos 환경에 의한 이슈. - Kerberos가 비활성화 인 경우, Hive on Tez 쿼리 수행 결과가 hiveserver2 web ui에 정상출력되지만, - Kerberos를 활성화한 경우, Hive on Tez 쿼리를 수행하더라도 해당 쿼리 정보가 hiveserver2 webui에 기록되지 않는 않음. * 원인 : Kerberos 환경에서는 hive server2 web ui의 인증을 spnego 방식으로 사용하도록 추가 구성을 해야함. * 구성 방식 1).. 더보기
CDP > AD(LDAP)연동 시 사용자 및 그룹이 numeric인 경우 고려사항 Cloudera Data Platform에서 보안 인증을 구성할 때, 주요 구성 요소는 다음과 같다. - 인증 : MS AD 또는 Open-ldap, MS AD를 권장(디렉토리 서비스와 MIT Kerberos 기능을 동시에 제공하며, 기업 환경에서 운영하기 안정적임) 및 Kerberos - 접근제어 : Ranger - 데이터 거버넌스 : Atlas CDP의 경우 사용자 계정으로 인증을 할 때, LDAP에 등록된 사용자 기반으로 Kerberos 인증을 수행하며, LDAP에 등록된 사용자 및 사용자 그룹은 물리적인 빅데이터 시스템의 OS 계정 및 그룹이 동기화되어야 한다. 대부분 Linux의 SSSD를 활용하여 LDAP에 사용자 및 사용자 그룹 정보와 CDP의 시스템 계정(hdfs, impala 등)을 동기.. 더보기
Impala - Statestore와 Coordinator간의 연결 불량 다음과 같이 워크로드가 많은 상황에서 Impala Daemon이 불특정하게 불량 상태.. 로그를 보면, 1. StateStore - 16:43:52초에 Dedicated Coordinator와 연결이 끊어집니다. -------------------------------------------- I1113 16:43:52.344728 46588 client-cache.h:351] RPC recv timed out: dest address: ip-addr or dns:23000, rpc: N6impala18THeartbeatResponseE I1113 16:43:52.344836 46588 client-cache.cc:174] Broken Connection, destroy client for impala_c.. 더보기
[Impala JDBC 인증 설정] WAS에서 JDBC 연결 시 kerberos 통합? Kerberos기반으로 secure Hadoop 클러스터를 구성한 경우, 웹 애플리케이션에서 JDBC 연결을 하는 경우, Kerberos 인증 통합이 되어야만 하는가?- 현실적으로 이와 같은 구성은 기존 레가시 시스템 구성을 변경해야 하는 경우가 발생하기 때문에 불가능한 구성이 되는 경우가 많다.때문에 WAS에서 연동되는 JDBC Connection 인증에 대해서만 LDAP 연동을 하도록 설정이 가능하다. 다음과 같이 JDBC에서 Kerberos 인증 대신 LDAP 인증으로 변경하시면 됩니다.AuthMech=3 1) 클라이언트 사이드의 JDBC 연결 정보에서 인증방식을 LDAP으로 구성Building the Connection URLUsing the connection URL, you supply con.. 더보기
HDFS Balancer DataNode 추가/삭제의 경우 보유된 DataNode에 저장된 데이터를 전체 DataNode에 균등하게 배포하기 위해 HDFS에서 제공되는 Balancer 기능을 사용하여 데이터 조정을해야 합니다. 기본적으로 클러스터 사이즈가 큰 경우, HDFS Balancer에 이동되는 데이터의 규모가 일별 2TB로 제약되어 있기 때문에 매우 오랜 시간이 소요될 수 있습니다. 또한, 데이터 이동의 경우 NameNode의 메타 정보가 변경되기 때문에 Impala Daemon들에게 Balancer이후로 조정된 메타 정보를 인지하기 위해 Refreshment / Invalidate Metadata Command나 Catalog 서비스를 재시작이 요구되기도 합니다. HDFS BalancersHDFS 데이터는 예를 들면 기.. 더보기
Sqoop: Oracle JDBC Driver - Connection reset 에러 증상: 에러 로그: DB Server의 Oracle 리스너가 내려가지 않음에도 불구하고 불특정하게 다음과 같이 Connection Reset 에러가 클라이언트 사이드에서 발생: 클라이언트(Oracle JDBC Driver)와 Oracle Database Server와 연결이 되지 않는 현상 - 불특정하게 발생. 될때도 있고 안될때도 있고...- 리눅스에서만 발생 //-------------------------------------------------------17/03/27 18:15:02 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.10.0 17/03/27 18:15:04 INFO tool.BaseSqoopTool: Using Hive-specific.. 더보기
Apache Kudu 소개 Apache Kudu는 Hadoop 플랫폼용으로 개발된 컬럼어 스토리지이며, 하둡 에코 프로젝트의 기본 사항인 범용 하드웨어 사용, 수평 확장성 및 가용성 보증과 같은 속성을 그대로 지원합니다. Kudu의 혜택은 다음과 같습니다: OLAP 워크로드의 빠른 처리MapReduce, Spark, Flume 및 다른 Hadoop 에코 프로젝트와 연계/통합 지원Apache Impala와 완벽한 통합: Apache Parquet 파일의 HDFS의 완벽한 대안/대체 가능강력하지만 유연한 데이터 일관성(Consistency) 모델 지원: 엄격한 직렬화 옵션을 포함하여 사용자에게 요청 기반으로 데이터 일관성 옵션을 선택하여 사용할 수 있습니다.순차(Sequential) 및 랜덤 데이터 접근을 사용하는 워크로드의 동시 수.. 더보기
Impala Options 1) SCHEDULE_RANDOM_REPLICA Query Option (CDH 5.7 이상)"SCHEDULE_RANDOM_REPLICA" 쿼리 옵션은 각 HDFS 데이터 블록을 처리하는 호스트를 설정할 때 활용되는 알고리즘입니다. 이 옵션은 HDFS 캐싱 기능을 사용하지 않은 테이블과 파티션에만 적용됩니다. Default: falseHDFS 캐시 복제본이 있는 경우, Impala는 캐시된 데이터 블록을 처리할 호스트를 임의로 선택합니다. "SCHEDULE_RANDOM_REPLICA"은 HDFS 캐싱을 사용하지 않은 테이블과 파티션에 적용되는 쿼리 옵션입니다. 기본 동작 방식으로 Impala는 요청받은 쿼리에 대해 개별 호스트에서 실행될 작업량을 예측한 뒤, 가장 적은 워크로드를 가진 호스트를 선택합니다.. 더보기
Cloudera 5.10 업그레이드 후, Hue 콘솔 400 Bad Request 에러. 증상: CDH 버전을 업그레이드 한 뒤, Hue 관리 콘솔에 접속할 때 400 Bad Request 에러 발생Hue 프로세스는 정상적으로 기동되어 있으며, Cloudera Manager 관리 콘솔에 Hue 서비스의 상태는 Green 상태netstat 명령어로 8888 포트가 정상적으로 Listen 웹 브라우저에 DNS 주소로 접속할 때는 정상 동작하지만, ip_address로 접속할 때 위와 같은 문제가 발생. (또는 반대의 경우도 해당 됨) 해결책: Cloudera Manager 관리 콘솔에서 Hue 서비스 클릭구성탭 클릭 및 hue_safety_valve_server.ini에 대한 Hue Server 고급 구성 스니펫(안전벨브)에 다음 옵션 추가 구성[desktop]allowed_hosts=** 원인.. 더보기