본문 바로가기

Big DATA

How Does Cloudera Manager Work? 본 문서에서는 Cloudera Manager의 내부 동작 방식에 대해 설명을 하고 있습니다. Cloudera Manager의 Term아래의 그림은 Cloudera Manager에 내부 용어를 설명하고 있습니다: "Deployment"는 가장 큰 개념으로 한 개이상의 클러스터를 포함할 수 있습니다. "Cluster"는 복 수개의 호스트의 집합(동일한 CDH 버전이 실행됨을 의미)이며, "Host"는 물리적인 장치입니다. "Service"는 다양한 역할을 담당하는 특정 호스트에 배포된 인스턴스입니다. "Role Config Goup"은 복 수의 Role을 한번에 구성하기 위한 기능을 제공하는 단위입니다. 구성정보는 컨텍스트 기반의로 구조화되어 있습니다. 예를 들어, DataNode의 로그 파일의 경로 정보는.. 더보기
Impala Timeout Setting Timeout Periods for Daemons, Queries, and SessionsCDH 클러스터의 상태에 따라 다양한 timeout 옵션의 값을 조정할 필요가 있습니다. Impala 쿼리가 평소보다 느리지만 지속적으로 처리되는 환경에서는 timeout 옵션에 의해 쿼리 수행이 취소되지 않도록 조치하는 것이 바람직하며, 동작하는 쿼리가 장시간동안 hang 상태로 유지되거나 Connection이 idle 상태로 오랫동안 유지되는 경우 timeout 값을 짧게 설정하는 것이 더 효율적일 수 있습니다.Increasing the Statestore Timeout예를 들어 수백 개의 데이터베이스, 수만 개의 테이블등과 같이 대량의 Impala 스키마가 있는 환경에서, Impala 서비스를 실.. 더보기
Using Impala through a Proxy for High Availability 다중 사용자 및 운영 클러스터 환경에서 Impala 서비스에 대한 가용성을 확보하기 위해 Proxy 서버나 하드웨어 Load-Balancer를 설정할 수도 있습니다. 현재 버전에서 Impala statestore 메카니즘은 로드발랜서와 같은 기능이 포함되지 않았습니다. 대 규모 운영환경에서는 "L4 -> HAProxy와 같은 소프트웨어 Load-Balancer -> Impala Daemons"과 같이 구성가능합니다. 본 문서에서는 데이터 노드에 배포 구성된 다중 Impala 데몬 프로세스를 HAProxy로 구성하고, Hue와 같은 JDBC 연결 역시 HAProxy를 통해 구성하는 방식을 설명할 예정이며, Kerberos로 보호되는 클러스터 환경에서는 몇 가지 추가 고려 사항이 있지만 본 문서에 포함되지 .. 더보기
Components of the Impala Server Impala의 주 목적은 빠르고 효율적인 SQL-On-Hadoop 오퍼레이션을 제공하는 것입니다. 특히, Impala는 Hive에서 사용하는 테이블 메타 정보를 보관 관리하는 Metastore을 직접 참조하기 때문에, Hive가 정의한 테이블에 로드된 데이터가 Impala에서 지원되는 데이터 유형, 파일 포멧 및 압축 코덱인 경우 해당 테이블을 직접 접속하여 사용할 수 있습니다.Overview of Impala Metadata and the MetastoreImpala는 Hive Metastore라는 데이터베이스에 테이블 메타 정보를 유지관리하며, 다음과 같은 데이터 파일의 특성에 대한 다른 메타데이터 정보를 추적관리합니다: HDFS내의 블록 위치 정보많은 양의 데이터나 많은 파티션이 있는 테이블에 대해.. 더보기
Cloudera - Oracle RAC 구성 1. Hue 구성Oracle RAC 환경 Hue 연동 - Hue는 Oracle과 연동할때 OCI 기반으로 django를 사용함 (참고1)- Oracle RAC은 instance들을 하나로 묶어 cluster alias name 구성되어 있음 (tnsnames.ora 참고) 적용부분) CM의 Hue servcie 구성에서 hue_safety_valve_server.ini에대한 Hue Server 고급 구성 스니펫(안전밸브)engine=oracleport=0user=testpassword=testname=(DESCRIPTION=(LOAD_VALANCE=off)(DESCRIPTION=(LOAD_BALANCE=off)(FAILOVER=on)(CONNECT_TIMEOUT=5)(TRANSPORT_CONNECT_TI.. 더보기
HBase Authorization 주의: 운영 중인 HBase 시스템에서 보안 구성을 Disable하는 것은 매우 어려운 작업이며, 데이터 유실이 발생될 수도 있습니다. 이러한 작업을 수행하기 전에 반드시 Cloudera 기술 지원팀과 상의를 해야 합니다.커버로스 기반으로 HBase 인증 환경을 구성한 뒤에, 클라이언트에게 접근 권한을 통제하기 위한 권한 규칙을 정의해야 합니다. 현재 버전에서 HBase는 테이블, 컬럼 및 cell에 대한 권한 규칙을 적용할 수 있습니다. Cell에 대한 권한기반의 허가 기능은 베타기능이기 때문에 주의하여 사용되어야 합니다.HBase의 권한 관리 기능를 사용하기 위해서는 Kerberos를 활용한 인증 환경이 사전에 구성되어 있어야 합니다. 1) Understanding HBase Access Levels.. 더보기
Hue with LDAP Integration Hue의 기본 인증 방식은 최초 로그인하는 시점에 Username/Password를 임의로 지정 선택가능하며, 이 때 사용된 사용자 계정에게는 자동적으로 관리자(superuser) 권한이 부여됩니다.일반적으로 admin 계저을 많이 사용하며, 이 admin 계정을 사용하여 다른 사용자 계정을 생성하거나 생성된 계정에 관리자 권한을 부여할 수 있습니다. Hue User는 Linux username과 동일한 사용자여야 합니다. 기본 Hue의 인증 시스템으로 Hue DB를 사용하지만, PAM, SPNEGO, OpenID, OAuth, SAML 및 LDAP과 같은 외부 인증 시스템과 연계가 가능하며, 본 문서에서는 기업용 인증 시스템으로 가장 많이 활용되는 LDAP 디렉토리 서비스(Microsoft AD나 Op.. 더보기
Oozie Timezoe 변경 - Hue 현상: Oozie의 Coordinator의 TimeZone이 Seoul로 설정되어 있더라도 Oozie Job의 Bundle 실행은 UTC 기준(9시간 이전)으로 실행됨) 조치: Cloudera Manager에서, Oozie Service > Configuration > Advanced > Oozie Server Advanced Configuration Snippet(Safety Value) for oozie-site.xml에서이름: oozie.processing.timezone값: GMT+0900으로 설정하고, Oozie를 재시작추가적으로 Oozie Coordinate의 TimeZone이 Asia/Seoul로 설정되어 있는지 여부 확인 더보기
Configuring HiveServer2 Heap Size and Garbage Collection for Hive Components HiveServer2 및 Hive Metastore 정상적으로 동작하기 위해서 충분한 량의 메모리 설정을 요구하며, 운영환경에서는 기본 설정값인 256MB의 Heap 사이즈는 적합하지 않습니다. 다음은 워크로드 별로 Cloudera에서 권장하는 값입니다. Cloudera는 HiveServer2의 JVM Heap Size를 12GB 이상으로 설정하는 경우 HiveServer2를 다중 인스턴스로 Number of Concurrent ConnectionsHiveServer2 Heap Size Minimum RecommendationHive Metastore Heap Size Minimum Recommendation최.. 더보기
Sensitive Data Redaction 데이터 치환(Data Redaction)은 모든 개인 식별 정보(PII: Personally Identifiable Information)와 같은 민감한 정보를 보호하는 주요 방법입니다. 개인 식별 정보(PII)는자체 데이터로만 또는 다른 정보와 결합되어 특정 개인을 식별하거나 그 사람의 위치 정보를 식별할 수 있는 것을 의미합니다. Redaction 기능을 사용하면 PII 정보를 식별 정보를 포함하지 않는 패턴으로 변환 할 수 있습니다. 예를 들면, 123-45-6789와 같은 주민번호(Social Security Number)를 다음과 같은 형식과 같이 인지할 수 없는 문자열로 변환할 수 있습니다: XXX-XX-XXXX 또는 XXX-XX-6789.하둡내의 데이터를 보호하기 위해서 암호화 기술을 사용할.. 더보기