본문 바로가기

HDFS Balancer DataNode 추가/삭제의 경우 보유된 DataNode에 저장된 데이터를 전체 DataNode에 균등하게 배포하기 위해 HDFS에서 제공되는 Balancer 기능을 사용하여 데이터 조정을해야 합니다. 기본적으로 클러스터 사이즈가 큰 경우, HDFS Balancer에 이동되는 데이터의 규모가 일별 2TB로 제약되어 있기 때문에 매우 오랜 시간이 소요될 수 있습니다. 또한, 데이터 이동의 경우 NameNode의 메타 정보가 변경되기 때문에 Impala Daemon들에게 Balancer이후로 조정된 메타 정보를 인지하기 위해 Refreshment / Invalidate Metadata Command나 Catalog 서비스를 재시작이 요구되기도 합니다. HDFS BalancersHDFS 데이터는 예를 들면 기.. 더보기
Sqoop: Oracle JDBC Driver - Connection reset 에러 증상: 에러 로그: DB Server의 Oracle 리스너가 내려가지 않음에도 불구하고 불특정하게 다음과 같이 Connection Reset 에러가 클라이언트 사이드에서 발생: 클라이언트(Oracle JDBC Driver)와 Oracle Database Server와 연결이 되지 않는 현상 - 불특정하게 발생. 될때도 있고 안될때도 있고...- 리눅스에서만 발생 //-------------------------------------------------------17/03/27 18:15:02 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.10.0 17/03/27 18:15:04 INFO tool.BaseSqoopTool: Using Hive-specific.. 더보기
Apache Kudu 소개 Apache Kudu는 Hadoop 플랫폼용으로 개발된 컬럼어 스토리지이며, 하둡 에코 프로젝트의 기본 사항인 범용 하드웨어 사용, 수평 확장성 및 가용성 보증과 같은 속성을 그대로 지원합니다. Kudu의 혜택은 다음과 같습니다: OLAP 워크로드의 빠른 처리MapReduce, Spark, Flume 및 다른 Hadoop 에코 프로젝트와 연계/통합 지원Apache Impala와 완벽한 통합: Apache Parquet 파일의 HDFS의 완벽한 대안/대체 가능강력하지만 유연한 데이터 일관성(Consistency) 모델 지원: 엄격한 직렬화 옵션을 포함하여 사용자에게 요청 기반으로 데이터 일관성 옵션을 선택하여 사용할 수 있습니다.순차(Sequential) 및 랜덤 데이터 접근을 사용하는 워크로드의 동시 수.. 더보기