본문 바로가기

Snowflake의 데이터 공유(Data Sharing) 1. 데이터 공유의 필요성 오늘날 모든 기업들은 매일 데이터를 통해 업무 성과를 추적하고, 데이터 기반으로 의사결정을 하며, 고객 성향을 파악할 때도 데이터를 활용합니다. 또한, 판매, 재고, 물류에 관련된 다양한 업무 영역에서 추세 예측을 위해 데이터를 활용합니다. 데이터는 부서 단위의 활용에서 벗어나 기업 내의 다양한 팀에서 데이터를 생성하고 소비하며, 외부 기간 및 고객으로부터 생성되는 데이터를 분석 또는 업무 목적으로 활용하거나 기업 내부의 데이터를 외부 기간에 제공할 필요가 있습니다. 오늘날 데이터는 기업 내/외부 조직간에 사용되는 중요한 리소스의 하나가 되었습니다. 하지만, 기업 내에서 생성된 데이터는 사일로된 데이터 분석환경에 의해 특정 부서 단위로 제한된 사용자에게만 제공되고 있습니다. 이.. 더보기
CDP 7.1.4+ - Hive-Kafka 통합 1. Concept : Kafka Handler - github.com/apache/hive/blob/master/kafka-handler/README.md 2. Security Consideration : github.com/strimzi/strimzi-kafka-operator/issues/4190 * 원하는 구성 Hadoop 클러스터 (CDP Base 7.1.5+) : Hive on Tez (Kerberos 환경) Kafka 클러스터 (CDP Base 7.1.5) : Kafka (unkerberized 환경) * 테스트 방식 Kafka 클러스터 ( Unkerberized 환경) 테스트용 토픽 생성 : hive_test 테스트용 메시지 입력 : JSON 형식 - 예) { "cust_id": 13131.. 더보기
CDP > Kerberos 환경에서 Hive on Tez 모니터링을 위한 webui 활성화 방안 현상 : CDP7.1.x 환경에서 보안 관련 설정을 클러스터에 적용한 경우, Hive 쿼리에 관련된 모니터링 정보가 hiveserver2 webui에 기록되지 않는 경우가 발생. - 해당 이슈의 원인은 크게 두 가지 경우가 존재. 1. Kerberos 환경에 의한 이슈. - Kerberos가 비활성화 인 경우, Hive on Tez 쿼리 수행 결과가 hiveserver2 web ui에 정상출력되지만, - Kerberos를 활성화한 경우, Hive on Tez 쿼리를 수행하더라도 해당 쿼리 정보가 hiveserver2 webui에 기록되지 않는 않음. * 원인 : Kerberos 환경에서는 hive server2 web ui의 인증을 spnego 방식으로 사용하도록 추가 구성을 해야함. * 구성 방식 1).. 더보기