* 업무 연속 및 재난 복구 계획(BCP & DRP)
- 배경: 현재의 비즈니스 모델의 전산화된 IT에 밀접한 영향을 가지고 있다. 만일 IT 시스템이 문제가 되는 상황이 발생한다면, 기업의 비즈니스에 미치는 영향력이 이전에 비해 급속하게 증가하는 추세이다. 때문에, 현존하는 전산시스템관리에서 사업의 연속성(BCP:Business Continuity Planning)과 재난복구(DR:Disaster Recover)를 중요하게 고려해야 한다.
즉, BCP / DR은 인재 혹은 천재지변으로 부터 시스템을 보호하여 가용성(Availability)를 높이고 사업환경의 계속성을 유지하며 기업의 서비스 질적 수준을 높이는데 목적을 두고 있다.
- BCP(Business Continuity Planning)과 DR(Disaster Recovery)
1) 사업 연속성 계획(Business Continuity Planning): 각종 재해나 재난의 발생을 대비하여 핵심 시스템의 가용성과 신뢰성을 회복하고 사업의 연속성을 유지하기 위한 일련의 사업지속성계획과 절차를 의미한다. BCP는 단순한 데이터의 복구나 원상회복 뿐만 아니라 고객 서비스이 지속성을 보장하고 그로 인한 고객의 신뢰도를 유지하고 나아가 기업의 전체적인 신뢰성 유지와 가치를 최대화 하는 방법이다.
2) 재난 복구 계획(DRP: Disaster Recovery Planning): DR이란 때로 BCP 또는 BPCP(Business Process Contingency Plan)이라고 불리며, 한 조직이 잠재적인 재난에 대해 어떻게 대처할 것인지를 기술한 내용을 일컫는다. 여기서 재난이란 정상적인 기능의 수행이 불가능하게 만드는 사건(지진, 해일, 태풍, 폭발 등)을 의미하며, DR이란 재난의 피해를 최소화하고 그 조직이 중요 기능을 그대로 유지하거나 또는 신속히 재개할 수 있도록 취해진 예방조치들로 구성된다. DR의 주요 목적은 재난 발생 시 준비된 대체 장소에서 기업의 시스템을 운영하고 재해 완료시 기업의 원래 장소로 옮겨와 정상적인 업무 처리를 하는 것이다.
* BCP VS DRP의 차이점
- BCP(사업 연속성 계획)은 중요한 사업의 기능들을 비상시를 대비하여 자산(Assets)의 우선순위를 평가하거나, 대체 장소를 선택하는 등 재해나 재난시에 원상 복귀하고자 미리 평가 계획을 하는 단계.
- DRP(재난 복구 계획)은 실제 재해나 재난이 발생하는 동안 그리고 재해 발생 후에 조직원들이 취해야 하는 절차(ProcesS)와 계획등을 의미한다. 특히, DRP에는 Recovery Procedure를 포함한다는 점이 BCP와의 큰 차이라고 할 수 있다.
* 사업 영향 평가(BIA: Business Impact Assesment): 사업 영향 평가는 여러 가지 재해나 재난 그리고 위협에 따르는 영향(Impact)에 대하여 경영진들의 이해를 돕고 이를 근거로 MTD(Maximum Tolerable Downtime)을 계산하여 기업내의 사업 단위의 중요도와 의존도에 따라 우선순위를 계산하는 것이다. 각 사업 부분은 BCP(Business Continuity Planning)의 개발, 테스트 및 유지보수에 나름대로 참여를 하지만 실제로 초기에 임직원들과 광범위한 상호작용이 일어나는 것은 사업 영향 평가(BIA) 단계라 할 수 있다. 또한 BCP의 실질적인 성공여부는 BIA로 부터 시작 된다고 해도 과언이 아니다.
MTD(Maximum Tolerable Downtime: 최대 허용 가동 중지 시간): MTD는 조직의 최고 경영층이 주요 지원 서비스의 중단으로 인한 업무의 영향에 대해 허용할 수 있는 최대의 시간을 의미한다. 만일 MTB가 미리 결정되어 있지 않아 문서화되어 있지 않을 경우 최고 경영진의 부재중 재해 발생 시 중간 관리자들이 복구 절차 및 영향에 대해 방향을 잡지 못하여 재해 복구가 신속히 처리 되지 못할 위험이 있을 수 있다.
* BCP(Business Continuity Planning) 접근 방법론
1) BCP 접근 4단계 방법론.
1. 프로젝트의 범위 설정 및 기획(Scope and Plan Initiation): BCP를 사업의 어느 단계까지 적용할 것이며 계획에 필요한 요소들이 무엇인지를 식별하고 계획하는 단계. 프로젝트의 범위 설정 및 기획 수행 중, 기업의 많은 다양한 사업부문의 책임과 권한을 정의하기도 한다. 이러한 작업을 수행하는데 필요한 조직은 BCP 위원회와 경영자층의 관리 위원회이다. 즉, 경영자 층의 관리 위원회는 이 단계에서의 모든 행위에 대한 궁국적인 책임이 있다.
☞ Note
- BCP 워원회: BCP 위원회를 결성하여 계획을 수립, 구현하고 테스트 하기 위한 책임을 부여함. 위원회는 고위 관리자, 모든 기능 사업 부서, 정보 시스템, 보안 관리의 대표자로 구성. 위원회는 초기 계획 및 파괴적 사건 발생 시 계획의 관리 감독과 수행의 역할 정의를 수행.
- BCP 참여 부서
1) 최고 경영진: 프로젝트 개시, 최종 승인 결재, 지속적인 지원.
2) 고위 사업 단위 관리자: 시급한 시스템의 정의와 우선순위 부여
3) BCP 위원회: 계획, 구현, 테스트 프로세스 지휘
4) 기능 사업 수서: 구현과 테스트에 참여
2. 사업 영향 평가(BIA): BIA의 목적은 사업 중단 사태가 발생하였을 경우 기업에 미칠 수 있는 정성적(예: 고객의 불만사항을 접수하지 못하는 경우) / 정량적(경제적) 영향도를 파악하여 우선 순위를 부여하고 문서화 하는 프로세스.
가. 중요사업의 우선순위 파악(핵심 우선순위 결정:(Criticality Prioritization)): 모든 핵심적 사업 단위 프로세스를 식별/우선순위를 부여. 파괴적 사건의 영향을 평가 해야 함.
나. 다운타임(Downtime) 산정(Downtime Estimate): MTD(Maximum Tolerable Downtime)의 산정 및 평가.
다. 자원의 요구사항 파악(Resource Requirements): 핵심 프로세스에 대한 자원 요구 사항도 이때 정의 된다. 시간에 민감한 프로세스에 대부분의 자원이 할당된다.
- BIA는 다음과 같은 4단계로 진행한다.
: 1단계: 필요한 평가 자료 수집 -> 2단계: 취약점 평가 -> 3단계: 수집된 정보 분석 -> 4단계: 결과의 문서화하고 권고문 작성.
☞ Note
1) 1단계 - 평가 자료 수집: BIA의 초기 단계는 수락 가능한 운영 수준을 지속하기 위해 필수적인 사업 단위를 식별.
2) 2단계 - 취약성 평가: 위험 식별과 유사하게 정성적 / 정량적 평가를 수행하며, 취약성 평가는 사업 지속 계획이나 재해 복구 계획에만 사용되는 정보 제공에 초점을 맞추고 있기 때문에 프로젝트 전체 위험 평가보다는 범위가 작다는 차이점이 있다.
- 정량적 손실 기준: 매출 손실, 자본 지출 등 경제적 손실 및 파괴적 사건에 의해 초례되는 경제적 손실.
- 정성적 손실 기준: 경쟁력이나 시장 점유율 손실 등.
3) 3단계 - 정보 분석: 정보 식별로 도출 된, 필요한 프로세스 문서화, 상호의존성 확인, 수락 가능한 중단 시간등의 activity에 대해 매출 흐름을 보존하고 트랜잭션 처리 수준이나 고객 서비스 수준과 같은 미리 정의된 프로세스를 유지하기 위해 지정된 핵심 영역이 요구하는 지원 내역을 명확히 설명.
4) 4단계 - 문서화 및 권고: 모든 프로세스와 프로시저, 분석, 결과에 대한 문서화(Documentation) 및 권고사항을 고위 관리자에게 보고.
3. 사업 연속성 계획 개발(BCP): BIA에서 수집된 정보를 이용하여 사업 단위의 기능을 지원하기 위한 복구 절차를 개발하고 복구 전략을 수립한다. 이 단계에서는 아래와 같은 2단계로 수행된다.
- 1단계: 사업의 계속성 전략을 수립하고 정의 -> 2단계: 사업의 계속성 전략을 문서화.
☞ Note
1) 1단계 - 지속 전략 정의: BCP 전략을 정의하기 위해서는, BIA로 부터 수집된 정보가 기업의 지속성 전략을 수립하는데 이용된다. 다음과 같은 기업의 요소들이 지속 전략을 정의하는데 포함된다.
- 컴퓨터
- 설비
- 사람
- 지원과 장비.
2) 2단계 - 지속 전략 문서화: 지속 전략 정의 단계의 결과를 문서화. BCP/DRP의 특성상 대량의 서류가 생성됨.
4. 계획 승인 및 실행: BCP에 의해 수립된 계획이 실제 수행되는 단계이다. 즉, 실제 재난이 발생하여 복구 절차를 수행하는 것이 아니라 재난 가정하에 복구 절차를 수행하는 것이다.
- 비상대책 계획(Contingency Planning) / 컴퓨터 보안 대책(Computer Security Plans): 소규모나 단순한 시스템에 대해서 비상대책 계획(Contingency planning)은 컴퓨터 보안의 대책의 부분이 될수 있지만, 대규모나 복잡한 시스템을 가진 기업에서는 컴퓨터 보안 대책이 비상대책 계획의 한 부분이 될 수 있다.
2) BCP 접근 5단계 방법론.
1. 프로젝트의 범위 설정 및 기획
2. 사업 영향 평가(BIA): 컴퓨터나 통신 서비스(network)의 심각한 중단사태에 따라 각 사업 단위가 받게 될 재정적 손실의 영향도를 파악.
3. 복구 전략 개발: BIA 단계에서 수집된 정보를 활용하여 Time-Critical한 사업 기능을 지원하는데 필요한 복구 자원을 추정한다. 여러 가지 가능한 복구 방안들에 대한 평가와 이에 따른 예상 비용에 대한 자료를 경영자 층에 제시하는 것도 이 단계에서 해야할 일이다.
4. 복구 계획 수립: 사업을 지속하기 위한 실제 복구 계획을 수립하는 단계. 효과적인 복구 과정을 수행하기 위해 명시적인 문서화가 반드시 요구되며 여기에는 경영 재산 목록 정보와 상세한 복구팀 행동 계획이 포함된다.
5. 프로젝트의 수행 테스트 및 유지보수: 마지막 단계로 테스트와 유지보수 활동 현황을 포함하여 향후에 수행할 엄격한 테스트 및 유지 보수 관리 절차를 수립한다.
☞ Disk Mirroring(디스크 미러링) VS Disk Duplexing(디스크 이중화)
- Disk Mirroring: 물리적 디스크를 두 개 이상 구성하여 가용성을 높이는 방식. 즉, 고장 허용 시스템(fault-tolerant system)을 실현하기 위해 필요한 입 출력장치 다중화의 한가지 방법으로, 여러 대의 다른 디스크 장치에 같은 정보를 기록해 놓았다가 오류가 발생했을 경우 다른 곳에 기록해 놓은 정보를 즉시 교체하는 것. RAID1방식.
- Disk Duplexing: 디스크 controller를 이중화 하는 방식. 즉, 디스크 미러링의 일종으로 하드 디스크를 이중화하여 똑같은 데이터를 2대의 하드 디스크에 동시에 기록하고 보존하는 것은 디스크 미러링과 같으나, 2대의 하드 디스크가 고유의 하드 디스크 제어 장치를 가지고 있기 때문에 장애 허용성을 더 높인 처리 방식이다.
3) BCP 접근 6단계 방법론.
1. 사업상 중대 업무 규정: 만일 조직의 중대 사업이 명확히 식별되어 있지 않다면, 비상 상태 발생 시 조직의 중요한 사업을 보호하는 것은 쉽지 않다. 때문에 이 단계에서는 조직의 중요한 사업 단위를 식별하고 우선순위를 설정한다.
2. 사업상 중대 업무를 지원하는 자원의 중요도 규정: 사업 단위의 중요도가 1단계에서 식별되고, 우선 순위가 정해 진다면 그 사업 단위를 지원하는 자원을 식별하는 것이 중요하다. 자원을 식별 / 분석할 때는 해당 자원의 기능을 잘 아는 사람이 하는 것을 권장한다. 또한 자원도 사업 단위 처럼 중요도에 따라 우선 순위를 정하는 것이 중요하다. 자원은 사람 / 처리 장치 / 컴퓨터 관련 서비스 / 자동화 어플리케이션과 데이터 / 물리적 인프라 / 문서 등 6가지로 분류한다.
3. 발생가능 재난에 대한 예상: 사업의 모든 단위가 문제가 발생한다는 것은 불가능하다. 그러나 계획을 수립하는 사람은 문제의 범위와 가능성을 연구하여 크고 작업 발생 가능성이 있는 시나리오를 개발하고 그것을 문서화 해야 한다. 특히 이전 단계에 업급하였던 6가지 자원을 중심으로 시나리오를 개발하면 효과가 크다.
1) 사람: 사람은 조직에서 가장 명백한 자원이다. 기업의 어떠한 업무와 시스템을 다루기 위해서는 많은 훈련과 교육이 필요하다. 어떠한 개인은 특별한 작업을 위해서 특별이 교육되어 지기도 한다. 특히 IT 업계에서는 인적자원을 Operator와 Users로 분류한다.
2) 처리 장치: 서버(Host, Unix, NT)와 LAN, PC등을 의미한다.
3) 컴퓨터 관련 서비스: 통신 서비스나 정보 서비스등을 의미한다.
4) 자동화 어플리케이션과 데이터: 처리 장비만 보호한다고 해서 모든 자원이 보호되는 것은 아니다. 요즘은 시스템에 수 많은 어플리케이션과 데이터가 존재하기 때문에 이를 보호해야 한다.
5) 물리적 인프라: 효과적인 작업 환경과 안전한 작업장을 위한 적당한 장소, 냉방, 환기 등의 이용 시설물들을 의미한다.
6) 문서: 중요한 업무 절차 및 복구 절차는 기록하여야 하고 또한 그것을 잘 보관하여야 한다.
1) 사람
- 비상시 중요 직원들이 작업장에 원활히 도착할 수 있는가?
- 주요 사업장이 재해가 발생하였을 경우 비상 연락망을 통해서 ㄷ재체 장소로 이동하여 작업을 수행 할 수 있는가?
2) 처리 장치
- 컴퓨터가 손상되었는가?
- 모든 컴퓨터가 작동이 안되는가? 혹은 일부가 작동이 안되는가?
3) 컴퓨터 관련 서비스
- 컴퓨터가 통신이 가능한가?
- 정보서비스가 작동불능인가? 얼마나 지속될 것인가?
4) 자동화 어플리케이션과 데이터
- 데이터가 손상을 받아 무결성이 지켜질 수 없는가?
- 어플리케이션이 다른 장비에서 작동 될 수 있는 방법은 없는가?
5) 물리적 인프라
- 사람들이 작업 할 수 있는 환경이 가능한가?
- HVAC가 작동 가능한가?
6) 문서
- 기록된 문서 및 매체가 읽을 수 있는가?
4. 재난 대책 수립: 이 단계에서는 필요한 자원을 복구하는 방법을 계획한다. 또한 발생된 재난과 위험을 최소화하거나 방지하는데 그 목적이 있다. 이 때 고려해야할 중요한 요소가 비용이다. 위험을 방지하는데 드는 비용이 실제 사업을 지속하는 비용보다 더 많이 소요된다면 그 방지책은 효용가치가 없는 것임으로 비용대비 효과를 고려해야 대책을 수립해야 한다.
* 재난 대책 수립은 보통 3부분으로 이루어 지는데 첫 째 비상응답체제(Emergency Response), 둘째 복구(Recovery), 셋째 재개(Resumption)이다.
1) 비상응답체제(Emergency Response): 재산상 손상을 최소화하고 생명을 보호하기 위해서 취해지는 초기 활동.
2) 복구(Recovery): 중요한 사업 기능들을 계속적으로 지원하기 위해서 취해지는 일련의 활동.
3) 재개(Resumption): 모든 사업 기능들을 정상적인 운영 환경으로 복귀 하는 일련의 활동.
4) 복귀(Restoration): 재개의 한 부분으로써 원래 사업장으로의 복귀를 위한 일련의 활동임.
* 재난 대책 전략은 실현가능성(Feasibility)이나 비용등을 고려하여 선택되어야 한다. 특히 위험 평가(Risk Assessment)는 최적의 재난 대책 전략을 결정하는데 많은 도움을 줄 것이다.
재난 대책 전략 수립 시에 앞에서 언급한 6가지 자원에 대해 구체적으로 어떻게 전략을 수립해야 하는지 다음을 통해 살펴보자.
1) 사람: 재난이 지역적일 경우 우선적으로 고려해야 할 것은 직원들의 가족과 재산이다. 직원들이 직장에 오지 못할 경우 임시직 고용에 대해 고려해야 한다. 임시직 고용은 추가적인 보안문제와 취약점을 지닐 수 있음으로 이에 대한 대책이 필요하다. 사람의 생명에 최우선 순위가 필요하다.
2) 처리 장치: 사업장의 주요 시설이 파괴되었을 경우 여러 가지 사업의 연속성을 위하여 여러 가지 대체 장소를 고려 해야 한다.
- Mirror Site, Hot Site, Warm Site, Cold Site, Mobil Site, Redundant Site, Reciprocal Site, Hybrids
3) 자동화된 어플리케이션과 데이터: 규칙적인 Off-Site 백업 계획 수립, 데이터의 전송과 보관 방법 계획 수립, 얼마나 자주 백업이 수행되어야 하는가에 대한 정의,
- 얼마나 자주 Off-Site에 백업본이 되관되어야 하는가?
- 얼마나 자주 백업이 전송 되어야 하는가?(Electronic Vaulting인 경우)
4) 컴퓨터관련 서비스: 만일 한 개의 Service PRovider등이 단절되면 다른 Service Provider를 통해 서비스가 될 수 있도록 대책을 수립. 예) 한국 통신 장애 발생 시 하나로 통신을 통해 서비스 하는 방안.
5) 물리적 인프라: 사무실 장소나 보안 서비스, 가구 등은 적절히 배치되어 있는가에 대한 계획 수립 및 점검.
6) 문서: 종이로 된 문서의 백업이 전자적으로 백업하는 것보다 어려움으로 이에 대한 대책 수립.
☞ Note: transaction 중복 구현
* Electronic Vaulting(전자 볼팅): 일반적으로 시스템 복구를 위해서 기업에서는 매일 또는 특정 시점에서 백업 테이프를 만들어 두고, 이를 원격지에 소산 보관하여 필요시 또는 재해 발생 시 이 테이프를 운반하여 시스템을 복구 시킨다. 그러나, 이러한 방법은 운반하는데 시간이 많이 소요되고 운반과정에서 운반자에 의한 오류가 발생될 여지가 많이 있다. 이러한 단점을 개선한 방법이 Electronic Vaulting이다. 이는광채널 또는 고속의 통신 채널을 이용하여 전자적으로 원격지에 완벽한 백업 이미지를 만들고 이를 필요시 동일의고속 채널을 이용하여 곧바로 복구가 가능하도록 설계된 최신 솔루션이다.
즉, 전자 볼팅은 오프 사이트 위치로 백업 데이터를 전송하는 것을 의미. 통신 라인을 통해서 데이터를 덤프하는 배치 프로세스 임.
* Remote Journaling(원격 저널링): 대체 사이트로 보내는 트랜잭션의 병렬 프로세싱을 가리키는데, 전자 볼팅 같은 배치 덤프 프로세스와는 상반됨. 통신선은 실 데이터가 발생하는대로 그것을 전송하는 데 사용됨. 이는 대체 사이트가 항상 완전히 운영 가능하며 고차원적인 장애 방지 상황을 도입하게 해줌.
* Database shadowing(데이터베이스 쉐도우잉): 원격 저널링의 실제 프로세싱을 사용하는 것인데, 데이터 베이스 집합을 다중 서버에 이중화 시키는 방식으로 더 완전한 중복성을 구현.
5. 재난 대책 수행: 일단 재난 대책 계획이 수립되면, 이제는 그 계획에 대한 적절한 준비와 수행, 문서화 그리고 직원들에 대한 훈련을 수행해야 한다.
1) 수행(Implementation): 계획이 수립되어 시행되어 지지 않고 또한 수정 보완되지 않는다면 비상시에 그 계획은 무용지물이 된다. 조직에는 많은 중요한 수행(Implementaiton)에 대한 이슈가 있는데 그 중에 가장 중요한 두 가지 이슈는 다음과 같다.
- 얼마나 많은 계획들이 개발되어야 하는가?
- 누가 각 각의 계획을 수행해야 하는가?
2) 문서화(Documentation): 재난 대책 수행 계획은 반드시 문서화 되어야 하며, 또한 수정시 마다 업데이트 되어야 한다.
3) 훈련(Training): 재난시에 대비하여 직원들을 정기적으로 훈련 시키는 것은 필수이며, 새로 입사한 직원에 대해서도 역시 훈련시켜야 한다. 재난시에는 매뉴얼을 펼쳐서 작업을 하기에는 너무 긴급한 상황이기 때문에, 충분한 훈련과 연습만이 재난시에 신속하게 업무를 속행하는데 도움이 될 것이다.
6. 대책 테스트 및 수정: 비상 대책 계획은 계획의 결점 발견과 수행의 원활함을 도모하기 위해 정기적으로 테스트 수정 되어야 한다. 대표적인 방법은 다음과 같다.
1) 재검토(Review): 재난 대책 계획 문서를 단순히 점검 하는 것. 예) 직원들의 비상연락망이 정확한지 건물의 방번호가 정확히 기입되어 있는지 확인하는 것.
2) 분석(Analysis): 비상 응답 절차와 같이 그 계획을 전체적으로 분석, 점검하는 것. 각 사업 부문의 직원들과 면담을 통하여 상세히 계획을 점검한다.
3) Simulation: 실제 재난이 일어났다는 가정하에 재난 대책 계획 절차를 수행해 보는 것. 이 방법은 비용이 많이 소요되지만 가장 효과적인 방법이다.
* DRP(Disaster Recovery Planning:재난 복구 계획)
정보 시스템의 재난에 대한 개념을 NIST(National Institue of Standards and Technology:1994)에서는 "컴퓨터 운영의 붕괴로 조직의 정상적 기능이 파괴되는 비상사태"라고 정의 했다. 이와 같이 재난은 일반적으로 정보 시스템의 위협이 매우 파괴적인 경우에 그 결과로써 발생되는 손실이라고 할 수 있는데 이러한 재해나 재난 발생에 대비하여, 실제 상황이 발생 했을 때 취해야 할 행동 절차를 미리 준비하는 것이 재난 복구 계획(DRP)이다.
즉, 재해 복구 계획의 주요한 목적은 대체 사이트에 핵심 기능을 구현하고 신속한 복구 프로시저를 수행하여, 조직의 손실을 최소화시키는 시간 프레임 내에 주 사이트와 정상 프로세싱 상태로 되돌아가기 위한 능력을 제공하는 것.
* 재난 복구 계획(DRP: Disaster Recovery Planning)의 목표.
: 파괴적 사건이 발생하는 경우 결정해야 할 조직화된 방법을 제공하는 것. 재해 복구 계획의 취지는 혼란을 줄이고 위기 상황에 대처하기 위한 조직읜 능력을 확장시키는 것.
* 재난 복구 계획(DRP: Disaster Recovery Planning)의 목적.
- 정보의 비밀성, 무결성, 가용성, 인증성등 확보.
- 핵심적인 기업 업무의 연속성 유지.
- 테스트와 시뮬레이션을 통해 DRP의 신뢰성 유지.
- 재난 발생시에 의사결정 시간을 최소화하여 복구 시간을 단축.
- 시스템 운영중단 요인을 식별.
- 생존에 대한 계획을 마련.
- 재난 복구 방법 구축.
* 재난의 종류에 따른 대응 방안
1. 가입 서비스(Subscription Services)
재난(장애)의 종류
대응 방안
시스템 장애
Clustering
네트웍 장애
이중화
DISK 장애
RAID, Mirroring
스토리지 박스 장애
Data Replication
어플리케이션 장애
Restore(Disk, TAPE)
DB 장애
Restore(Disk, TAPE)
전산 센터 재해
Remote Data Replication
☞ RAID(Redundant Array of Independent Disks)
: RAID는 Redundant Array of Inexpensive(or Independent) Disks의 약어이다. RAID 시스템은 여러 드라이브의 집합을 하나의 저장 장치처럼 사용할 수 있게 하고, 장애가 발생했을 때 데이터가 손상되지 않도록 각 각 독립적으로 동작할 수 있도록 한다. 기본적인 RAID의 개념은 작고 값싼 드라이브들을 연결해서 크고 비싼 드리아브 하나(SLED: Single Karge Expansive Disk)를 대체하자는 것이다.
* DRP의 영역.
1) 재해 복구 계획 프로세스
2) 재해 복구 계획 테스트
3) 재해 복구 프로시저.
* 재해 복구 계획 프로세스
(1) 데이터 처리 지속 계획(Data Processing Continuity Planning): 재해를 예측하고 그에 대처하기 위한 계획 수립.
: 백업 서비스를 처리하는 다양한 방법들은 재해 복구 계획에서 가장 중요한 요소이다.
2. 상호 지원 계약(Matual aid agreements): 서로 유사한 하드웨어 소프트웨어 구성을 가지는 다른 회사와 파괴적 사건 발생 시 양쪽이 서로 지원해주는 협정을 계약화 하는것.
1. Mirror Site: 주 전산센터와 동일한 백업 센터를 두어 평시에 실시간으로 데이터를 백업하여 주 전산센터에 재해가 발생하면 즉시 업무를 대행하게 하는 백업 체제.
2. Hot Site: 주 전산센터와 동일한 하드웨어, 소프트웨어 및 기타 부대 장비등을 갖추어 놓고 관리되며, 이론적으로는 직원이나 운영자가 도보로 이동하여 최근 백업본으로 부터 리스토어하여 매우 짧은 시간 안에 전체 운영을 시작하는 것. 만일 그 사이트가 원격 저널링을 사용한다면, 백업 시간도 감소하거나 제거될 수 있다.
- 장점: 24시간*7일 내내 서비스 가용성과 독점적 사용이 보장.
- 단점: 고가의 대체 사이트 방안.
3. Warm Site: Hot Site와 Cold Site의 절충안으로, Hot Site와 같이 전원이나 HVAC, 컴퓨터 등이 갖추어진 컴퓨터 설비를 구축하지만, 애플리케이션은 설치되거나 구성되어 있지 않다.
* 장점.
- 비용: Warm Site는 Hot Site보다 휠씬 경제적이다.
- 위치: Warm Site는 Hot Site보다 장소 선정시 통제의 범위가 넓어 유연성을 갖는다.
- 자원: Hot Site의 유지보수보다 관리 자원 낭비가 적다.
* 단점
- Hot Site와 비교하여 신규 사이트에서 운영 처리를 개시하는데 시간과 노력의 양이 많이 소요된다.
4. Cold Site: 비상시 장비를 가져올 준비만 할 뿐 어떤 컴퓨터 하드웨어도 사이트에 존재하지 않는다. Cold Site는 전원과 HVAC는 설치되어 있고, 비상 사태 발생 시, 컴퓨터를 이동하여 복구 작업을 수행해야 한다. 콜드 사이트는 파괴적인 사고를 무마시키고 모든 상황이 가동되게 하기까지 상당한 시간이 소요되기 때문에 재해 복구에 적합한 자원으로는 고려되지 않는다.
- 장점: 비용과 장소선정
- 단점: 보안에 대한 잘못된 인식, 복구 불능.
- 장점: 매우 적은 비용.
- 단점: 신뢰성 및 실제 사고 발생 시 지원 여부가 불분명함.
3. 다중 센터(Multiple centers): 처리가 여러 운영 센터로 나누어지고, 가용한 자원의 공유와 중복성에 대한 분산 접근이 도입.
- 장점: 비용이 내포되기 때문에 주로 경제적인 측면.
- 단점: 상호 지원 계약가 유사한 단점을 갖음.
4. 서비스 업체(Service bureaus): 대채 백업 처리 서비스를 전적으로 제공하는 서비스 업체와 계약.
- 장점: 서비스 업체의 신속한 대응과 가용성이며, 테스트가 가능하고 서비스 업체가 백업 이상의 것을 제공.
- 단점: 비용 문제와 대규모 비상상황 발생 시 자원의 경합.
5. 기타 데이터 센터 백업 대안(Other data center backup alternatives)
* 이동 백업 사이트(Rolling/Mobile backup sites): 이동 백업 사이트를 제공하는 벤더와 계약. 이것은 필요한 대체 처리를 수행하기에 충분한 전원과 HVAC를 갖춘 이동식 건물이나 평반형 트럭 형태. 주로 cold site의 변형으로 간주됨.
- 하드웨어 교ㅗ환을 위한 내부 혹은 외부 지원(In-house or External supply of hardware replacements): 벤더가 필요한 하드웨어를 다시 지원해주거나 핵심 컴포넌트 인벤토리의 내부 비축.
- 조립식 간이 빌딩(Prefabricated buildings): 재해가 발생하면 대체 처리 기능을 수용할 조립식 간이 빌딩을 구축하기 위해 회사가 서비스 조직을 채용하는 것은 이상한 일이 아니다. 이동 백업 사이트와 그다지 다르지 않은 콜드 사이트라 볼 수 있다.
(1) 데이터 복구 계획 유지보수(Data Recovery Plan Maintenance): 계획이 항상 적절하게 최신 버전을 반영하도록 유지.
* 재해 복구 계획 테스트(Disaster Recovery Procedure Test)
: 재난/재해 복구 계획이 계속적으로 갱신(수정)되지 않는다면 실제 재난 발생 시, DRP는 별다른 효과를 기대하기 어렵다. 때문에 재해 복귀 계획의 테스트는 필수적이며 시스템에 큰 변화가 있거나, 테스트 계획이 생성되고 테스팅이 순서대로, 표준화된 방법으로, 주기적으로 실행하여 DRP의 신뢰성을 높여야 한다.
* 테스트가 필요한 이유
- 테스트는 복구 프로시저의 정확성을 검증하고 결함 부분을 식별할 수 있는 기회를 제공한다.
- 테스트는 직원들이 비상시 자신의 의무사항을 수행하도록 준비하고 훈련시킨다.
- 테스트는 대체 백업 사이트의 처리 역량을 검증하게 해준다.
일반적으로 DRP 테스트는 테스트의 범위와 강도에 따라 다음 5단계로 구분된다.
|
1) Checklist(체크리스트): 재난복구계획(DRP)의 계획서 및 절차서를 각 사업단위의 담당자에게 배포되어, 계획의 절차나 오류를 점검/검토 시킨다. 이는 실제 복구 테스트의 전 단계이며, 이 자체로써는 큰 의미가 없지만 다음 단계의 복구 테스트를 신속하고 정확하게 수행하기 위해 필요하다.
2) Structured Walk-Through(구조적 점검)
: 사업 단위의 관리자의 대표들이 계획을 점검 및 논의하기 위해 회의를 수행하며, 구조적 점검의 수행 목적은 각 조직의 복구 능력을 성공적으로(문서상 - 계획서상) DRP에 반영했는지를 확인하는 것이며, 실질적인 논의가 수행되면서 계획서상 중요한 결점점이나 오류를 식별할 수 있는 기회를 제공해 준다. 만일 이 단계에서 중요 결점들을 간과한다면 다음 단계에서 정확한 테스트가 보장되지 않을 수 있다.
3) Simulation(시뮬레이션): 실제 비상사태가 났다는 가정하에 시스템 운영 관련 주요 관리자와 직원들이 비사 모임을 갖고 복구 절차를 검토하는 단계이다. 실제 백업 장소에서 실시하는 것이 아니라는 것이 아래의 Parellel Test와 다른 점이다.
4) Parallel Test(병령 테스트): 모든 직원을 활용하여 복구 계획에 대해 완전하게 테스트 하는 것이다. Full-Interruption Test와 차이점은 사업의 기본적인 운영 시스템을 중단하지 않는다는 것이다. 즉, 운영 시스템 및 데이터와는 별개인 사전에 준비된 가상의 데이터와 시스템을 이용하여 테스트를 수행한다. 병렬 테스트의 목적은 핵심적 시스템이 대체 처리 백업 사이트에서 정말 수행되는지 보장하는 것이다. Parallel Test는 가장 많이 사용되는 재해 복구 계획 테스트 방법이다.
5) Full-interruption Test(전체 시스템 중단 테스트): 실제로 재난이 발생할 때와 동일한 운영 시스템과 데이트를 사용하여 Test를 수행한다. 즉, 실제 재해 상황처럼 비상 서비스가 호출되고 계획이 전체적으로 실행된다. 이 자체 테스트로 재해를 유발시킬 수 있기 때문에 거의 사용되지 않는다.
* 재해 복구 프로시저.
: 계획에서 이 부분은 다양한 직원이 담당하는 역할이 무엇인지, 사이트를 복구하고 구조하기 위해 구현해야 하는 작업이 무엇인지, 회사가 많은 외부 그룹과 어떻게 인터페이스 해야하는지, 그리고 경제적 고려사항에 관해 상세하게 보여준다.
* 재난(Disaster)는 언제 종료되는가?
재난이 발생하여 DRP가 수행되고 난 뒤 언제 재난이 끝났다고 할 수 있는가? 재난이 끝나는 시점은 백업 대체 장소에서 원래의 사업 장소로 업무가 돌아오고 모든 시스템과 데이터으ㅏㅣ 정확성과 무결성이 확인되고 정상 업무가 시작될 때 이다. 그 이유는 백업 사이트로 부터 Original 운영 사이트로 되돌아갈 때 매우 거대한 취약성의 구성이 존재하기 때문에 정상적으로 운영 홈으로 돌아가 정상 작동을 확인하였을 때, 재난이 공식적으로 종료된다.
☞ 보충 이론. * MTTR(Mean Time To Recovery): 평균 회복 시간, 시스템 혹은 디바이스가 복구 되는데 걸리는 평균 시간. 낮을 수록 좋음. * MTBF(Meam Time Between Failures): 평균 무고장 시간. 제품의 신뢰도 측정 기준. 높을 수록 안전함. - MTBF = 1/(sum of all the part failures rates) * RTO(Recovery Time Objectives): 비즈니스 기능과 어플리케이션을 복구 시켜야 하는 특정 시간대를 의미하며, 재해 발생 통보 전의 시간과 업무를 수행 할 수 있는 시간을 포함한다. * RPO(Recovery Point Objectives): 시스템의 프로세스를 성공적으로 재개할 수 있도록 데이터를 복구 시켜 주어야 하는 시점을 의미한다. 흔히 최종 백업 시점과 시스템이 작동 중지된 시점 사이의 시간으로 정의하기도 한다. |
====================================================================================
[Q1 - 2010] 업무 연속성의 5 단계 접근 방법론을 순서대로 나열한 것은? 1)
가. 프로젝트의 범위 설정 및 기획 나. 프로젝트의 수행테스트 및 유지보수 다. 복구 전략 개발 라. 복구 계획 수립 마. 사업 영향 평가. |
2) 가 - 다 - 마 - 라 - 나
3) 가 - 마 - 라 - 다 - 나
4) 가 - 다 - 라 - 마 - 나
5) 가 - 라 - 다 - 마 - 나
[Q2 - 2010] 재난복구계획(DRP) 테스트는 테스트의 범위와 강도에 따라 5단계로 나뉜다. 다음 보기 중 가장 강도가 낮은 단계는 무엇인가? 2)
1) Simulation
2) Structured Walk-Through
3) Full-Interruption Test
4) Parallel Test
[Q3 - 2006] 재해복구시스템 복구 수준별 유형 중 재해복구센터에 주 센터와 동일한 수준의 정보기술자원을 보유하는 대신, 중요성이 높은 정보기술자원만 부분적으로 재해복구센터에 보유하고, 데이터의 백업 주기가 수시간 정도인 방식은 무엇인가? 3)
1) 미러사이트(Mirror Site)
2) 핫사이트(Hot Site)
3) 윔사이트(Warm Site)
4) 콜드사이트(Cold Site)
[Q4 - 2006] 각종 재해나 재난의 발생을 대비하여 핵심 시스템의 가용성과 신뢰성을 회복하고 업무의 연속성을 유지하기 위한 일련의 계획과 절차를 일컬으며, 단순한 데이터의 복구나 원상회복뿐만 아니라 업무의 지속성을 보장하고 그로 인한 조직의 신뢰도를 유지하고 나아가 전체적인 신뢰성 유지와 가치를 최대화하는 방법은 무엇인가? 3)
1) BIA(Business Impact Assessment)
2) DRP(Disaster Recovery Planning)
3) BCP(Business Continuity Planning)
4) MTD(Maximum Tolerable Downtime)
[Q5 - 2007] 재해복구를 위한 전략 수립을 위해서는 업무 영향 분석(BIA: Business Impact Analysis)이 수행되어야 한다. 업무 영향 분석의 절차를 바르게 나열한 것은? 4.
A, 주요 업무 프로세스 식별 B. 재해 유형 및 가능성 식별 C. 업무 중요성 및 복구 대상 업무의 범위 설정. D. 재해시 업무 프로세스 중단에 따른 손실 평가. E. 주요업무 프로세스별 복구 목표 시간 설정. |
1) A-B-C-D-E
2) A-B-C-E-D
3) A-C-B-D-E
4) A-B-D-C-E
[Q6 - 2008] 재해 및 재해복구 시스템 개념에 대한 다음 설명 중 틀린 것은? 1)
1) RTO(Recovery Time Objective)는 재해로 인하여 서비스가 중단 되었을 때, 서비스를 복구하는데 까지 걸리는 예상 시간.
2) RPO(Recovery Point Objective)는 재해로 인하여 중단된 서비스를 복구 하였을 때, 유실을 감내할 수 있는 데이터의 손실 허용 시점이다.
3) 업무연속성 계획(BCP)는 장애 및 재해 발생 시 시스템의 생존을 보장하기 위한 예방 및 복구 활동 등을 포함하는 계획이다.
4) 재호복구시스템(DRP)는 재해복구계획의 원활한 수행을 지원하기 위하여 평상시에 확보하여 두는 시스템이다.
93. 다음은 업무연속성계획(Business Continuity Plan)에서 고려해야 할 사항을 열거하였다. 이들 중에서 가장 먼저 시행해야 할 항목은 어떤 것인가? 4)
① 훈련연습 : 모의훈련 실시 및 평가
② 전략수립 : 업무 영향력 분석, 업무별 복구전략
③ 상시운영계획 : 상시운영팀 구성, 대응복구절차 계획
④ 위험분석 : 취약성, 업무 분석
'Basic IT > Security' 카테고리의 다른 글
보안 - 암호 (0) | 2011.01.19 |
---|---|
보안 - 논리적 접근 통제. (0) | 2011.01.06 |
보안 - 정보 보호. (0) | 2010.12.29 |
보안 - 인터넷 위협 (0) | 2010.12.29 |