Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 후기
- devops
- VAGRANT
- 우테캠
- vpc peering
- vm
- 보안 규칙
- Terraform Cloud
- IAM
- Python
- direnv
- MIG
- Clean Code
- docker
- Google Cloud Platform
- cloud armor
- cloud function
- kubernetes
- AWS
- github
- 자격증
- pub/sub
- terraform
- interconnect
- gcp
- Uptime Check
- Java
- cloud
- cicd
- CentOS
Archives
- Today
- Total
EMD Blog
IDC 정전 사태 본문
반응형
사건 요약
8.8(월) 폭우로 인해 IDC 전기실이 물에 잠겨 건물 전체가 정전됨.
전기실이 침수된 상황이라 언제 복구될 지 알수가 없는 상황.
당장 공장 가동을 해야하기 때문에 정전을 몇일동안 둘 수 없음.
장애 대응 절차
- C-Level에 상황 보고 (+ 사내 전체 공지)
- 각 시스템에 관련된 영업/업체 담당자에게 상황 전파
- 임시대응팀 구성
- 상황 정리하면서 대응 방안 구상
- 대응 후 상황 모니터링
- 안정화 작업
- 개선 방안 구상
실제 장애 조치
전기실 침수 복구는 2~3주 소요될 예정. 임시로 IDC를 구동시킬 방법이 필요.
발전기를 사용하자는 의견이 있어 발전기 업체에 연락하였고 다음날 오전에 발전기 설치 완료.
예상 못한 부분
- UPS가 생각보다 오래가지 못해 각 일부 시스템은 강제종료 됨. (데이터 유실)
- 전기실이 침수되어버리는 바람에 복구까지 시간이 오래 걸림
상황전파를 빠르게 하고 장애가 미치는 영향과 한계점을 빠르게 파악해 조치를 취해야함.
빠르게 복구해야하는 상황이라면 비용적인 부분은 최대한 건너뛰어야 함. (처음부터 결정권자와 함께 논의하는 것이 좋음. 이번 경우에는 사태가 심각해서 대표님도 같이 대응함.)
반응형
'기타' 카테고리의 다른 글
[도서리뷰] 구글 엔지니어는 이렇게 일한다 (0) | 2024.07.13 |
---|---|
[Tip] Udemy 자연스러운 한글 자막 보기 (0) | 2024.07.13 |
DevOps와 SRE (0) | 2023.02.10 |
오브젝트: 코드로 이해하는 객체지향 설계 - 후기 (0) | 2022.10.19 |
vscode 새 창에서 파일 열기 (0) | 2022.09.13 |