[디지털데일리 최민지 기자] 지난 10월15일 SK C&C 판교데이터센터 화재가 발생했다. 이로 인해 카카오 전체 서버 3분의1 전원이 꺼지면서, 장시간 서비스 장애가 나타났다. 그날 판교데이터센터에 무슨 일이 있었던 것일까?
8일 카카오는 연례 개발자 콘퍼런스 ‘이프카카오데브2022(if kakao dev 2022, 이하 이프카카오)’에서 ‘1015장애회고’를 공개했다. 1015장애회고는 ▲데이터센터 단위 다중화를 위한 고민, ▲인프라설비 ▲데이터 ▲서비스 플랫폼 ▲애플리케이션 레이어 다중화 방안을 공개하는 특별 세션이다.
SK C&C 판교데이터센터 화재는 배터리실에서 발생했다. 리튬이온배터리 발화로 추정된다. 서비스 장애는 화재 후 전원 불안정으로 장비류들이 먹통이 됐다. 장애시작부터 전원복구까지 걸린 시간은 약 10시간14분이다.
카카오는 이번에 화재가 발생한 SK C&C 판교데이터센터를 포함해 4개 데이터센터를 이용하고 있다. 카카오 3만2000여대 서버가 판교데이터센터에 있으며, 카카오 로그인‧인증 등 중요한 역할을 하는 서버들이 다수 포함됐다.
카카오 데이터센터파트 문승조 파트장은 “판교데이터센터는 카카오 고객 접점 연결 네트워크 코어 두 곳 중 한 곳이 위치한 장소”며 “카카오 데이터센터 중 중요도로 따지면 첫 번째”라고 강조했다.
판교데이터센터 화재와 전원차단은 카카오에 치명적일 수밖에 없었다는 설명이다. 화재 발생 후 네트워크 장비에 장애가 발생하면서, 한전 전원을 내리기 이전에 이미 네트워크 코어에 영향을 받아 모든 통신이 끊겼다. 화재 시점은 지난 10월15일 오후 3시19분으로, 8분 뒤 3시27분 데이터센터 서버 100%가 통신 불능 상태가 됐다.
문승조 파트장은 “한국 데이터센터 역사상 단 한 번도 일어나지 않았던 센터의 기능 전부 마비 상태”라며 “한전이 전원을 내리기 이전에 전원 차단되지 않은 서버가 있더라도, 외부와 어떠한 통신도 되지 않아 그 기능을 상실했다”고 설명했다.
이어 “SK C&C 측에 문제 발생했으니 확인해달라 요청 후 오후 3시38분 화재사실을 전달받아 내부에 전파했다”며 “오후 4시7분 카카오 직원이 현장에 도착했으나, (소방당국 판단으로) 건물에 들어갈 수 없는 상황이었다”고 덧붙였다.
오후 4시58분, 소방당국 결정에 따라 건물 전원을 차단했다. 오후 9시48분 소방서장 승인을 받은 후 카카오와 SK C&C 측 일부 인원이 데이터센터에 진입했다. 화재가 완전히 진압되지는 않았으나, 빠른 복구를 위한 조치였다. 하지만, 배터리에서 연기만 피어오르는 것을 넘어 불꽃이 발생했다.
이후 16일 서비스 중단 10시간14분만에 전원이 들어왔으나, 무정전전원장치(UPS) 연결 없이 전기를 공급받고 있어 전력공급이 불안정한 상태였다. 구역별 복전이 진행되면서, 사고 발생 4일 후 모든 서버 전원이 들어왔다.
서상덕 네트워크파트장은 “장애 당시 다이나믹 라우팅 동작에 의해 경로들이 자동 조정됐지만, 전원 불안정으로 인해 이미 상당수 네트워크 장비가 다운돼 카카오톡 등 주요 서비스에 일부 장애가 발생되고 있었고 트래픽 감소가 있었다”고 설명했다.
또 “데이터센터 복구 이후 전원이 들어오면서 대부분 장비들은 장애 이전 상태로 복구됐으나, 일부 장비들은 하드웨어 결함 발견으로 정상 부팅되지 않아 장비교체 등 수동조치가 필요했다”고 덧붙였다.
카카오는 배터리 모듈 간 간격을 벌리는 것이 필요하다는 의견을 제시했다. 이번 화재에서 배터리실 내 배터리 간 간격이 충분치 않아 화재 진압이 어려웠기 때문이다.
관련해 카카오는 자체 데이터센터 설계에 이러한 부분을 반영할 계획이다. 카카오는 다원화된 배터리실과 함께 UPS실과 거리를 두는 배치를 통해, 배터리 하나의 문제가 전체 전원에 영향을 주지 않도록 할 예정이다. 판교데이터센터 경우, 배터리와 UPS가 한 공간에 있어 대규모 정전사태로 이어졌다.
카카오는 네트워크 구조도 개선한다. 메인 백본센터를 2개에서 3개로 증설해 폭넓은 대역폭을 구성한다. 확장센터들이 3개 경로를 갖게 되면, 특정 데이터센터 장애에도 안정적일 수 있다. 새롭게 구성되는 데이터센터들은 최상단 집성 장비까지 최소 4중화 구조로 구축한다. 운영자가 장비를 즉시 조치하기에 용이하도록 조치한다는 설명이다. 데이터센터 간 전송망 확장을 통해 서비스 다중화 배치에 활용할 방침이다.
서 파트장은 “필수 네트워크 장비와 시스템은 다중화 구성됐으나, 일부 운영 툴과 로그 저장소가 정전에 영향을 받았고 장애 당시 로그도 상당량 손실됐다”며 “향후 모니터링과 각종 분석툴 네트워크, 백엔드 플랫폼까지 이중화할 것”이라고 강조했다.
아울러, 유용하 회원플랫폼사업실장은 “모든 기술 발전은 실패 혹은 문제 발생에 대해 분석하는 것으로 시작한다. 시행착오와 개선을 반복하는 과정을 통해 다음 단계 발전을 도모할 수 있다”며 “이번 사건을 드물게 큰 규모로 직접 겪기 어려운 만큼, 현장에서 쌓인 기술적 경험과 지식이 업계 전반에 도움이 될 것”이라고 전했다.