인터넷

[이프카카오] 장애부터 복구까지 127시간33분…“이중화·위기대응 미흡”

최민지
-데이터센터 간 이중화, 운영도구‧모니터링 시스템 이중화 미흡
-하나의 데이터센터 전제 장애에 대응하기 위한 인력‧자원 부족
-재해 초기 카카오 컨트롤타워 부재 지적


[디지털데일리 최민지 기자] 카카오가 서비스 장애와 관련해 이중화 미흡과 인력‧자원 부족 실태를 스스로 밝혔다. 장애원인을 파악하고 이를 공개해, 카카오뿐 아니라 IT산업에서 이같은 일이 반복되지 않도록 하겠다는 뜻이다.

카카오 비상대책위원회 원인조사소위원장 이확영 그렙(Grepp) 공동대표<사진>는 7일 열린 연례 개발자 콘퍼런스 ‘이프카카오데브2022(if kakao dev 2022, 이하 이프카카오)’에서 서비스 장애 원인을 발표했다.

앞서, 카카오는 장애 원인을 제3자 관점에서 객관적으로 분석하기 위해 외부 인사인 이확영 대표를 원인조사소위원장으로 선임했다. 그는 과거 카카오에서 카카오톡 개발을 비롯한 여서 서비스를 경험했기에, 현 상황을 빠르게 파악할 수 있는 인물로 꼽혔다.

이날 이 소위원장은 “지난 10월15일 오후 3시19분경 카카오가 이용 중인 SK C&C 판교데이터센터에서 확재가 발생했고, 이는 곧 카카오 서비스 전반 장애로 이어졌다”며 “서비스를 담당하는 서버가 이중화됐음에도 장애가 발생했고, 10월20일 오후 11시 모든 서비스가 복구 완료되기까지 상당한 시일이 소요됐다. 원인 분석 결과, 이중화와 위기 대응 과정에 미흡함이 있었던 것으로 드러났다”고 말했다.

장애가 길어진 원인은 ▲데이터센터 간 이중화 미흡 ▲운영관리 도구 이중화 미흡 ▲이중화 전환 후 가용 자원 부족에 있다.

데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화됐다면 빠르게 복구할 수 있다. 하지만, 카카오 일부 시스템이 판교데이터센터 내에서만 이중화돼 있어 장애 복구가 늦어졌다. 예를 들어, 서비스를 운영하는 많은 시스템에서 사용되는 캐시 서버와 오브젝트 스토리지가 완벽하게 이중화되지 않고 판교데이터센터에만 설치돼 있어 이를 사용하는 서비스 복구가 늦어졌다. 카카오 로그인이나 카카오톡 사진 전송 기능이 여기에 속한다.

서로 다른 데이터센터에 이중화된 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동해야 한다. 이 시스템마저 판교데이터센터에만 설치돼 있었다. 이에 따라 수동으로 전환 작업을 진행했기 때문에 복구가 지연됐다.

이 소위원장은 “사용자 서비스에 직접적으로 필요한 시스템 외 서비스 개발과 관리를 위한 운영 관리 도구가 필요한데, 이러한 도구들 이중화도 미흡했다”며 “상대적으로 이러한 도구들 안정성 확보에 소홀했다”고 지적했다. 컨테이너 이미지를 저장하고 관리하는 시스템이나, 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 돼 복구에 어려움을 겪었다는 설명이다.

이중화 전환 후 가용 자원도 부족했다. 판교데이터센터 전체를 대신할만큼 가용 자원이 확보돼 있지 않았기에, 판교데이터센터 전원이 들어와서 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다.

이 소위원장은 “전체 시스템 이중화 수준은 가장 약한 시스템 이중화 수준을 따라가기 때문에, 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발한 것”이라며 “개별 부서나 시스템마다 다른 이중화 수준 및 체계, 부족한 상면 등으로 문제가 생기지 않도록, 회사 차원에서 체계적인 이중화를 준비했어야 한다”고 꼬집었다.

이는 지난 6일 과학기술정보통신부(이하 과기정통부)가 밝힌 조사 결과와 일치한다. 과기정통부가 발표한 복구 지연 원인은 애플리케이션‧서비스 플랫폼 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화가 돼 있지 않은 점이었다. 카카오인증을 비롯한 카카오 서비스 대부분 핵심기능이 판교데이터센터에 집중된 것은 서비스 전반에 광범위한 영향을 미친 원인으로 파악했다.

이와 함께 이 소위원장은 회사 위기 대응 측면에서도 문제점을 짚었다. 구체적으로 ▲장애복구 인력‧자원 부족 ▲장애 대응 커뮤니케이션 채널 혼선 ▲재해 초기 컨트롤타워 부재 등이다.

카카오와 공동체, 개별 조직이 동시 다발적으로 장애에 대응했으나 전체적인 조율과 협업을 지원하는 전사 조직에 사전에 구성돼 있지 않았다는 것이다. 이에 서비스별로 개발자들이 최선을 다했음에도, 의사결정 과정에서 충분하지 않았다.

이 소위원장은 “운영 관리 도구 복구 인력이 부족했던 것이나, 이중화에 필요한 상면 부족은 치명적이었다”며 “평소 이중화나 장애 대응 체계를 갖추고 있었더라도, 이번 서비스 장애와 같이 데이터센터 전체의 장애 상황을 가정하면 준비가 부족했다”고 설명했다.

이어 “카카오는 사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 사용하고 있다. 해당 채널을 쓸 수 없을 때, 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비돼 있고, 일상적으로 사용되고 있어야 했다”고 부연했다.

한편, 원인조사소위는 이러한 내용을 담은 원인 분석 결과 보고서를 카카오 비상대책위원회에 제출했다.
최민지
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널