카카오 먹통 사태 1년…주요 계열사 엔터·모빌리티, 어떤 노력할까
[디지털데일리 이나연 기자] 온라인 플랫폼 독과점 규제 목소리가 커진 계기로 꼽히는, 이른바 ‘카카오 먹통’ 사태가 발생한 지도 벌써 1년여 시간이 흘렀다. 당시 SK C&C 판교 데이터센터에서 발생한 화재로 카카오 서비스 전반이 대규모 장애를 일으켰고, 이는 전 국민 일상생활에 큰 불편을 끼쳤다.
그 사이 카카오는 첫 자체 데이터센터인 ‘카카오 데이터센터 안산’ 공사를 마치고 본격 가동을 준비하는 한편, 서비스 안정성 확보에 총력을 기울이는 모습이다. 카카오는 최근 발간한 ‘안정성 보고서’를 통해 본사뿐만 아니라, 카카오엔터테인먼트와 카카오모빌리티 등 공동체(계열사)들이 하는 노력에 대해서도 공개했다.
◆카카오엔터 “웹툰·멜론뮤직어워드 등 트래픽 급증에 집중”
스토리·뮤직·미디어 3개 사업 부문을 영위하는 카카오엔터테인먼트가 주목하는 과제는 ‘트래픽 증가’ 대응이다. 실제 콘텐츠 산업 환경 변화로 서비스를 통해 유통되는 콘텐츠 수가 증가하고, 콘텐츠 품질이 향상해 트래픽 규모도 함께 증가하는 추세다.
카카오엔터 서비스는 클라우드 기술(컨테이너 오케스트레이션 플랫폼)을 활용해 다중화한 데이터센터를 관리하고 있다. 폭증하는 트래픽을 여러 데이터센터로 분산하고, 클라우드로 여러 데이터센터의 데이터가 동일하게 저장될 수 있도록 조치한다. 특정 데이터센터에 장애가 발생해도 신속하게 장애 복구가 가능하게 했다.
중요 데이터를 저장하는 데이터베이스 서버와 이 서버가 보유한 데이터를 백업해 저장하는 데이터센터도 물리적으로 분산 운영 중이다. 이러한 조치는 클러스터 기반 데이터센터 다중화에도 발생할 수 있는 예상치 못한 장애에 대응하기 위한 것이라는 게 회사 설명이다.
서비스 모니터링 체계는 멀티 클라우드 인프라를 활용한다. 카카오엔터는 국내 대상 서비스(멜론·카카오페이지·카카오웹툰)와 국외 대상 서비스(타파스 미국·카카오웹툰 대만 등)를 위해 지리적·기술적 영향을 고려한 멀티 클라우드를 운영한다.
각 서비스는 해당 클라우드에서 시스템 지표들을 수집하고 모니터링한다. 카카오엔터는 각 클라우드 서비스 운영사에서 기본적으로 제공하는 모니터링 기능에서 나아가, 멀티 클라우드를 한눈에 살필 수 있도록 별도 시스템에서 지표를 통합 집계하는 작업을 진행하고 있다.
서비스 성능 경우, 애플리케이션에서 발생하는 지표·로그·추적 데이터를 활용한 ‘내부 모니터링’과 이용자로서 시스템 외부에서 서비스 성능을 모니터링하는 ‘외부 모니터링’을 병행한다. 외부 모니터링은 가상 웹브라우저를 이용해 실제 이용자의 다양한 행동을 예상 시나리오로 만들고, 그에 따라 성능을 점검하는 방법이다.
이때 사용되는 가상 웹브라우저 위치는 서비스 국가별로 설정할 수 있도록 해 각국 현지에서 서비스 성능을 모니터링할 수 있도록 구성했다. 모니터링 시스템은 에러가 발생하거나 임계값 유효성 검사 등 통지 조건에 부합할 때 대응 채널로 알림을 발송하는 상시 모니터링 알림 체계를 갖추고 있다. 멜론뮤직어워드와 같은 대형 이벤트가 진행될 땐 집중 모니터링을 통해 다양한 이슈에 즉각 대응이 가능하도록 준비한다.
또한 카카오엔터는 다양한 채널을 통해 이슈나 장애를 제보받는다. 제보받은 내용을 활용해 모니터링 체계와 장애 대응 체계를 보완하는 한편, 모든 장애에 대해 재발 방지를 위한 장애 회고(리뷰)를 진행한다. 정보보호 공시 포털에 따르면 지난 6월 공시 기준 카카오엔터는 정보기술 투자 부문 대비 정보보호 투자에 3.5%를 할애했다.
◆카카오모빌리티 “끊김없는 이동 서비스에 만전 기해”
택시·대리·바이크·주차·내비·시외버스·기차·항공·퀵·택배 등 많은 모빌리티 서비스를 제공하는 카카오모빌리티 역시 실시간으로 변화하는 대용량 트래픽을 유연하게 처리하는 동시에, 고도의 안정성을 제공하는 것을 목표로 한다. 카카오모빌리티에 따르면 카카오T는 누적 3500만명 고객에게 ‘서비스형 모빌리티(MaaS·Mobility as a service)’ 서비스를 제공 중이다. 카카오내비는 누적 2200만명 고객을 대상으로 매월 2억4000만건 길 안내를 수행하고 있다.
카카오모빌리티 서비스는 다양한 계절·환경적 요인으로 단시간에 급격하게 트래픽이 급증하는 경우가 많다. 휴가철과 명절, 연휴 경우, 첫날 오전에 내비게이션 사용량이 급증하고, 갑자기 폭우가 쏟아지거나 예기치 못한 사고로 대중교통에 문제가 생기면 택시 호출량이 급증하는 식이다.
카카오모빌리티는 여러 돌발상황에 대응하기 위해 트래픽이 급증할 것으로 예상되는 시점에 더 많은 전담 인력을 배치하는 등 상시 대응 체계를 구축하고 있다. 특히 카카오모빌리티 내비게이션 서버는 트래픽 요청 수에 따라 서버 수가 자동으로 변경되는 트래픽 반응형 서버 운영 시스템을 적용 중이다. 수 분 내에 갑자기 트래픽이 급격히 몰리더라도 엔지니어가 이를 인지 후 서버 증설을 하는 것이 아니라, 자동으로 서버 수를 늘려 다양한 변수 상황에 대응할 수 있다.
이에 더해 카카오모빌리티 모니터링은 다양한 알림 체계와 모니터링 체계를 통해 장애가 발생할 수 있는 상황들을 사전 감지하고 대비한다. 택시 서비스는 여러 변수로 호출량이 급변하는 서비스 중 하나다. 매 출퇴근 시간이 임박하면 택시 호출 이용자가 급증하지만, 이 역시 고정적 패턴을 보이는 것은 아니므로 예측이 쉽지 않다.
택시 서비스 개발담당자는 서비스 모니터링 대시보드를 만들어 상시 운영하며, 장애 상황이 발생하지 않도록 모니터링하고 있다. 이 외에도 APM 및 택시 호출 추이·기사 호출 발송량·연동 서비스 오류·에러 발생과 같은 지표를 추출해 특정 이상 패턴 발견 때 서비스 개발담당자에게 알림을 보내 빠른 조치를 하도록 한다.
카카오모빌리티는 매년 정보통신망법에 의거해 과학기술정보통신부와 개인정보보호위원회에서 주관하는 정보보호 및 개인정보보호관리체계(ISMS-P)와 국제표준 정보보호 경영시스템(ISO 27001) 심사를 받아 인증을 유지하고 있다. 정보보호 공시 포털에 따르면 지난 5월 공시 기준 정보보호부문 투자액은 전체 정보기술(IT) 투자액의 4.23%인 약 28억원이다.
아울러 카카오모빌리티는 인프라 관련 안정성을 위해 자체 모의 훈련뿐만 아니라, 신규 업데이트에 대한 시뮬레이션과 모의 훈련 등에 있어 클라우드 사업자와 협력체계를 유지해 오고 있다. 이러한 협력 결과로 지난해와 올해 2년 연속으로 ‘구글 클라우드 데브옵스 어워즈(Google Cloud DevOps Awards)’에서 ‘안정성 저하 없는 속도 최적화’ 상을 받았다.
“몸캠피싱 꼼짝마!”...아크링크, 2024 KBS N 브랜드어워즈 대상 수상
2024-12-28 14:00:00[오징어게임2 이펙트] "또 한 번 증명"…공개 하루 만에 글로벌 1위
2024-12-28 13:51:26SW기업 연말은 어떤 모습?...행사는 소박하고 간편하게 ‘각양각색’
2024-12-28 13:51:01K-디지털 트윈 서비스 수출모델 무엇?…디플정위, 결과보고회 개최
2024-12-27 23:34:34