솔루션

AWS 장애에 롤·쿠키런 킹덤 먹통··· 다수 게임에 영향

이종현


[디지털데일리 이종현기자] ‘리그오브레전드(롤)’, ‘쿠키런 킹덤’ 등 인기 게임에서 동시에 장애가 발생했다. 활용 중인 아마존웹서비스(AWS) 도쿄 리전의 EC2 장애 탓으로 보인다.

19일 늦은 저녁, AWS의 도쿄 리전에서 장애가 발생하면서 이를 이용 중인 서비스 다수가 먹통이 되는 현상이 발생했다. 라이엇게임즈의 롤을 비롯해 쿠키런 킹덤, 로드 오브 히어로즈, 블루 아카이브 등의 게임에서 문제가 발생했다. 인터넷 커뮤니티에서는 게임뿐만 아니라 일부 웹서비스에서도 장애가 발생했다는 제보가 잇따랐다.

AWS 인프라의 상태를 확인할 수 있는 ’AWS 서비스 헬스 대시보드‘에 따르면 문제의 발생 원인은 냉각 시스템의 오류 때문으로 추정된다. AWS는 대시보드를 통해 20일 오전 0시9분과 0시58분 도쿄 지역의 가용영역(AZ)에 문제가 발생해 대응 중이라고 안내했다.

갑작스러운 서비스 장애에 이용자들은 “허구한날 서버가 터지냐”, “왜 굳이 도쿄 리전을 쓰는 거냐” 등의 불만을 토로했다. 특히 지난달 출시 이후 흥행가도를 달리다가 서버 문제로 홍역을 치렀던 쿠키런 킹덤의 경우 문제가 심각하다. 반복되는 서비스 장애에 상당수의 유저가 이탈할 수도 있는 상황이다.

AWS가 문제를 해결하는 것 외엔 뾰족한 수가 없기에 서비스 제공 기업들의 입장에서는 난감하다. 서버를 위탁하는 클라우드인 탓에 직접 손쓰기가 어렵지만 대다수 이용자는 서비스 제공자에 책임을 묻기 때문이다.

끊김 없이 안정적으로 서비스를 제공할 수 있는 고가용성은 클라우드를 선택하는 주요 요인 중 하나다. 하지만 최근 클라우드 사업자의 문제로 서비스가 중단되는 일은 드물지 않다. 지난해 11월에도 AWS의 미국 동부 리전에서 장애가 발생하며 어도비, 워싱턴포스트, 오토데스크, 코인베이스 등 AWS를 인프라로 이용하는 기업들이 피해를 입은 바 있다.

일부에서는 반복되는 서비스 장애에 퍼블릭 클라우드에 대한 신뢰가 흔들리고 있다고 지적한다. AWS의 경우 클라우드 1위 기업으로 전체 클라우드 시장 점유율의 약 32%를 차지하고 있다. 하지만 이런 신뢰성과는 별개로 최근 반복되는 장애로 여론이 악화되는 듯한 양상이다.

반면 일각에선 퍼블릭 클라우드 서비스를 사용하는 기업들이 고가용성 확보를 위한 노력을 기울여야 한다고 강조한다. 아키텍처 재구성을 통해 여러 AZ에 인프라를 배치하거나 다른 클라우드 서비스를 활용하는 멀티 클라우드 서비스 사용 등을 통해 비즈니스 연속성을 확보해야 한다는 제언이다.

한편 AWS는 국내에도 데이터센터 인프라를 운영 중이다. 지난 2016년 서울 리전을 오픈했으며 지난해 7월 4번째 AZ를 개선하며 데이터센터 인프라 강화에 나선 바 있다. AWS의 아시아태평양 지역 리전은 서울을 포함해 이번에 장애가 발생한 일본 도쿄, 홍콩, 뭄바이, 오사카, 싱가포르, 시드니 등이다.

도쿄 리전 역시 4개의 AZ를 운영 중이다. AZ는 리전의 전력과 네트워킹, 연결이 제공되는 하나 이상의 개별 데이터센터로 구성되며, 리전은 물리적으로 분리된 여러 개의 AZ로 구성된다. 이번에 장애가 발생한 AZ는 도쿄리전의 apne1-az1로 다른 AZ에는 영향을 끼치지 않은 것으로 나타났다.

<이종현 기자>bell@ddaily.co.kr

이종현
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널