클라우드 서비스

AWS, “서울 리전 서비스, 자세한 장애 원인은…”

백지영

[디지털데일리 백지영기자] 아마존웹서비스(AWS)가 지난 22일 발생한 서비스 중단에 대한 원인을 자사 블로그를 통해 상세히 밝혔다. 이번 서비스 장애로 배달의민족, 쿠팡, 야놀자, 여기어때, 마켓컬리, 업비트, 두나무 등 암호화폐거래소, KB금융지주(협업플랫폼), 신한은행(빅데이터 플랫폼) 등의 다수 서비스가 약 2시간 이상 정상적으로 이뤄지지 못했다.

이번에 장애가 발생한 서울 리전의 정확한 명칭은 ‘아시아태평양-북동-2(AP-NORTHEAST-2)’다. AWS에 따르면, 22일 한국 시간 오전 8시 19분에서 9시 43분(84분)까지 서울 리전에서 EC2 인스턴스에 DNS 확인 이슈가 있었다. DNS(도메인네임시스템)는 인터넷 주소창에 문자로 구성된 도메인을 입력하면, 숫자로 된 실제 IP주소로 연결해주는 네트워크 서비스다.

이번 이슈는 EC2 인스턴스에 재귀 DNS 서비스를 제공하는 EC2 DNS 확인 서버군(resolver fleet) 중 정상 호스트 수가 감소했기 때문이다. 정상 상태의 호스트 수가 이전 수준으로 복원됨에 따라 DNS 확인 서비스는 복원됐으며, EC2 인스턴스의 네트워크 연결 및 EC2 외부의 DNS 확인 과정은 영향을 받지 않았다고 밝혔다.

AWS 측은 “DNS 확인 문제의 근본 원인은 설정 업데이트 시 서울 리전의 EC2 DNS 확인 서버군의 최소 정상 호스트를 지정하는 설정을 잘못 제거한 것에 따른 것”이라며 “이로 인해 최소한의 정상 호스트 구성 기본 설정 값이 매우 낮은 것으로 해석돼 정상 서비스 호스트 숫자가 줄어들었다”고 설명했다. EC2 DNS 확인 서버군의 정상 호스트 용량이 감소함에 따라, 고객 EC2 인스턴스 내의 DNS 쿼리가 실패하기 시작했다는 것.

AWS 엔지니어링 팀에게 오전 8시 21분에 서울 리전 내의 DNS 확인 문제가 통보됐고, 즉시 문제 해결에 나섰다. AWS는 먼저 더 이상 정상 호스트가 서비스에서 제거되는 것을 방지함으로써 추가적인 영향이 없음을 확인했으며, 이 작업에 15분이 추가로 소요됐다고 밝혔다.

이후 서비스 용량을 이전 수준으로 복원했으며, 복구 시간의 대부분이 이 작업에 사용됐다. 한국 시간 오전 9시 43분에 EC2 인스턴스의 DNS 질의 문제를 완전히 복구했다.

회사는 “이러한 문제의 재발을 막기 위해 다방면의 조치를 취하고 있으며, 그 중 일부는 이미 완료됐다”며 “먼저 모든 AWS 리전의 EC2 DNS 확인 서비스에 대한 올바른 용량 설정이 있는지 즉시 확인했고 모든 리전에 항상 충분한 최소한의 정상 호스트를 제공하기 위해 모든 EC2 DNS 확인 설정 업데이트에 대해 의미적 구성 검증(semantic configuration validation)을 구현했다”고 전했다.

또한 정상 호스트 중 시간당 제한된 양의 용량만 서비스에서 제거할 수 있도록 조절 기능을 추가하고 있다고 밝혔다. 이러한 방법으로 잘못된 구성 매개 변수가 발생할 경우에도 EC2 DNS 확인 서버군의 용량 축소를 방지할 수 있다는 설명이다.

AWS는 “이번 경우로 인해 고객 여러분들에게 끼친 영향에 대해 사과드린다. AWS의 EC2 DNS는 그 동안 높은 가용성을 제공해 왔고, 이 서비스가 저희 고객들과 고객들의 애플리케이션 및 최종 사용자, 비즈니스에 얼마나 중요한지 잘 알고 있다”며 “AWS는 큰 교훈을 얻었으며, 저희의 가용성을 더욱 높이기 위해 최선의 노력을 다 할 것”이라고 강조했다.

<백지영 기자>jyp@ddaily.co.kr

백지영
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널