[종합] 불난 SK C&C ‘설계 오류’, 먹통 카카오 ‘이중화 미비’
[디지털데일리 최민지 이안나 이나연 기자] 지난 10월15일 오후 3시19분, SK C&C 판교 데이터센터 지하 3층 배터리실에서 불이 났다. 리튬이온배터리가 원인으로 꼽힌다. 화재는 당일 오후 11시45분 진화됐으며, 전력은 10월19일 오전 5시경 정상화됐다. 이로 인한 카카오 계열사 주요 서비스는 최대 127시간33분간 장애를 겪었다.
그런데, 2년 전인 지난 2020년 KT 강남 인터넷데이터센터(IDC)에서도 리튬이온배터리로 인해 화재가 발생한 바 있다. 초기진화로 큰 피해를 입지 않은 사건이다. 그런데, 왜 SK C&C 판교데이터센터 화재는 왜 대형 서비스 장애로 이어질 수밖에 없었을까?
이와 관련 과학기술정보통신부(이하 과기정통부)는 방송통신위원회‧소방청과 정부서울청사에서 브리핑을 열고 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다.
◆SK C&C 설계 문제 부각, “BMS 오작동 가능성 있어”=화재 초기 진압 어려움과 서비스 장애 직접적 원인은 SK C&C 판교데이터센터 설계 문제에서 찾을 수 있다.
이날 홍진배 과기정통부 네트워크정책실장은 “리튬이온배터리가 일부 무정전전원장치(UPS)와 물리적으로 분리되지 않은 공간에 있었고, 그 위에 카카오 쪽으로 공급되는 전력선이 있었다”며 “전력선이 (화재가 난) 배터리 위에 있었기 때문에, 전력을 차단하게 되는 결정적 원인을 제공했다”고 설명했다.
리튬이온배터리가 일부 UPS와 분리되지 않은 공간에 배치돼, 화재 열기 등으로 UPS 작동이 중지됐고 전원공급도 중단됐다. 배터리 상단에 포설된 전력선이 화재로 손상됐는데, 이는 카카오 서버와 연결된 전력선이었다. 화재 진압을 위해 살수 때 누전 등 2차 피해 우려도 전체 전력을 차단할 수밖에 없었다.
배터리모니터링시스템(BMS) 오작동 가능성도 점쳐졌다. 리튬이온배터리 온도는 서서히 올라가서, 미리 이상징후를 알 수 있다. 하지만, SK C&C 판교데이터센터 BMS는 일정 수준을 유지하고 있어, 화재 직전까지 이상징후가 없었다.
리튬이온배터리 경우, 화재 규모가 작으면 가스 소화 장비로 진압할 수 있으나 그 수준이 넘어섰기에 물을 뿌려야만 했다. 그런데, 내부에 물이 빠질 수 있는 배수로가 없어 살수작업에 어려움을 겪었다는 설명이다. SK C&C는 2016년 리튬이온배터리 설치 후 현재까지 특화된 방화조치를 한 적 없다.
홍 실장은 “BMS 오작동 가능성도 있어 보인다. BMS 하나만 믿기에 위험해, 센싱 다중화 체계를 구축해야 하고, 배터리도 겹겹이 분리돼 있어야 한다”며 “KT 때는 지하 2층부터 6층까지 구분돼 있었고, 이 중 한 층에서 불이 났다. 살수하기 좋은 형태라 해당 층만 진압하면 되는 사례라, (SK C&C와) 구조적 차이가 있다”고 말했다.
◆판교 IDC에만 의존한 카카오, “이중화 부실”=카카오 경우, SK C&C 판교데이터센터에만 의존한 구조적 미비점이 사태를 키웠다.
카카오는 판교데이터센터와 기타 센터 간 ‘동작(Active)-대기(Stanby)’ 체계로 이중화를 했다. ‘동작’ 서버 작동 불능 때 대기 중이던 ‘대기’ 서버를 가동하는 방식이다. 판교데이터센터 동작 서버 작동이 불능된 후 서비스 장애 복구가 지연된 건, 대기 시스템이 제대로 동작하지 않았기 때문이다. 대기 서버를 동작서버로 전환하기 위한 권한관리 기능 ‘운영 및 관리 도구’는 다른 데이터센터엔 이중화돼있지 않았다.
특히, 카카오 인증이나 카카오톡 등 대부분 핵심 기능이 판교데이터센터에 집중돼있었다. 한 개 데이터센터 전체가 일시 불능이 되는 대형 재난상황에 대해선 대비가 부족했다는 지적이다.
홍 실장은 “카카오는 이중화를 했다고 하지만, 굉장히 부실했다”며 “운영‧관리 도구가 이중화되지 않아, 다른 IDC 서비스를 스탠바이 서버에서 깨우지 못했다”며 “다른 서비스 쪽 컴포넌트들이 이중화돼 있지 않고 판교데이터센터에서만 가능한 상황이라, 복사해서 다시 복원하는 작업으로 시간이 오래 걸렸다”고 설명했다.
◆사업자, 1개월 내 개선조치 제출해야=과기정통부는 SK C&C와 카카오, 네이버 3사에게 1개월 이내 주요 사고원인에 대한 개선 조치와 향후 계획을 수립‧보고하도록 할 계획이다. 강제성이 없는 권고사항이나, 사안의 엄중성을 고려했을 때 유의미한 조치계획을 낼 것이라는 설명이다.
과기정통부는 SK C&C에 ▲다양한 화재관리 시스템 구축 방안 ▲리튬이온배터리 화재 때 필요한 소화설비 구축 ▲데이터센터 전력공급 생존성 확보 등을, 카카오 ▲운영 및 관리도구의 높은 수준 다중화 적용 ▲핵심기능 분산 및 다중화 방안 ▲재난대비 훈련 ▲이용자 고지 및 피해구제 등을 요구했다.
이를 통해 정부는 디지털서비스 안정성 확보를 위한 종합적 개선방안을 내년 1분기 중 수립한다. 센싱 다중화 포함 안전한 설계를 반영한 IDC 대책과 강제력 수준에 대해서 논의할 예정이다.
홍 실장은 “가장 좋은 프로세스는 예방, 대응, 복원력 3단계다. 이 전 단계에서 다중 체제를 구축하는 부분에 역점을 두겠다”며 “배터리 위에 전력선을 바로 두지 않고, 추가적 안전조치를 해 화재로부터 견딜 수 있게 했어야 했다. 그런 점이 없었다는 것을 알았으니 구조적 대책들도 마련하겠다”고 부연했다.
또 “방발법과 전기통신망법 개정이 진행 중이다. 지금은 행정지도로 요청하지만, 개정안이 통과되면 재난대비 계획에 반영해 일정부분 이행력을 담보할 수 있을 것”이라며 “제도적 변화 있다면, 구체적 내용 담아보려고 한다. 재난대응 조직과 대응체계 강화 내용을 담아 종합 대책을 발표하겠다”고 덧붙였다.
◆정부, IDC‧부가통신사업자 규제 강화 시동=이에 과기정통부는 이른바 카카오먹통방지법으로 불리는 ‘방송통신발전기본법 개정안(방발법)’ 지원사격에 나선다. 방발법은 국회 과학기술정보방송통신위원회(과방위)를 통과한 가운데, 법제사법위원회와 국회 본회의 절차를 앞두고 있다.
이날 이종호 과기정통부 장관은 네이버‧카카오 등 부가통신사업자와 인터넷데이터센터(IDC)를 운영하는 직접정보통신시설사업자를 주요방송통신사업자급으로 재난관리 법규제망에 포함시키겠다는 의지를 드러냈다.
이 장관은 “(방발법은) 가능한 이번달 안으로 진전이 있기를 바라고, 빨리 법안이 발효될 수 있도록 최선을 다해 지원하겠다”며 “(네이버, 카카오, SK C&C 등) 일정규모 이상 주요 사업자에 대해선 법체계를 적용하고, 작은 업체는 진흥을 위해 규제를 적게 받는 모양이 될 것으로 기대한다”고 전했다.
이어 “과기정통부는 산업 진흥에 초점을 맞추고 있고, 정책 방향엔 큰 변화 없다”면서도 “이번 장애 통해서 디지털 서비스 장애가 얼마만큼 국민들에게 큰 피해를 줬는지 절실히 느낄 수 있었다. 양해가 필요한 부분이고, 엄중하게 바라볼 필요가 있다”고 강조했다.
한편, SK C&C와 카카오‧네이버는 정부 요구사항을 참고해 개선방안을 마련할 방침이다.
SK C&C는 “시스템 보강을 적극 검토 중으로, 리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안을 준비 중”이라며 “배터리실 내 위치한 전력선을 재배치하는 등 구조적 안전성을 확보했고, 대형 화재 상황을 고려한 재난대응 시나리오 및 세부 훈련 계획 등도 수립 중”이라고 밝혔다.
카카오는 “오는 7일 열리는 개발자컨퍼런스 이프카카오를 통해 서비스 장애의 원인을 분석하고, 인프라 투자 계획 등을 담은 재발방지대책을 공개할 예정”이라며 “과기정통부가 발표한 시정 요구 사항 중 보강할 부분이 있다면 적극적으로 검토해 반영할 계획”이라고 답했다. 네이버는 “정부 시정 요구 사항을 참고해 앞으로 중단 없는 안정적인 서비스를 제공하기 위해 최선을 다하겠다”고 전했다.
“금융권 책무구조도, 내부통제 위반 제재수단으로 인식 안돼”
2024-11-15 15:19:319월 국내은행 가계·기업대출 연체율 하락…"분기말 연체채권 정리규모 확대 때문"
2024-11-15 15:11:10'2조 클럽' 삼성생명, 삼성화재에 순익 앞서며 자존심 회복… 올해 '맏형' 자리는 누가?
2024-11-15 15:00:21DL건설, “공정문화 확산 실천”…‘2024년 DL건설 컴플라이언스 데이’ 개최
2024-11-15 14:18:34