소프트웨어

[우본장애]④ 지속되는 ‘디지털재난’… 데이터센터 안전성 우려↑

이안나 기자
[ⓒ연합뉴스]
[ⓒ연합뉴스]

[디지털데일리 이안나 기자] 행정전산망 마비부터 우체국금융 장애까지 정부·공공기관 시스템 장애가 계속되면서 데이터센터 안전성에 대한 의구심이 계속되고 있다.

‘카카오 먹통’ 사태 이후 정부는 재해로 인한 시스템 먹통을 막기 위해 주요 민간 데이터센터에 다중화 조치 의무를 담은 ‘카카오 먹통 방지법’을 통과시켰다. 그러나 이후 정작 데이터센터 장애로 국민의 불편함을 야기한 곳은 민간 데이터센터가 아닌 정부였다.

화재나 홍수, 지진 같은 재해가 아닌 국가정보자원관리원에서 서버와 네트워크 장비 등에 문제가 발생하며 ‘디지털 재난’이 발생한 셈이다. 이에 데이터센터 안전성 확보를 위한 보다 폭넓은 논의가 필요하다는 의견도 제기된다.

지난달 30일 우정사업본부(이하 우본)가 운영하는 우체국금융이 약 18시간 동안 장애를 빚었다. 우본은 과학기술정보통신부 산하기관이다. 이용자들은 불가피하게 지난달 30일 오전 7시부터 하루 가까이 우체국 인터넷뱅킹과 모바일뱅킹 등을 이용할 수 없었다.

장애 발생 시기는 공교롭다. 우체국 금융 장애 바로 이틀 전, 행정안전부는 국가정보원과 함께 지난해 11월 연속 발생했던 정부 시스템 장애 원인을 발표하며 “문제점과 부족한 점을 개선하겠다”고 약속한 터였다. 특히 우체국 금융은 가장 강력한 장애복구 탄력성을 요구하는 금융 분야임에도 불구하고, 지난 1년 발생한 은행권 전산장애 중 최장시간을 기록했다.

지난해부터 이어진 정부 행정망 마비와 이번 우체국금융 장애 사태에서 공통적으로 등장하는 건 국가정보자원관리원(이하 국자원)이다.

국자원은 국가기관 주요 서비스의 서버와 통신·보안장비 등 정보자원을 관리하는 데이터센터다. 지난해 11월 먹통 사태를 빚은 행정전산망 ‘새올’과 ‘정부24’ 서버와 네트워크 장비가 이곳에 있다. 우체국금융 장애 원인도 시스템 운영 주무부서인 우정사업정보센터와 함께 총동원해 찾고 있다.

우체국 예금 홈페이지 갈무리
우체국 예금 홈페이지 갈무리

민간 데이터센터 중심으로 디지털 재난을 막기 위한 조치는 지난해 정부가 직접 시행한 바 있다. 과학기술정보통신부(이하 과기정통부)는 지난해 3월 ‘디지털서비스안전성강화방안’을 발표했다. 이는 2022년 말 SK C&C 데이터센터 화재로 카카오 서비스가 먹통됐던 사건을 계기로, 재난관리 의무대상에 일정 규모 이상 플랫폼과 데이터센터도 포함하는 것을 골자로 한다.

과기정통부 관계자는 “데이터센터는 전력이 끊기는 게 가장 큰 재난”이라며 “(디지털서비스 안전성강화방안은) 자연재해 뿐 아니라 사회적 재난에 대해서도 결과적으로 전력 끊김을 방지하기 위한 조치들을 마련하는 데 초점을 맞췄다”고 말했다.

하지만 국가정보자원관리원에서 발생한 장애의 경우 화재나 홍수, 지진 등으로 인한 것이 아닌 서버·네트워크 장애에 가깝다. 통상 네트워크 장애는 장비를 교체하거나 소프트웨어를 업데이트할 때 장비가 노후화했거나 제대로 준비하지 못해 발생한다. 즉 물리적인 안전조치만으로는 데이터센터 서비스 가용성을 보장받을 수 없다는 점을 국자원 사례가 확인시켜줬다.

염흥열 순천향대 정보보호학과 교수는 “(정부 행정·금융망 장애는) 홍수·화재 같은 자연재해가 아닌 일종의 네트워크 관리 부실”이라며 “가용성과 레질리언스(회복력) 차원에서 미흡하다고 볼 수 있다”고 말했다.

특히 민간 데이터센터는 서비스 사업자와 사용자 간 ‘서비스 수준 협약(SLA)’를 맺는다. 이는 서비스 가용성, 성능, 복구 등에 대한 수준을 정하는 협약으로, 구체적 성능을 기준으로 이용환경을 평가할 수 있다. 다만 정부 기관 서버와 통신을 담당하는 국자원의 경우 정부기관끼리의 협약이기 때문에 실제 환경이 어떠한지 파악하는 게 어려운 상황이다.

물론 공공기관이 민간 사업자와 유지보수 사업을 맺을 경우 SLA가 작동하게 되어 있다. 정부 시스템의 수발주 구조에 있어 계약관계에는 명확한 서비스수준관리(SLA), 표준운영절차 및 업무연속성(BCM) 관리가 들어가 있다. 하지만 앞선 공공기관 장애와 같이 이 같은 SLA가 정상적으로 작동하는지, 혹은 정상적으로 작동할 수 있는 구조적 문제가 없는지는 확인할 필요가 있다.

염 교수는 “국가정보자원관리원도 일괄적으로 클라우드 서비스를 제공하고 있기 때문에 SLA에 준하는 약속이 필요해 보인다”며 “예를 들어 장애가 발생하면 3시간 내 복구한다던가 이중화를 해서 복원력(레질리언스)를 높이는 등 운영 정책을 목표로 삼고 이행할 수 있도록 검토해야 한다”고 전했다.

이안나 기자
anna@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널