이상일 칼럼

[취재수첩] 정부 디지털 재난…컨트롤 타워 부재를 대기업이 해결할 수 있나?

이상일 기자
20일 오전 서울 서대문구 소재 주민센터에서 한 시민이 민원 업무를 보고 있다. [ⓒ 디지털데일리]
20일 오전 서울 서대문구 소재 주민센터에서 한 시민이 민원 업무를 보고 있다. [ⓒ 디지털데일리]

[디지털데일리 이상일기자] 사흘간 정부 행정전산망이 마비되는 유례없는 정부 디지털 재난이 벌어지면서 후속대책에 업계의 관심이 쏠리고 있다.

하지만 벌써부터 사안의 본질을 흐리는 지적과 요구(?)가 나오고 있다. 정부 시스템이 장애를 일으켰을 때 당연스럽게 해법으로 제시되는 대기업의 공공SW 사업참여 필요성이 또 다시 불거지고 있는 상황이다.

행정안전부(이하 행안부)는 21일 장애에 대한 구체적인 원인 파악 및 재발방지 대책 마련을 위해 민간 전문가와 정부, 지자체, 관계기관 등이 참석하는 지방행정전산서비스 개편 TF를 구성할 예정이다.

이번 TF를 통해 장애가 발생한 네트워크 장비의 상세 원인을 신속하고 철저하게 분석하고 종합대책을 마련해 다시는 이런 장애가 발생하지 않도록 하겠다는 것이 행안부의 입장이다.

현재로선 이번 장애의 원인이 L4 스위치라는 네트워크 장애로 벌어졌다는 것이 대체적인 중론이다. 다만 현재까지 나온 결과에 비해 행안부의 발표는 여러모로 빈틈이 많다. L4 스위치의 교체 시기에 대해서 말이 엇갈리고 있고 하드웨어 교체만으로 해결될 문제가 왜 3일이나 이어졌는지 풀어야 될 문제다.

L4 스위치 기기 자체 장애인지, 아니면 L4로 연계되어 있던 타 시스템과의 데이터 송수신 관계에서의 장애인지, 아니면 업그레이드 과정에서의 사람의 실수, 이른바 ‘휴먼 에러’ 인지는 조사를 통해 명명백백하게 밝혀져야 할 것으로 보인다.

어쨌든 일련의 활동을 통해 원인을 밝히고 후속대책을 마련하는 것이 우선이다. 이외는 별개로 일각에선 이번 사고가 정부 시스템의 대기업 참여제한에 따라 중소중견업체들이 참여해 벌어진 일이라는 주장이 나오고 있다.

이들 주장에 따르면 기술력과 전문성이 결여된 중소중견기업의 참여로 장애가 발생하거나, 후속조치가 빠르게 이어지지 못했다는 것이다.

하지만 이러한 주장에는 문제가 있다. 우선 정확한 장애 발생 원인이 밝혀지기도 전에 대기업이 사업에 참여했으면 사정이 나아졌을 것이란 막연한 ‘기대’는 현실을 모르고 하는 얘기다.

우선 장애 발생 후 행안부가 밝힌 전문 인력만 100여명이 현장에서 장애 원인 파악과 복구에 동원됐다. 당시 네트워크 전문가는 물론 연계 시스템을 구축한 관련업체 등 사실상 정부 시스템 구축과 관련한 국내 전문가들은 모두 불려간 셈이다.

업체의 한 관계자는 “엔지니어란 엔지니어는 현장에서 가거나 서울에서 스탠바이하고 있던 상황”이라고 전하기도 했다. 이들 대다수가 외국계 기업, 혹은 국내 대기업 IT서비스 기업에서 경험을 쌓은 이들이다.

그리고 현재 정부시스템 구축 사업은 모두 한국 IT시장에서 경험을 쌓아온 이들이 사업을 수행하고 있다. 단순히 말해 SW구축 시장에서 대기업과 중소기업의 기술격차 문제는 크지 않다는 것이 중론이다. 이미 대기업에서 관련 사업을 하던 인력들 상당수는 중소중견기업들이 흡수해 사업을 진행하고 있기도 하다.

일각에서는 프로세스 관리에 대한 능력에서 대기업과 중소중견기업에 차이가 있다는 얘기도 한다. 이 역시 사실이 아니다. 정부 시스템의 수발주 구조에 있어 계약관계에는 명확한 서비스수준관리(SLA), 표준운영절차 및 업무연속성(BCM) 관리가 들어가 있다.

계약 당시 일일점검, 오프라인 점검, 수시점검 등 안정적인 장비 운영을 위한 점검 및 장애 발생 시 신속한 복구를 요구하고 있으며 이러한 요구조건을 충족한 업체가 정부계약을 통해 사업을 수행하게 된다. 이는 대기업이든 중소중견기업이던 동일하게 적용받는 문제다.

무엇보다 이번 장애를 살펴보면 컨트롤타워의 부재가 의심되고 있기도 하다. 장애 초반 원인 규명은 물론 사안의 중요성 파악, 그리고 재난문자 발송에 이르기까지 총체적 난맥상이 드러나고 있다.

한국정보통신산업노동조합은 성명을 통해 "거대하고 복잡한 시스템은 그 규모에 맞게 철저한 비상시 대응 매뉴얼과 매뉴얼에 따른 빠른 대응이 중요하다. 하지만 정부는 상황이 발생한 지 4시간 만에 정부24 서비스를 중단하면서도 원인이 무엇인지조차 갈피를 잡지 못하고 있었다. 어떤 종류의 매뉴얼이 유효하게 작동하고 있었다고 보기 어려운 상황"이라고 지적하기도 했다.

이 같은 상황에서 갑자기 튀어나온 대기업의 공공SW사업 참여 여부는 본질을 벗어나도 한참 벗어난 문제다.

대기업의 참여가 반드시 시스템의 안정성을 보장하는 것은 아니다. 대기업이 자원과 기술적 능력을 갖추고 있다 하더라도, 정부 시스템의 복잡한 요구 사항에 맞춰 효율적으로 대응하는 것은 별개다.

무엇보다 연이은 공공기관 시스템의 장애는 단순히 사업자의 규모나 형태에 국한된 것이 아니라, 체계적인 시스템 관리, 지속적인 유지보수, 보안 강화 등 다양한 요소의 복합적인 문제다.

결론적으로, 현재로서는 정확한 원인 파악 및 재난 대응 매뉴얼의 개선이 필요한 상황이다. 대기업과 중소중견기업의 기술력 문제보다는 장애 발생 시의 체계적 대응과 프로세스 개선이 중요한 과제다. 또한 컨트롤타워와 문제 발생시 의사 결정 과정의 투명성이 담보돼야 한다.

이솝우화 '여우와 포도'에서 여우는 닿을 수 없는 포도를 보며 '그 포도는 신맛일 거야'라고 스스로를 위안한다. 여우는 실패를 인정하기보다는 포도에 문제가 있다고 주장하며 본질에서 벗어난다. 겉으로만 문제를 파악하고 본질을 간과하면 나중에 발생할 실패에 대비할 수 없다. 현재 정부 공공시스템의 문제에 대해 미리 짜여진 해법을 제시하는 것은 디지털 정부의 미래에 도움이 되지 않는다.

이상일 기자
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널