올해 20주년을 맞은 네이버가 상당 폭의 변화를 맞았다. 하루 3000만명이 드나드는 모바일 메인 개편은 여러 실험 끝에 적용이 이뤄졌고 동영상 중심의 콘텐츠 제작과 편집, 소비에 이르기까지 끊이지 않는 사용자경험을 위한 체질 개선에도 나선다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’에 이은 네 번째 네이버 어벤저스 팀은 ‘SRE’ 엔지니어들이다. <편집자 주>
[디지털데일리 이대호기자] 국민포털로 통하는 네이버의 검색 트래픽이 이례적으로 튈 정도라면 대한민국의 관심사라고 해도 무방하다. 화제 속에 종영된 드라마 ‘SKY캐슬’의 영향은 어느 정도였을까. 월드컵 경기 중 골이 터지면 사람들이 얼마나 열광하는지 수치로 볼 수 있을까. 네이버 SSR(Service System Reliability)<이전 기사 참조>은 알고 있다.
네이버 SSR 조직을 이끄는 김재헌 리더는 <디지털데일리>와의 인터뷰를 통해 “SKY캐슬의 시청률에 따라 검색 트래픽이 변화하는 모습을 보면 어떻게 생각하면 당연한 것이지만 실제로 저희가 확인할 수 있는 숫자로 표현되니까 정말 신기하다”면서 “또 한편으로는 네이버가 그만큼 많은 분들의 일상에서 중요한 부분을 차지하고 있다는 뜻이기 때문에 책임감과 부담감을 많이 느끼고 있다”고 평소 생각을 밝혔다.
◆SKY캐슬 12회부터 본격적 반응 감지=네이버에 따르면 SKY캐슬 드라마는 12회부터 본격적인 반응이 감지되기 시작했다. 최종회(20회)를 앞둔 19회가 가장 큰 영향을 보였다. 19회에선 드라마 내 분위기가 최고조에 달할 때쯤, 모바일 검색 트래픽이 크게 뛰었다.
월드컵의 경우 경기 중엔 검색 트래픽이 줄어드는 양상을 보이다 골이 나오면 관련 검색이 급증한다. 아무래도 상대 국가보다 한국팀의 골이 터진다면 검색 트래픽이 폭발 수준으로 튀게 된다.
SSR 조직은 왜 이런 데이터를 수집해 가시화하고 패턴을 분석할까. 쉽게 말해 국가적 이슈나 긴급 상황에 잘 대처하기 위해서다. 유튜브나 페이스북도 대형 장애를 겪듯이 네이버도 덩치가 커지면서 장애를 막기가 더더욱 힘들어진 것이 주된 이유다.
이와 관련해 강민철 엔지니어는 “1분 단위로 모든 지표를 수집한다”고 말했다. 손주식 엔지니어는 “원천 데이터들로 각 서버에서 지표들이 어떤 값을 가졌나 수집해서 가공한다”고 덧붙였다.
◆취약점 비용관제도 SSR 담당=네이버는 이러한 데이터들을 계층별로 또 서비스별로 취합하고 연결한다. 자동으로 이상을 탐지하면 바로 관련 담당자를 연결해주기도 한다. 통합 대시보드로 취약점 파악도 가능하다. 관련한 비용관제도 업무 중 하나다.
지난달 네이버 SSR 조직의 숙원인 ‘모니터’가 정식서비스에 들어갔다. 모니터는 네이버의 속내를 들여다 볼 수 있는 통합 대시보드다. 모니터는 기반 시스템의 증설 및 투자 예측 시점도 예상해준다.
김 리더는 “‘모니터’라는 종합 시스템을 통해 인프라스트럭처에 얼마나 투자할지 예측하는 것도 중요하다”며 “‘몇 개월후에 시스템을 증설하지 않으면 위험하다’, ‘1년은 괜찮다’ 등을 알 수 있도록 하는 비용관제도 업무 중 하나”라고 강조했다.
◆“소방수? 종합예술하는 조직으로 봐 달라”=SRE 기술 개발자들은 보통 소방수에 비유되곤 한다. 취약 시스템의 문제 해결을 담당하기 때문이다. 김 리더는 SSR에 대해 “IT회사에서 종합예술을 하는 조직으로 봐 달라”고도 업무를 소개했다.
그는 “99% 이벤트를 잡는 게 맞지만 나머지 1%는 어제까지 없던, 한 번도 고민하지 않았던 것들이 새로 또 나오기도 한다”며 “새로운 시스템이 나오면 공부하는 시간이 필요하다”고 설명했다.
스타트업 종사자처럼 일하는 일상도 전했다. 매일 새로운 답을 찾아가는 과정을 거친다는 게 SSR 3인의 설명이다.
김 리더는 “매일 매일이 새롭다. 오늘과 내일 그리고 모레가 다르다”면서 “어떤 날은 이벤트가 없을 때도, 퇴근할 때까지 십수건의 이벤트가 발생하는 날도 있다”고 밝혔다. 또 그는 “문제 해결을 위해 오늘까지 쓰던 시스템을 계속 개선하고 해결을 못하면 새 시스템으로 가야 한다”며 과감한 결단이 필요한 점도 말했다.
◆궁극적 목표는 ‘자동화’=당초 네이버 SSR은 ‘문제 예측이 가능하지 않을까’해서 기술 개발을 진행한 바 있다. 그러나 지진 예측처럼 추정할 수 밖에 없는 상황이라면 현재의 취약성을 끊임없이 발견하고 개선하는 노력이 현실적이라는 주장에 2019년부터 ‘취약성 방어’에 몰두하게 됐다.
이와 관련해 김 리더는 이상탐지(Anomaly detection)와 분석(Analysis), 조치(Action) 세 가지 과정을 사람 손이 필요하지 않도록 자동화하는 것을 목표로 내세웠다.
“이는 인텔리전스 SRE 시스템이라고 부를 수 있는 단계로 단순히 휴리스틱, 머신러닝의 도입을 넘어 완전 자동화는 아니더라도 원터치로 모든 검색시스템의 가용량을 조절하면서 상황에 따른 대응을 할 수 있다면 우리가 가진 엔지니어링 파워를 또 다른 영역으로 확장할 수 있지 않을까 생각합니다”