시리즈

[네이버 어벤저스] 국내 최대 빅데이터, 이렇게 다룹니다

이대호
올해 20주년을 맞은 네이버가 상당 폭의 변화를 앞뒀다. 하루 3000만명이 드나드는 모바일 메인 개편을 실험 중이고 동영상 중심의 콘텐츠 제작과 편집, 소비에 이르기까지 끊이지 않는 사용자경험을 위한 체질 개선에도 나선다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.

<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. 첫 번째 어벤저스 팀은 ‘네이버 빅데이터 & AI 플랫폼’ 연구원들이다. <편집자 주>

사진 왼쪽부터 네이버 빅데이터&AI플랫폼의 현동석 연구원과 정재부 리더, 최철규 연구원
사진 왼쪽부터 네이버 빅데이터&AI플랫폼의 현동석 연구원과 정재부 리더, 최철규 연구원
[디지털데일리 이대호기자] 네이버는 명실공히 국내 최대 빅데이터 기업이다. 뉴스, 블로그, 카페, 지식인 등 주요 서비스에 쌓인 데이터만 해도 엄청난 규모인데다 매일매일 데이터가 폭증 수준으로 불어나고 있다.

이런 빅데이터의 똑똑한 활용을 위해선 기계의 힘을 최대한 빌려야 한다. 인공지능(AI) 기술이 필수적이다. 올해 조직 개편을 거쳐 ‘네이버 빅데이터 & AI 플랫폼’이 한데 묶인 이유다.

네이버 빅데이터 & AI 플랫폼 조직의 주된 역할 중 하나는 ‘개발 인프라스트럭처의 고도화’다. 기초적인 개발 기반을 다루면서 사내 업무의 효율화를 목표로 한다.

성남시 네이버 그린팩토리 본사에서 만난 현동석 연구원과 정재부 리더, 최철규 연구원<사진 왼쪽부터>은 쉽게 말해 ‘개발자를 위한 개발’에 몰두하고 있다. 사내 개발자가 본연의 업무에만 집중할 수 있는 환경을 구축하는 것이다.

네이버가 외부 트렌드에 좀 더 기민하게 대응하고 빠르게 변화를 추진할 수 있었던 이유엔 사내 개발자들의 노고를 빼놓고 얘기하기가 쉽지 않다. 그 중에서도 빅데이터 & AI 플랫폼 연구원들을 주목할 필요가 있다.

◆‘5년전과 지금’ 빅데이터 플랫폼이 이렇게 달라졌습니다=
5~6년전 당시 네이버에선 서비스 또는 조직마다 각자가 데이터 활용을 신경 쓰고 있었다. 그러던 중 점차 데이터가 불어나고 서비스 간 데이터 공유가 늘어나면서 장기적이고 전사적인 관점에서 고민이 필요했다. 지금의 데이터 유통 구조가 갖춰지게 된 이유다.

네이버 블로그나 카페, 지식인 등의 데이터가 검색으로 나가려면 잘 보관하는 것도 중요하고 가공 작업도 필요하다. 데이터는 데이터로그(DataLog)를 거쳐 데이터스토어(DataStore)에 보관이 됐다가 데이터프록(DataProc)에서 가공 절차를 거쳐 검색으로 나가게 된다. 데이터로그와 데이터스토어, 데이터프록을 합친 네이버 빅데이터 플랫폼을 ‘데이터 스위트(Data Suite)’라고 이름 지었다.

현재 네이버는 아파치 에이치베이스(Apache HBase) 기반의 데이터스토어와 엘라스틱서치(ElasticSearch) 기반의 데이터로그를 구성해서 수많은 콘텐츠와 로그를 통합 관리하고 다양한 서비스 개발에 사용할 수 있도록 클라우드 스토리지 환경을 구성해서 사용 중이다.

데이터스토어는 말 그대로 데이터보관소다. 데이터 카탈로그를 통해 보관된 데이터의 목록, 상세 정보, 생산자와 소비자를 한 눈에 알 수 있도록 제공한다. 최철규 연구원은 “데이터스토어로 네이버의 수많은 데이터를 통합적으로 관리, 유통함으로써 업무 시 데이터 연동에 대한 불필요한 커뮤니케이션을 최소화하고 신속한 데이터 활용이 가능하다”고 말했다.

데이터로그는 2017년에 구축한 로그 통합 관리 플랫폼이다. 검색 서비스의 모든 로그를 한 데 모아 효율적으로 분석하는데 도움을 주는 환경을 제공하고 있다. 현동석 연구원은 “데이터로그는 돋보기와 같은 역할”이라며 “로그로 검색 결과의 문제점을 파악하거나 시스템의 이상 현상의 원인을 추적, 시각화하기에 적합하다”고 설명했다.

데이터프록은 잘 보관된 데이터를 꺼내서 마음껏 다룰 수 있는 통합 환경을 제공한다. 개발자가 자유롭게 원하는 컴퓨팅 자원을 사용할 수 있도록 만들었다.

정재부 리더는 “데이터프록을 사용하는 개발자는 더 이상 장비 구매나 장애 대응을 하지 않아도 되고 필요한 경우 즉시 수평 확장이 가능하기에 데이터 처리와 비즈니스 로직 개발에만 집중할 수 있다”고 힘줘 말했다.

◆“2~3개월 걸리는 서비스 개발이 1주일로”=네이버의 이 같은 데이터 유통 구조는 사내 개발자들이 볼 때 꽤나 의미를 둘만한 진전이었다. 네이버가 글로벌 경쟁자들과 속도전을 벌이기 위해 필수적인 개발 환경을 갖추게 된 것이다.

최 연구원은 “가장 큰 변화는 개발자가 생각할 게 적어졌다는 것”이라며 “검색 서비스를 만들려고 할 때 수십종의 데이터 가운데 A데이터를 얻으려면 어떤 방법으로 어디에 올려주세요 하는 커뮤니케이션이 필요한데, 이 경우 (데이터를 얻은 뒤) 로직개발을 몇 달후 시작하게 될 수 있다”고 수년 전 개발 환경을 회고했다.

이어 최 연구원은 “지금은 데이터가 한곳에 모여 있고 표준화가 되니 바로 서비스를 개발해 볼 수 있게 됐다”며 의미를 부여했다. 개발 단축 기간을 예로 들어달라고 질의하자 개발 목적에 따라 다르다고 전제한 뒤 그는 “기존에 2~3개월에 걸렸다면 1주일 만에 서비스를 개발할 수 있게 됐다”고 말했다.

정 리더는 “네이버엔 조직만 수십개에 조직 밑에 수백개 팀에서 수천명이 일하고 있는데, 표준을 잡아준 것”이라며 “데이터를 쓸 때 다른 고민을 할 필요 없이 플랫폼에서 제공하는 툴을 사용하면 된다”고 덧붙였다.

◆‘초당 22만건 실시간 색인·4000개 노드’ 개발자를 위한 플랫폼=데이터로그는 초당 22만건 실시간 색인이 가능하고 하루에 수백억개 수준의 색인을 통해 로그를 찾을 수 있도록 만든 플랫폼이다.

현 연구원은 데이터로그 플랫폼을 갖추기 이전을 떠올렸다. 그는 “엄청난 사용자 트래픽을 사용하면서 장비가 수백 수천대가 넘어가는데 중요한 문제가 발생했을 시엔 로그를 찾아야 하면 사막에서 바늘찾기 수준”이라며 “급한 대로 스크립트를 돌려서 찾으려면 원인 파악에 시간이 오래 걸렸다. ‘왜 이러나 잠시만 기다려라’해도 20~30분을 기다렸다”고 말했다.

그러나 현 연구원의 제안으로 데이터로그가 완성되면서 이 같은 수고로움이 사라졌다. 현 연구원은 지난 2017년 데뷰 개발자행사에서 ‘하루 100억개 로그를 색인해보자’는 주제로 발표한 바 있다. 지금은 하루 수백억개 수준의 색인이 가능하도록 플랫폼 고도화를 이뤘다.

수백명의 개발자가 자유롭게 원하는 컴퓨팅 자원을 사용할 수 있는 데이터프록(DataProc)
수백명의 개발자가 자유롭게 원하는 컴퓨팅 자원을 사용할 수 있는 데이터프록(DataProc)
데이터프록은 개발자들이 필요할 때 원하는 메모리와 CPU를 할당해 서비스를 개발할 수 있도록 만든 플랫폼이다. 대용량 단일 클러스터로 4000개 노드를 갖추고 있다. 정 리더는 “처음 개발할 때 기획단계에서 얼마나 장비가 필요한지 예측하는 단계를 없애 개발과 서비스가 자연스럽게 이어지도록 했다”고 설명했다.

원하는 오픈소스 프레임워크를 설정만 하면 쓸 수 있게 개발 환경을 지원하는 것도 데이터프록의 강점이다.

아파치 하둡(Apache Hadoop) 기반의 대용량 멀티테넌트 클러스터로 맵리듀스(MapReduce)와 스파크(Spark) 기반의 데이터 처리 작업뿐만 아니라 에이치베이스(HBase), 카프카(Kafka), 엘라스틱서치(ElasticSearch)와 같은 분산 환경 빅데이터 프레임워크도 몇 번의 클릭만으로 구성할 수 있다.

◆데이터 플랫폼 노하우, 일본으로 나간다=네이버는 작년 하반기에 일본 검색, 추천 서비스를 위해 한국과 유사한 데이터 스위트(Data Suite)를 일본에 소규모로 구축한 바 있다.

정 리더는 “10년 전쯤 네이버가 일본에서 검색에 도전했는데, 그때도 각각 (서비스) 필요성에 따라 데이터 플랫폼을 구성했다”며 “대량의 데이터를 처리하고 좋은 서비스를 하려면 파편화가 문제되는데, 이제는 공통으로 얻어지는 시너지를 알고 어떻게 서비스를 제공하면 되는지 안다”고 자신감을 내비쳤다.

올해 네이버는 국내에서 얻은 플랫폼 노하우를 활용해 사용자 데이터 접근에 대한 보안을 강화하고 보다 견고한 글로벌 데이터 플랫폼을 구축한다는 계획이다.

<네이버 빅데이터 & AI 플랫폼 연구원 인터뷰는 다음 기사에서 계속됩니다>

<이대호 기자>ldhdd@ddaily.co.kr
이대호
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널