솔루션

인터넷 기업 다음의 빅데이터 대응 전략…하둡‧NoSQL-그린플럼의 연동

백지영 기자
[IT 전문 블로그 미디어=딜라이트닷넷]

사용자 삽입 이미지


“하둡은 Ad-Hoc 쿼리 구현이 어렵고 실시간 분석에 적합하지 못했습니다. 또 NoSQL은 복잡한 형태의 데이터 분석이 어렵다는 단점이 있었습니다. 이 때문에 그린플럼 DB에 주목하게 됐고, 이들을 효율적으로 함께 사용할 수 있는 방안을 고려하게 됐죠.”

인터넷기업인 다음커뮤니케이션은 다양한 오픈소스를 활용하기로 유명합니다. 최근 화두가 되고 있는 빅데이터 분석에 있어서도 마찬가지입니다.

이 회사는 이미 지난 2009년 대용량의 데이터를 활용해 검색 품질을 높이기 위해 하둡과 NoSQL을 도입한 바 있습니다.
그리고 지난해부터는 EMC의 전사 데이터웨어하우징 솔루션인 그린플럼을 도입해 다차원, 심층적 분석을 가능하게 했다고 합니다.

다음커뮤니케이션 데이터기술팀 엄준식 팀장은 최근 한 컨퍼런스에서 그런플럼을 활용한 자사의 빅데이터 적용 사례에 대해 발표했습니다.


엄팀장에 따르면 다음은 지난해부터 정형데이터와 비정형데이터가 혼재된 웹 로그의 빠른 통계 분석을 위해 대용량 데이터 병렬처리 플랫폼인 ‘하둡’과 비관계형 데이터베이스(DB) ‘NoSQL’을 분석 플랫폼인 ‘그린플럼’과 연동하는 프로젝트를 시작했습니다.


처음에는 하둡과 NoSQL 만으로 이를 모두 구현하려고 했으나 하둡의 경우 Ad-Hoc 쿼리 구현이 어려워 개발자들의 역량이 많이 필요했고, 데이터 처리에 초점이 맞춰져 있다보니(배치지향 프러임워크) 실시간 데이터 분석에는 적합하지 못했습니다. 


엄팀장은 또한 NoSQL은 복잡한 형태의 데이터 분석이 어렵고, 특정 조건에 부합하는 솔루션 선택이 중요하기때문에 지속적인 리뷰 필요가 필요한 솔루션이라고 판단했다고 밝혔습니다.

그러던 와중에 그린플럼 데이터베이스에 주목하게 됐는데, 무엇보다 포스트그레SQL와 대규모병렬처리(MPP) DBMS이 통합된 오픈소스 DB이고 데이터웨어하우징(DW)과 비즈니스인텔리전스(BI) 기능이 포함됐다는 것이 장점으로 꼽혔다는 설명입니다.

그는 “웹 서버의 모든 로그 데이터를 하둡과 NoSQL로 1차 집계, 처리하고 이를 다시 그린플럼으로 저장, 분석해 심층적이고 다차원적인 분석이 가능하도록 구성했다”고 설명했습니다.

우선 정형데이터(RDB)와의 및 NoSQL 솔루션인 스톰과 카산드라, 하둡과의 연동을 통해 1차 집계된 결과를 그린플럼으로 보내 다차원 심층 분석을 가능하게 했는데 이를 통해 실시간 콘텐츠 검색 결과에 대한 집계에 가능하게 됐다는 분석입니다.


이렇게 가공된 데이터는 현재 다양한 서비스의 고객 성향 분석과 마케팅에 활용하고 있습니다.

그는 “그린플럼의 병렬처리 기능을 통해 빅데이터를 빠른 시간에 로딩 및 통계처리가 가능하게 됐고, 무엇보다 그동안 사용했던 SQL을 그대로 사용하면서 데이터 분석이 가능해졌다”고 강조했습니다.

그린플럼의 경우 x86 서버만으로 구성이 가능한데, 다음은 기존에 사용하던 x86 서버를 활용해 상대적으로 저렴한 비용 및 고확장성의 분석 시스템 구축이 가능했다고 밝혔습니다. 추후 데이터양이 늘어나더라도 x86서버만 추가하면 되기 때문에 손쉽게 용량 확장이 가능하기 때문입니다.

한편 엄팀장은 이를 위해선 무엇보다 인력 확보가 중요하다고 강조했습니다.

그는“최근 많은 기업이 빅데이터 이슈를 놓고 고민하고 있는데, 우리과 같이 데이터 사이즈가 많은 기업이라면 하둡과 NoSQL의 연동을 생각할 수 밖에 없을 것”이라며 “다만 이때 놓쳐서는 안되는 것이 이러한 기술들은 계속해서 변하기 때문에 이를 지속적으로 리뷰할 수 있는 인력 확보가 중요하다”고 말했습니다.

이어“확보한 인력에 대해서도 잘 보존, 유지하는 것이 필요하며 만약 이것이 쉽지 않고 데이터양이 많지 않다면 차라리 어플라이언스 형태로 도입하는 것도 고려하라”고 덧붙였습니다.

마지막으로 그는 빅데이터 분석을 위해선 부서 간, 구성원 간 협업이 중요한데, 이를 위해 협업 솔루션을 도입하는 것도 검토하라고 조언했습니다. 현재 다음의 경우, EMC의 협업솔루션인 코러스를 리뷰하고 있다고 합니다.

[백지영기자 블로그=데이터센터 트랜스포머]

백지영 기자
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널