하둡을 DB처럼 다루는 ‘타조’…국내 대학생 개발 눈길
최근 국내 빅데이터 업계에 매우 흥미로운 소식이 전해졌다.
지난 7일 고려대학교 정보통신대학 컴퓨터학과 DB연구실(지도교수 정연돈) 박사과정 학생들이 개발한 하둡 기반 데이터웨어하우스(DW) 시스템인 ‘타조’가 아파치재단의 인큐베이션 프로젝트로 선정됐다는 것이다.
국내에서 시작된 오픈소스 프로젝트가 아파치재단 인큐베이션 프로젝트로 선정되는 것은 NHN 출신이 주축이 돼 개발한 ‘하마’ 프로젝트에 이어 두 번째다.
최현식·손지훈 두 학생 주도로 개발된 타조는 하둡파일시스템(HDFS)의 데이터에 관계형DB에서 사용하는 SQL로 질의를 할 수 있는 솔루션이다. 일반적으로 하둡 데이터 분석을 위해서는 맵리듀스라는 기술을 많이 사용하는데, 이는 복잡하기 때문에 이미 익숙한 SQL로 질의하자는 접근이다.
이에 <디지털데일리>는 최현식, 손지훈 두 학생으로부터 타조 프로젝트를 진행하게 된 배경과 성과, 비전에 대한 이야기를 들어봤다. 인터뷰는 지난 26일 고려대 앞의 한 커피숍에서 진행됐다.
아래는 일문 일답이다.
- 타조 프로제트에 대해 소개해 달라.
최현식 : 하둡 기반의 데이터웨어하우스 시스템이라고 보면 된다. 스토리지는 하둡 분산파일시스템(HDFS)을 사용하되 SQL을 통해 질의를 던질 수 있는 시스템이다. 기존에는 하둡의 데이터를 분석하려면 맵리듀스를 써야 했다. 하이브도 맵리듀스를 통해 분산처리를 한다. 저희는 그것이 하이브의 한계라고 봤다. 성능에 문제가 있기 때문이다. 반면 타조는 맵리듀스 대신 저희가 직접 개발한 엔진을 사용한다. 저희가 직접 만든 엔진이기 때문에 더 효율적이고, 최적화 할 수 있었다. 자체 테스트 결과 하이브보다 빠른 성능을 보였다.
손지훈 : 하이브는 하이브QL이라는 질의를 던질 수 있다. 하이브나 타조 모두 SQL 처리를 하는데, 저희는 직접 만든 엔진이어서 훨씬 빠르다.
- 타조 프로젝트 어떻게 시작하게 됐나?
손지훈 : 저희가 원래 하둡에 관심이 많아서 2008년부터 관심있게 보고 논문도 쓰고 했다. 그런데 하둡을 이용하려니 일일이 코딩을 해야 했다. 하둡에 직접 SQL을 던지면 좋겠다는 생각을 하다가 직접 만들어보자고 결정했다.
최현식 : 저희가 원래 하이브를 이용했는데 아쉬운 면이 많았다. 더 좋은 방법이 있을텐데 생각하다가 여기까지 오게됐다.
- 타조 개발은 누가 주도 했나.
최현식 : 80~90%는 저희 둘이 했고, 연구실의 석사 과정 친구들이 도와주기도 했다. 최근에는 그루터에서도 관심을 갖고 참여하고 조언을 해 주고 있다.
- 기존 상용 데이터웨어하우스(DW) 솔루션과의 차이점은 무엇인가?
최현식 : 가장 큰 차이는 상대적으로 저렴한 가격에 같은 역할을 하는 솔루션을 이용할 수 있다는 점이다. 상용 DW는 매우 고가 솔루션이지 않나? 이것이 오픈소스로 대체 가능해진다는 것이다. 또 데이터 규모가 커지면 상용DW는 처리하기 힘든 구간이 있다. 하둡은 그런 것도 처리할 수 있다.
손지훈 : 맵리듀스가 나온 다음 클라우드에서 분산처리 하는 프레임워크 수십여 개 나왔다. 저희가 이런 것들을 조사하는 논문을 썼었는데, 각 프레임워크의 장단점을 볼 기회였다. 타조는 기존 DB의 장점, 맵리듀스의 장점, 다른 연구들의 장점을 취합해 개발하려고 노력했다.
Q. 미국의 클라우데라도 유사한 개념으로 임팔라라는 솔루션을 출시했다.
최현식 : 타조와 임팔라는 디테일은 좀 다르지만, 궁극적으로 하고자 하는 일은 같은 솔루션이다. 그루터에서 둘의 성능을 비교하는 실험을 했다. 실험 결과는 임팔라와 비교 가능한 성능이 타조에서도 나온다. 저희가 볼 때 타조가 더 개선돼야 할 점 많은데, 이런 것들이 개선되면 경쟁할만하다고 본다. 성능은 지금도 충분히 경쟁할 수 있는데, 아무래도 임팔라는 회사가 주도해 개발하기 때문에 단기적으로 임팔라 개발 속도가 빠르다. 하지만 타조 커뮤니티가 커지다보면 임팔라 개발 속도를 따라잡을 수 있을 것이다.
손지훈 : 현재 속도 면에서 하이브 보다는 2~3배 빠르고, 임팔라와는 비슷한 수준이다. 전 세계적으로 하이브 사용자들이 많은 것을 보면 경쟁력이 있다고 본다.
최현식 : 임팔라는 아파치 하둡이 아닌 클라우드데라 하둡 써야 하고, 관리 툴도 클라우데라 제품을 써야 한다. 타조는 임팔라와 달리 특정 업체 솔루션에 종속되지 않는다.
- 아파치 인큐베이션 신청을 한 이유는?
최현식 : 아파치라는 브랜드를 다는 것 자체가 사람들의 관심을 끌 수 있는 요소가 될 것으로 봤다. 또 아파치재에서 멘토를 통해서 프로젝트의 품질을 유지하도록 도와준다. 결국 오픈소스로서의 성공 가능성이 커지는 것이다.
손지훈 : 사용자 입장에서 봤을 때, 얼마나 잘 만들어졌는지, 기업에서 쓸 수 있는 수준이 되는지 판단하기 어렵다. 하지만 아파치 프로젝트라면 어느 정도 신뢰를 얻을 수 있다.
최현식 : 기업들이 오픈소스소프트웨어를 선택할 때 중요하게 보는 것 중에 하나가 개발 커뮤니티가 지속 가능한지 여부다. 기업이 오픈소스를 채택했는데, 이후 프로젝트 관리가 안 되거나, 업그레이드 안 되면 사용자들은 난처하다. 아파치에 등록되면 커뮤니티가 단단해지고, 기업들이 선택할 수 있는 조건이 될 것으로 봤다.
- 처음부터 오픈소스로 발전시킬 계획이었나?
최현식 : 아주 초기부터 오픈소스를 생각한 것은 아니고, 초중반부터는 그런 방향을 잡았다. 오픈소스 결정한 이유는 널리 사용되는 프로그램을 만들고 싶었기 때문이다. 학교 연구실에서 교수님의 지원 아래 시간을 많이 투자 했다. 많은 사람들이 쓰는 성과를 얻고 싶었다.
손지훈 : IT 분야에서 매년 엄청나게 많은 논문이 쏟아져 나온다. 좋은 연구가 많은데 대부분 거기서 끝난다. 저희는 엄청 노력했고, 결과물도 만족할만하게 나왔다. 여기서 끝내기 아깝다고 생각했다. 저희 것이 하이브보다 좋다고 확신하기 때문에 하이브를 대체할 수 있으면 좋겠다는 생각을 했다.
- 타조를 사업화 할 계획은 있나?
최현식 : 직접 비즈니스를 하려면 자본금도 필요하고, 투자자도 필요한데 여건상 어려울 것 같다. 우리가 미국 사람이었다면 투자를 받아서 창업 할 수 있겠지만, 저희가 미국 가기도 힘들고, 국내에서는 투자 받기가 사실상 불가능하다. 저희들이 직접 비즈니스 하는 것보다는 타조가 인기를 끌고 사용자들이 많아지면 저희에게도 어떤 기회가 있을 것으로 보고 있다.
- 앞으로의 포부가 있다면?
손지훈 : 저희는 원래 데이터베이스 연구실에서 DB를 공부하던 사람들이다. 하둡을 봤을 때 DB를 연구하는 사람 입장에서 안 좋은 게 보였다. 타조 디자인 할 때, DB공부했던 것 반영했다. 이 프로젝트 성공적으로 된다면 세계 최고 수준의 DW솔루션 되지 않을까 기대한다.
- 말씀 감사하다.
<심재석 기자>sjs@ddaily.co.kr
[인터뷰] 돈 되는 렌탈 데이터?...신상용 프리핀스 대표 “렌탈 창업부터 금융 솔루션까지 함께할 플랫폼”
2024-11-23 12:05:50행안부, 클라우드 네이티브 제도개선 착수…“공공SW 전반 변화해야”
2024-11-23 09:39:29주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52