더그 커팅, “컴포넌트 대체돼도 ‘하둡’은 영원할 것”
[디지털데일리 백지영기자] “하둡은 10년이 지나도 여전히 성공한 프로젝트로 남을 것입니다. 하둡 프로젝트 초창기 사용됐던 3개의 핵심 컴포넌트가 다른 모듈로 대체돼 더 이상 사용되지 않는다고 해도 이는 하둡의 실패를 의미하는 것이 아닙니다. 오픈소스이기 때문에 자연스러운 발전 방식이죠.”
14일 방한한 하둡의 아버지, 더그 커팅<사진>은 기자들과 만나 이같이 말했다. 하둡(Hadoop)은 10년 전인 2006년 1월, 더그 커팅이라는 개발자에 의해 탄생한 오픈소스 기반의 대규모 분산데이터 처리 소프트웨어(SW)다.
이는 대량의 데이터를 저장, 처리, 분석하는 방식을 완전히 바꾸어 놓으며, 전세계 빅데이터 시장을 이끄는 ‘키워드’가 됐다. 더그 커팅이 ‘빅데이터의 아버지’라고 불리는 이유다.
그가 처음부터 빅데이터를 위해 하둡을 개발한 것은 아니다. 더그 커팅은 당시 마이크 카파렐라라는 또 다른 개발자와 수십 억 웹 페이지를 처리할 수 있는(웹 크롤러 프로젝트) 분산형 시스템,‘아파치 너츠’를 개발하고 있었다. 그런데 마침 구글에서 내놓은 논문(분산파일시스템과 맵리듀스)을 보고 영감을 얻어 ‘하둡’이 탄생하게 된 것이다.
‘하둡’이라는 이름은 잘 알려져 있다시피 그의 5살 아들이 갖고 놀던 노란 코끼리 봉제 인형에서 따온 것이다. 그는 현재 하둡전문업체인 클라우데라에서 최고 아키텍처로 일하고 있다.
이날 그는 “10년 후 하둡은 여전히 성공할 것이며, 지속적으로 발전할 것”이라고 예상했다.
특히 처음 사용됐던 3개의 메인 프로젝트(컴포넌트)가 더 이상 사용되지 않거나 의미가 줄어들어도 ‘하둡’이라는 의미는 지속될 것이라고 말했다. 초창기 하둡을 이루던 컴포넌트, 즉 하둡 코어 요소는 하둡분산파일시스템(HDFS)과 얀(YARN), 맵리듀스로 구성돼 있었다.
그러나 하둡이 커뮤니티에 의해 점차 발전하면서 이와 경쟁하는 프로젝트가 잇달아 등장하고 있다. 현재 파일시스템인 HDFS는 쿠두, 리소스 스케줄러인 얀은 메소스, 맵리듀스는 스파크 등과 경쟁하고 있다.
그는 “하둡은 운영체제(OS)보다 더 모듈러된 아키텍처이자 접근방식”이라며 “때문에 각기 컴포넌트는 더 나은 대체제로 교체가 가능하며, 대체가 된다고 해도 이것이 하둡의 실패는 의미하는 것이 아니다”라고 말했다. 이는 오픈소스이기 때문에 자연스러운 발전방식이라는 것이다.
또한 그는 10년 전을 회고하며 “하둡이 이렇게까지 성공할 줄은 미처 몰랐다”고 말하기도 했다.
그는 “오픈소스야말로 SW개발에 있어 더 나은 방식이라는 확신을 갖고 있었고, SW의 가치를 개발자 뿐만 아니라 사용자들도 누릴 수 있다고 생각했다”며 “그러나 당시에는 이것이 끝이라고 생각했다. 즉, 사람들이 이 기술(하둡)을 엔터프라이즈에 도입할 수 있다고 생각했을 때, 처음에는 이 말을 믿지 못했다”고 덧붙였다.
2008년 설립된 하둡전문회사 클라우데라에 처음 합류하지 않았던 것은 바로 이 때문이었다. 그러나 하둡 기반으로 기업들이 더 많은 가치를 창출할 수 있다는 클라우데라 창업자의 비전이 옳았다고 생각하고 1년 후 합류했다.
하둡과 클라우데라가 하나의 트렌드를 형성하며, 비즈니스를 디지털로 전환(Digital Transformation)하는데 도움을 주고 있다. 웹과 보험, 금융, 농업 등 업계를 불문하고 광범위하게 확산되고 있다는 설명이다.
현재 그는 더 이상 개발을 하지 않지만, 오픈소스 생태계에 대한 사람들의 이해 제고, 생태계가 건강하게 운영되는 부분에 주력하고 있다. 윤리나 프라이버시, 사용자들의 신뢰 구축 등에 관한 부분이다.
그는 “전통적인 산업 분야, 법률이나 의학, 정부 등은 윤리를 위한 체계나 강령이 있지만, 컴퓨팅 분야에는 이것이 아직 자리잡지 않았다”며 “데이터 관련 기술에 주력하는 것보다는 이것이 더 시급하다고 생각하고, 이에 대한 이슈를 환기하는 것이 내 역할이라고 생각한다”고 말했다.
아래는 더그 커팅 클라우데라 최고 아키텍트와 진행한 질의응답.
Q. 빅데이터는 진화하고 있다. 구체적인 수치로 말해달라
-클라우데라의 예를 들면, 성장을 상징하는 여러 지표가 있다. 매년 2배씩 성장하고 있다. 클라우데라 컨퍼런스 참석자수도 2배 증가하고 있다. 이는 그만큼 관심이 높다는 것이다. 고객수나 수주액도 매년 2배 늘고 있다. 최근엔 아태지역에선 더욱 가파른 성장세를 보이고 있다. 2년 전 싱가포르 지사를 설립했는데, 현재 직원수가 32명이다. 비약적인 성장세다. 아태지역은 다른 지역에 비해 도입율이 높다. 애널리스트 보고서에 따르면, 기업의 10~15% 정도가 빅데이터 사용하고 있다고 한다. 전체 도입율은 낮은 편이지만 꾸준하게 성장하고 있다. (클라우드데라 강형준 지사장) 한국은 매출이나 직원수 모두 5배 성장했다.
Q. 클라우데라는 지난해 인텔의 투자를 받고, CPU나 SSD 등의 분야에서 협력하고 있다. 어떤 내용으로 진행되나
-인텔과의 협업을 통해 하둡 SW 스택이 인텔의 차세대 CPU 등 하드웨어의 혜택을 더 많을 수 있도록 하고 있다. 인크립션(암호) 최적화의 경우가 대표적인 사례다. 이를 하둡에 적용했을 때도 1~2% 수준의 성능저하만 나타나게 됐다. 인텔이 지난해 발표한 비휘발성 낸드메모리 기술인 3D크로스포인트와의 호환성도 염두에 두고 있다. 클라우데라에서 최근 이를 지원하는 초기 버전(쿠두)을 출시했다. 3D크로스포인트는 D램만큼 빠르면서 SSD만큼 저렴한 새로운 저장매체 기술로 인메모리 처리가 가능하고, 입출력(IO) 등을 높일 수 있어 사용자들이 혜택을 볼 수 있을 것이다.
Q, 기업들은 빅데이터를 어떻게 도입하면 좋을지 조언해 달라
-작게 시작하고, 측정 가능한 지표를 늘려 나가라고 말하고 싶다. 예를 들어 비용절감을 위한 경우, 고가의 데이터웨어하우스(DW)를 사용하다가 데이터를 늘리고 싶지만 여력이 되지 않을 때 하둡을 이용할 수 있다. 두번째는 현재는 결합할 수 없는 데이터 세트를 결합하는 것이다. 기업들에는 데이터 사일로(장벽)가 존재한다. 은행의 경우, ATM이나 웹사이트, 대출 등 각 부서별로 데이터 장벽이 있다. 하둡을 통해 이러한 데이터를 결합해 한눈에 고객 관련 정보를 볼 수도 있고, 상품 추천도 가능하다. 이처럼 원하는 목표를 잡고 작게 시작해 가치를 실현하는 것이 중요하다.
Q, 현재 하둡을 잘 활용하고 있는 대표적인 업체는 어디인가
A. 건설 및 광산장비 제조업체인 카터필러의 예를 들 수 있다. 카터필러는 현재 기계에 센서를 부착하고 여기에서 나오는 데이터 스트리밍을 하둡을 통해 분석, 장비 장애(고장)을 미리 예측하는 서비스를 제공하고 있다. 신뢰도 높은 제품을 공급해 경쟁사 대비 선두를 지키고 있다. 미국 에너지 관리기업인 오파워도 사용자의 하둡을 통해 전략사용패턴을 예측하고, 에너지 사용을 최적화하는 사용자들의 행동변화를 유도하며 가치를 만들어 내고 있다.
Q. ‘하둡’이 뜨면서 아들의 노란코끼리도 유명세를 탔다. 아들도 이 사실을 알고 있나. 아들의 장래희망이 혹시 빅데이터 엔지니어인가
-(웃음) 아들은 현재 15살이 됐다. 하둡 때문에 본인과 본인의 코끼리가 유명해진 것을 안다. 현재 프로그래밍 코스도 듣고 있다. 그런데 의학에도 관심이 있어서 올해 서머(summer) 코스로 병원 인턴십을 할 예정에 있다.
<백지영 기자>jyp@ddaily.co.kr
유상임 과기정통부 장관이 SKT·네이버 CTO 만난 이유는
2024-12-19 16:35:25네이버페이, 대안신용평가 모델 앞세워 협력사 확장 ‘가속’...한투저축은행과 맞손
2024-12-19 16:03:57"개인정보 보호 중요성 커진다" AI 프라이버시 리스크 관리 모델 첫 공개
2024-12-19 15:53:27토종 OTT 살린다…정부, 'K-OTT 산업 글로벌 경쟁력 강화 전략' 수립
2024-12-19 15:14:39