기업뉴스

[오픈테크넷 2021] 비용 효율적인 빅데이터 분석, 구글클라우드 ‘데이터프록’으로!

이종현
[디지털데일리 이종현기자] 데이터가 지니는 의미가 달라졌다. 정보기술(IT) 기업뿐만 아니라 전 산업 영역에서 데이터를 활용하기 시작했고, 많은 기업들은 이를 위한 데이터 분석 인프라를 갖추는 데 공을 들이고 있다.

전통적인 온프레미스 방식에서는 가용성을 위해 최대치의 워크로드를 가정하고 인프라를 구축했다. 다만 시간대에 따라 처리해야 하는 워크로드 양이 달라짐에 따라 새벽 등 시간에는 자원이 낭비되는 일이 발생한다. 그러나 클라우드 환경으로 필요에 따른 스케일업-아웃 등이 가능해지면서 데이터 분석 인프라를 어떻게 구축하느냐에 따라 비용 효율이 크게 달라지게 됐다.

16일 장우혁 구글클라우드 데이터 애널리틱스 스페셜리스트는 과학기술정보통신부 주최, 정보통신산업진흥원(NIPA)·디지털데일리가 공동 주관하는 ‘오픈테크넷 서밋 2021 버추얼 컨퍼런스’에서 데이터웨어하우스(DW)를 현대화하는 매니지드 하둡(Hadoop) ‘클라우드 데이터프록(Cloud Dataproc)’을 소개했다.

장 스페셜리스트는 페타비트(Petabit) 대역폭의 등장이 데이터 분석 인프라의 게임 체인저가 됐다고 강조했다. 페타비트 네트워크로 데이터 처리 주체와 저장소를 분리함으로써 보다 다양한 옵션을 제공할 수 있는 여건이 마련됐다는 설명이다.

대표적인 예가 구글클라우드플랫폼(GCP)의 관리형 서비스인 클라우드 데이터프록이다. 데이터프록은 하둡(Hadoop)과 스파크(Spark)과 같은 오픈소스 빅데이터 프레임워크의 데이터 처리 작업을 필요할 때만 클러스터로 론치하고, 작업이 끝나면 삭제하는 방식을 취할 수 있도록 지원한다.

이를 통해 GCP 고객은 작업별로 맞춤 클러스터를 생성해서 데이터를 처리하고, 작업이 끝나면 이를 삭제하면 된다. 각 작업별로 다른 가상머신(VM) 스펙을 생성하거나 작업에 필요한 소프트웨어(SW)가 설치된 형태로 클러스터가 생성됐다가 삭제되는 등의 방식이다. 클러스터의 생성은 약 90초 만에 생성된다.

이를 실제로 적용한다면 데이터 분석 인프라는 클러스터 생성-작업 실행-저장소에 결과물 쓰기-클러스터 삭제 등의 라이프사이클을 가지게 된다. 작업을 하지 않을 때는 비용이 부과되지 않는 비용 효율적인 데이터 인프라를 구축할 수 있게 된다는 것이 강점이다.

모든 워크로드를 클라우드 환경에서 처리할 수는 없다. 회사 내부 방침에 의해, 혹은 국가의 컴플라이언스에 의해 온프레미스와 병행하는 기업이 많다. GCP는 이와 같은 하이브리드 방식도 지원한다.

장 스페셜리스트는 “데이터 마이그레이션에 대한 어려움을 토로하는 기업들이 많다. 때문에 처음부터 클라우드 네이티브하게 옮겨가라고 권하지는 않는다. 리프트&시프트(Lift&Shift) 방식으로, 하둡에 사용하는 SW를 클라우드상의 VM에 설치해 쓰는 방식부터 조금씩 클라우드 사용량을 늘리는 식으로, 클라우드 네이티브한 방향까지 점진적으로 접근할 수 있다”고 전했다.

그는 스페셜리스트는 “엔터프라이즈 기업들이 요구하는 것은 결국 더 빠르고, 스케일 있는 분석 환경을 제약 없이, 비용 효율적이게 사용하고 싶다는 것”이라며 “GCP는 데이터프록을 비롯해 다양한 오픈소스 서비스와 대응하는 서비스를 구축하고 있다”고 피력했다.
이종현
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널