통신*방송

테슬라·컴캐스트도 쓰는 데이터 분석엔진 ‘스타버스트’, “韓선 SKT가 유일하게 공급”

백지영 기자

[디지털데일리 백지영기자] # 글로벌 2위 미디어 기업인 컴캐스트는 사용량 정보는 데이터 레이크에, 과금 정보는 데이터웨어하우스(DW)에 분리 관리하고 있었다. 하지만 코로나 팬데믹 기간에 적극적인 마케팅을 펼치려다 보니, 이원화된 데이터로 인해 통합 분석이 어렵다는 문제에 직면했다. 이를 통합하자니 18개월이나 소요되는 상황이었다. 이때 컴캐스트는 ‘스타버스트’를 통해 통합 없이 각 이원화된 데이터 소스를 연결해 분석함으로써 5주 만에 통합 캠페인 실행이 가능했다. 또, 약 2700억원 상당의 신규 매출과 불필요한 통합 등이 제거돼 총소유비용(TCO)도 61% 이상 절감하는 효과를 거뒀다.

미국의 데이터 애널리틱스 플랫폼 기업인 스타버스트(Starburst)는 현재 전세계적으로 각광받고 있는 오픈소스 분산 쿼리 엔진 트리노(Trino)를 만든 개발사이자, 트리노의 90% 이상 코드 커밋을 선도하는 기업이다. 트리노의 유일한 엔터프라이즈 배포판을 제공하고 있다.

SK텔레콤은 앞서 지난해 4월에 스타버스트와 아시아 최초로 파트너십을 체결하고, 국내에서 유일하게 스타버스트를 공급하고 있다. 오랜 기간 쌓아온 분산처리 기반의 빅데이터 환경 분석 역량을 바탕으로 차별화된 컨설팅 및 구축 역량을 자랑한다.

11일 <디지털데일리> 웨비나 플랫폼 DD튜브에서 진행된 ‘데이터 레이크를 넘어 데이터 메쉬로, AI시대의 새로운 데이터 분석엔진 스타버스트’ 세션에서 김한솔 SK텔레콤 AI 데이터 사업팀 매니저는 “SKT는 이미 8년 전부터 스타버스트 코어 엔진인 트리노의 이전 브랜드 프레스토(Presto)부터 적극 활용해 왔다”며 “이같은 역량을 기반으로 스타버스트에 대한 신속하면서도 직접적인 기술지원이 가능하다”고 강조했다.

그에 따르면, 스타버스트의 창시자를 비롯한 핵심 개발자들은 트리노, 과거에는 프레스토라 불렸던 오픈소스를 최초로 개발했고, 5년이라는 짧은 기간 내 300여개의 고객사를 확보했다. 그 결과 가트너가 선정한 분석 쿼리 가속 시장의 리더로 자리매김하고 있다.

김 매니저는 “최근 기업 내에서 막상 인공지능(AI)을 도입하려고 보니, 내부에 쓸만한 데이터가 부족하고 데이터 또한 분산돼 있어서 AI 구성에 실질적인 어려움을 겪고 있는 것으로 전해진다”며 “결국 데이터를 고려하지 않은 AI 도입은 실패할 확률이 매우 높다”고 지적했다.

구체적으로는 모델 학습과 관련된 대규모 데이터를 관리하는데 어려움을 겪고 있거나 증가하는 데이터의 효율적인 프로세싱 방안 부재, 변화하는 데이터의 버전이나 흐름 관리 등이 미흡하다는 설명이다.

그는 “데이터는 AI를 완성시키는데 필수적인 자원이지만, 각기 다른 형태와 다른 방식으로 존재하고 있다”며 “기업의 데이터센터 같은 코어레벨부터 클라우드, 엣지 디바이스 까지 수많은 장소와 환경에 데이터는 분산돼 있고, 이 모든 데이터를 확인, 분석한 결과를 토대로 AI에 전달돼야 기업이 원하는 AI로 완성이 가능하다”고 말했다.

궁극적으로 분산된 데이터를 AI로 효과적으로 전달하는 것이 관건인 셈이다.

김 매니저는 이를 위해선 우선 첫 단계로 다양한 이기종 데이터 소스를 연결 방식의 페더레이션(통합)을 통해 모든 데이터를 조회, 분석하고 AI 모델이나 현업에 전달을 하는 것이 필요하다고 말했다. 이후 이 과정을 명확한 보안 체계와 권한 관리로 통제해 데이터 민주화 달성을 위한 데이터 메시 아키텍처로 전환해야 한다는 설명이다.

그는 “즉, 모든 이기종 데이터를 ETL(추출·전환·적재) 없이 단 하나의 SQL문으로 조회·분석을 해서 나온 분석 결과를 데이터 프로덕트 퍼블리싱하고, 이는 AI 모델과 서비스의 품질을 극대화 하는데 기여한다”며 “결국 잘 짜여진 SQL 문장 하나만으로도 최신의 데이터 파이프라인과 진정한 AI 서비스를 완성 시킬 수 있다 해도 전혀 과장된 얘기가 아니다”라고 강조했다.

하지만 대부분의 기업들은 데이터를 활용하고, AI 서비스를 접목시키는 과정에서 지속적으로 추가되는 시스템 및 데이터 소스로 인해 어려움을 겪고 있는 것이 현실이다. 한 조사에 따르면, 기업당 평균 5.4개 이상의 불필요한 복사본을 갖고 있다는 결과도 있다.

그는 “스타버스트는 이러한 반복적인 작업들을 최소화하면서 모든 이기종 데이터에 대한 가장 빠른 접근과 분석, 고품질의 데이터 프로덕트를 제공할 수 있는 AI에 반드시 필요한 데이터 분석 엔진”이라고 역설했다.

실제 스타버스트를 활용한 기업들은 90% 이상의 인사이트 시간 단축, 50% 이상의 TCO 절감, 신규 수익 창출에 대한 가능성이 높아졌다는 분석이다.

김 매니저는 “데이터를 복사하고 통합할 필요가 없으니 스토리지 비용이 절약되고 데이터 이동, 변환 등 ETL이 최소화돼 컴퓨팅 비용이나, 여기에 수반되는 인적 리소스도 절감돼 경제성 측면에서도 큰 효과를 볼 수 있다”며 “특히 기존에 활용하지 못했던 데이터를 단순 연결 방식으로 손쉽게 볼 수 있어 비즈니스 측면에서도 더 많은 기회와 가능성이 있다”고 확신했다.

이미 세계 최대 여행 플랫폼인 부킹닷컴의 자회사인 프라이스라인과 미국 최대 온라인 보험 플랫폼 기업 어슈어런스를 비롯해 뱅크오브아메리카(BOA), 디즈니, 라쿠텐, 슬랙, 테슬라 등 글로벌 유수 기업들이 스타버스트를 사용하고 있다.

또, 오픈소스인 트리노의 경우는 SK텔레콤과 SK하이닉스, 카카오, 네이버 라인, 현대자동차, 넷플릭스, 쇼피파이, 트위터 등 전세계 거의 모든 테크기업들이 대규모 데이터를 프로세싱하는데 활용하고 있다. SK하이닉스의 경우, SK텔레콤이 트리노를 기반으로 스타버스트와 유사한 서비스를 구축해 운영 중이다.

김 매니저는 “하이닉스의 경우, 반도체 웨이퍼 공정 중에 발생하는 수많은 데이터를 목적별 빅데이터 클러스터로 복수 운영 중이었고, 제조실행시스템(MES) 관련 원천 DB도 분산, 운영하고 있었다”며 “SKT는 여기에 트리노를 이식해 각 빅데이터 클러스터 내에선 기준정보성 DB와의 페더레이션을 별개로 진행하는 등 반도체 공정 데이터에 대한 손쉬운 분석을 가능하게 했다”고 말했다.

그는 이어 “이 시스템을 근간으로 분산병렬처리 어플리케이션 또한 고도화해 현재까지도 하이닉스 의 대표적인 시스템으로 운영되고 있다”며 “규모로만 따지만 수백 여 노드, 수백 페타바이트(PB) 규모의 빅데이터 플랫폼”이라고 덧붙였다.

한편 SK텔레콤은 통화, 과금, 고객 등의 대규모 데이터들을 관리, 분석해 온 노하우와 다양한 데이터 엔지니어링 역량을 토대로 AI를 접목한 데이터 서비스들도 준비 중이라고 밝혔다.

대표적인 것이 ‘액티브 메타’ 솔루션이다. 이는 모든 데이터들이 가지고 있는 일종의 주소정보, 메타정보들의 변경사항을 실시간으로 추출하고, 자동으로 추적 관리해 준다.

김 매니저는 “데이터가 어디서 어떻게 변경됐고 사용됐는지를 파악할 수 있어 데이터에 대한 신뢰도와 품질을 대폭 향상시킬 수 있는 카탈로그 솔루션”이라며 “현재 베타 버전이 완료됐고 조만간 상용화해 적극적으로 시장에 확산할 것”이라고 강조했다.

이와 함께 AI/ML 기반으로 유저들이 기존에 사용한 데이터 패턴등을 학습해 최적의 인덱스 구분이나 유관 데이터 컨텐츠 등을 자동으로 추천해 주는 ‘서비스 데이터 프로파일링’도 준비 중이다. 그는 “현재 고도화 개발 중인 단계로 올해 중에 하이닉스 등에서 검증 과정 등을 진행할 계획”이라고 밝혔다.

백지영 기자
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널