“최근 빅데이터에 대한 논의가 하둡 중심으로만 흘러가는 경향이 있다. 그러나 하둡은 빅데이터 처리를 위한 일부 기술일 뿐 전부가 아니다”
한국인포매티카 유승주 본부장은 최근 인터뷰에서 “일반 기업들은 인터넷 포털 업체들의 빅데이터 전략과 다른 방식으로 접근해야 한다”면서 이같이 강조했다.
그는 “빅데이터 기술은 기존의 DB기반 데이터 처리 기술과 비정형 파일 기반 처리 기술 사이의 어려움을 메워주는 역할을 할 뿐 기존 DB를 대체하는 기술이 아니다”면서 “일반 기업들은 기존 DB 기반의 데이터와 새로운 비정형 데이터를 통합 운영, 분석하는데 중점을 둬야 한다”고 말했다.
그는 빅데이터가 ▲대용량 트랜잭션 데이터 ▲대용량 인터랙션 데이터 ▲대용량 데이터 처리 등 세 개의 기술이 결합된 것이라고 설명했다.
대용량 트랜잭션 데이터는 기존의 온라인트랜잭션(OLTP) 데이터와 데이터웨어하우스(DW) 등의 데이터를 말하며, 대용량 인터랙션 데이터는 소셜미디어의 데이터, 센서네트워크, 인터넷 클릭데이터 등 각종 비정형 데이터를 말한다. 여기에 하둡과 같은 대용량 처리 기술이 어우러져 빅데이터 기술을 구성한다는 것이다.
그는 이 때문에 “기존 트랜잭션 데이터, DW 데이터, 각종 비정형 데이터 등을 모두 처리하면서, 하둡과 같은 새로운 기술과 연동할 수 있는 플랫폼이 필요하다”고 강조했다.
유 본부장에 따르면, 전통적으로 ETL(추출,변환,적재) 분야에서 강점을 보여온 인포매티카는 이같은 데이터 수집, 추출 기술을 하둡 등 새로운 플랫폼에도 확장시켰다.
과거에는 운영시스템에서 트랜잭션 데이터를 추출해 DW에 적재하는 것이 ETL의 역할이었다면, 이제는 데이터 범위를 사내외 비정형 데이터까지 확장할 수 있게 됐고, 그 중심에서 하둡이라는 오픈소스소프트웨어 기술을 활용할 수 있게 됐
예를 들어 전사적자원관리(ERP), 지식관리시스템(KMS), 공장 센서네트워크, 소셜미디어 등 사내외의 모든 데이터 소스로부터 데이터를 추출해 하둡에 적재하고, 하둡에서 다시 데이터를 추출해 DW나 데이터마트, 기준정보관리 시스템 등에 다시 적재할 수 있는 것이다.
유 본부장은 “이 경우 기업들은 기존과 마찬가지로 데이터웨어하우스의 데이터를 분석하기 때문에 새로운 분석시스템을 도입할 필요없이 기존의 시스템을 사용하면 된다”고 부연했다.