소프트웨어

빅데이터 시대…하둡을 맞이하는 ETL

심재석 기자

[디지털데일리 심재석기자] 기업이 비즈니스인텔리전스(BI) 시스템을 구축하기 위해 반드시 도입하는 소프트웨어 중에 ETL이라는 것이 있다. ETL(추출, 변환, 적재) A시스템에서 데이터를 추출해 필요에 맞게 변환하고, B 시스템에 적재하는 용도의 소프트웨어다.


일반적으로 전사적자원관리(ERP) 같은 트랜잭션 시스템에서 데이터를 추출해  데이터웨어하우스(DW) 적재하기 위해 사용된다. 단순히 데이터를 추출해 적재하는 것이 아니라 사이에는 변환이라는 과정을 거치게 된다. 변환 과정에서는 데이터의 형식을 맞추고, 잘못된 데이터를 제거하는 데이터를 정리한다


그런데 빅데이터 시대가 도래함에 따라 ETL 역할도 바뀔 필요가 생겼다. 기존에는 관계형 DB에서 데이터를 추출해 관계형 DB 올리는 역할을 하던 ETL 이제는 관계형 DB 아닌 하둡과 같은 파일시스템까지 대상으로 해야 필요가 생긴 것이다.


ETL 업체들은 원천 데이터 소스를 하둡에 올리거나 하둡에 있는 데이터를 다시 기존의 DW 전달할 ETL 필요하다고 강변한다. 원천 데이터를 무조건 하둡에 복사하는 것이 아니라 분석할 있는 형태로 변환해야 하고, 하둡의 데이터 DW 옮길 때도 마찬가지로 변환 작업이 필요하다.


특히 하둡 파일과 DBMS(DW) 결합해 분석하려면 하둡이나 DBMS 한쪽으로 데이터를 이동해야 하는데, 데이터 사이즈가 너무 빅데이터의 경우 과정에 많은 시간이 소요된다. ETL 업체들은 전문 ETL 툴을 활용하는 것이 이같은 문제를 해결 하는 방안이라고 강변한다.


즉 빅데이터 시대의 ETL은 HDFS (Hadoop Distributed File System) 인터페이스 ▲대용량 데이터 처리를 위한 읽기/쓰기 병철 처리 ▲하둡 데이터를 DBMS에 적재 ▲하둡파일 정렬, 병합 등 변환 기능 ▲하둡 파일 집계 ▲하둡 파일과 DBMS 간의 Join/Merge/Look-up 기능 제공


현재 국내에서 하둡과 데이터를 주고 받을 수 있는 ETL은 IBM과 인포매티카가 제공하고 있다.


한국IBM의 데이터스테이지는 최신 버전 9.1부터 하둡 파일 시스템과의 인터페이스를 제공한다.  원거리 서버에 있는 하둡 파일에 읽고 쓰기가 가능하다.


한국인포매티카 역시 기존의 파워센터 및 파워익스체인지를 빅데이터 시대에 맞도록 개선했다. 파워센터 빅데이터 데이션 및 파워익스체인지 포 하둡 등이 그것이다. 


이에 대해 한국IBM 관계자는 하둡 기반의 빅데이터 구축이 진행 될수록 빠른 성능을 보장하는 ETL 도구에 대한 요구 사항은 증대 이라며  병렬처리 기반의ETL 도구가 하둡 기반의 빅데이터 구축의 핵심이 될 것이라고 말했다.


한국인포매티카 최승철 대표는기업들이 핸드코딩을 통해 하둡의 데이터를 가져오고, 보내면 유지관리도 어렵고, 많은 인력이 투입돼야 한다면서하둡 시대에도 ETL 역할은 중요하 말했다.


<심재석 기자>sjs@ddaily.co.kr

심재석 기자
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널