빅데이터 시대…하둡을 맞이하는 ETL
[디지털데일리 심재석기자] 기업이 비즈니스인텔리전스(BI) 시스템을 구축하기 위해 반드시 도입하는 소프트웨어 중에 ETL이라는 것이 있다. ETL(추출, 변환, 적재)은 A시스템에서 데이터를 추출해 필요에 맞게 변환하고, B 시스템에 적재하는 용도의 소프트웨어다.
일반적으로 전사적자원관리(ERP)와 같은 트랜잭션 시스템에서 데이터를 추출해 데이터웨어하우스(DW)에 적재하기 위해 사용된다. 단순히 데이터를 추출해 적재하는 것이 아니라 그 사이에는 변환이라는 과정을 거치게 된다. 이 변환 과정에서는 데이터의 형식을 맞추고, 잘못된 데이터를 제거하는 등 데이터를 정리한다.
그런데 빅데이터 시대가 도래함에 따라 ETL의 역할도 바뀔 필요가 생겼다. 기존에는 관계형 DB에서 데이터를 추출해 관계형 DB에 올리는 역할을 하던 ETL이 이제는 관계형 DB가 아닌 하둡과 같은 파일시스템까지 대상으로 해야 할 필요가 생긴 것이다.
ETL 업체들은 원천 데이터 소스를 하둡에 올리거나 하둡에 있는 데이터를 다시 기존의 DW에 전달할 때 ETL이 필요하다고 강변한다. 원천 데이터를 무조건 하둡에 복사하는 것이 아니라 분석할 수 있는 형태로 변환해야 하고, 하둡의 데이터 DW에 옮길 때도 마찬가지로 변환 작업이 필요하다.
특히 하둡 파일과 DBMS(DW) 을 결합해 분석하려면 하둡이나 DBMS 한쪽으로 데이터를 이동해야 하는데, 데이터 사이즈가 너무 큰 빅데이터의 경우 이 과정에 많은 시간이 소요된다. ETL 업체들은 전문 ETL 툴을 활용하는 것이 이같은 문제를 해결 하는 방안이라고 강변한다.
즉 빅데이터 시대의 ETL은 ▲HDFS (Hadoop Distributed File System) 인터페이스 ▲대용량 데이터 처리를 위한 읽기/쓰기 병철 처리 ▲하둡 데이터를 DBMS에 적재 ▲하둡파일 정렬, 병합 등 변환 기능 ▲하둡 파일 집계 ▲하둡 파일과 DBMS 간의 Join/Merge/Look-up 기능 제공
현재 국내에서 하둡과 데이터를 주고 받을 수 있는 ETL은 IBM과 인포매티카가 제공하고 있다.
한국IBM의 데이터스테이지는 최신 버전 9.1부터 하둡 파일 시스템과의 인터페이스를 제공한다. 원거리 서버에 있는 하둡 파일에 읽고 쓰기가 가능하다.
한국인포매티카 역시 기존의 파워센터 및 파워익스체인지를 빅데이터 시대에 맞도록 개선했다. 파워센터 빅데이터 데이션 및 파워익스체인지 포 하둡 등이 그것이다.
이에 대해 한국IBM 관계자는 “하둡 기반의 빅데이터 구축이 진행 될수록 빠른 성능을 보장하는 ETL 도구에 대한 요구 사항은 증대 될 것”이라며 “병렬처리 기반의ETL 도구가 하둡 기반의 빅데이터 구축의 핵심이 될 것”이라고 말했다.
한국인포매티카 최승철 대표는 “기업들이 핸드코딩을 통해 하둡의 데이터를 가져오고, 보내면 유지관리도 어렵고, 많은 인력이 투입돼야 한다”면서 “하둡 시대에도 ETL의 역할은 중요하”고 말했다.
<심재석 기자>sjs@ddaily.co.kr
[IT위클리템] 소비자 니즈 충족…캐논 '셀피 포토프린터', WD '콘솔용 SSD' 출시
2024-11-16 14:11:51[尹정부 ICT점검] ‘디지털정부 1위’ 성과 이면에 장애대응·격차해소 과제로
2024-11-16 10:39:44임종훈 대표, 한미사이언스 주식 105만주 매각… 상속세 납부 목적, 이면에 불가피한 속사정?
2024-11-15 18:04:20최윤범 고려아연 회장 “이사회 의장직 내려놓겠다”… 삼성∙보잉 사례 참고했나
2024-11-15 17:19:23[DD퇴근길] 네이버 밴드, 美 MAU 600만 돌파…IT서비스업계, 연말인사 포인트는
2024-11-15 16:53:04