소프트웨어

[DB이노베이션] 실시간 기업 실현, 굿어스데이터 "데이터 엔지니어링 시작하라"

이상일
[디지털데일리 이상일기자] 최근 화두가 되고 있는 실시간 기업 실현을 위한 데이터 프로세스를 위한 필수 플랫폼으로 ‘카프카(Kafka)’가 대두되고 있는 가운데 굿어스데이터가 카프카의 성공적인 도입 및 운영을 위한 전략을 발표했다.

23일 <디지털데일리> 웨비나 플랫폼 ‘DD튜브’를 통해 진행된 ‘DB Innovation for Hybrid Infra 2023’ 행사에서 굿어스데이터 이진철 부사장은 실시간 데이터 처리 기술과 사례 그리고 그 요건들에 대해 발표했다.

최근 ‘실시간 기업’이 화두다. 비즈니스 이벤트가 발생했을 때 데이터를 수집하고, 분석, 반응에 이르는 시간이 빠를수록 기업의 경쟁력은 높게 평가된다. 이를 위해선 가시성, 지능형, 속도라는 세 가지 요건이 필요하다.

한편 이를 지원하기 위한 데이터 처리 환경의 트렌드도 많이 바뀌고 있다. 고성능 컴퓨팅 기반의 스케일 업(scale up) 데이터베이스에서 오픈소스 데이터베이스 중심의 분산 처리 기술로 발전하고 있는 상황이다.

그동안 정형 데이터를 처리하는데 중점을 뒀던 데이터베이스는 2000년을 기점으로 대용량 데이터 처리를 위한 하둡, NoSQL을 바탕으로 결과 중심의 리포트에서 원인까지 파악하는 리포팅 환경으로 발전한다.

3세대 분석 환경에선 실시간 데이터 처리 환경이 각광받게 됐다. 수많은 디바이스 장비로부터 들어오는 데이터들을 데이터가 발생하는 시점에 바로 분석해 비즈니스 요구에 반영하겠다는 목표가 반영됐다.

최근 들어선 데이터가 스트리밍 서비스처럼 흐르게 하는 실시간 분석 환경이 각광을 받고 있다. 다만 기업이 소유한 90% 이상의 데이터들이 각각 사일로화된 비즈니스 애플리케이션에 따라서 독립적으로 쌓이고 있다. 때문에 이를 통합해 활용할 수 있는 방법에 대해 기업들은 고심 중이다. 이에 대한 대응으로 각 산업군에선 실시간 데이터 처리 기술인 ‘카프카’를 시스템에 적용하는 사례가 늘고 있는 상황이다.
이진철 부사장은 “카프카는 사일로화된 시스템에 산재되어 있는 데이터를 통합하고 카프카라는 거대한 강에 데이터가 흐르는 그 순간 실시간으로 분석, 활용할 수 있도록 지원한다. 물론 흐르는 데이터들이 여러 소스 데이터로부터 통합되다 보니 굉장히 복잡한데 데이터 카탈로그와 같은 유연하게 활용할 수 있는 환경 구축이 필요하다”고 설명했다.

실시간 초고속 이벤트 데이터를 처리하는 카프카는 이미 다양하게 사용되고 있다. 실시간 음원 스트리밍 차트, 실시간 라이더의 위치 추적, 자율주행차의 실시간 차량 센서 데이터 기술 , 유통회사의 실시간 재고 관리 시스템 등에도 활용이 되고 있다는 설명이다.

금융권의 경우 사기방지시스템(FDS)에도 카프카가 사용되고 있다는 설명이다. 사기행위 탐지를 하기 위해서는 비즈니스 룰 기반 원칙을 세워놓고 이 룰을 위배하면 금융거래를 차단하거나 연장시키는 한편 고객의 평점 리스크 매니지먼트에서 온 데이터들을 기준으로 스코어 기준을 만들고 이를 통과 하지 못하면 금융거래를 막는 모델 등을 사용한다.

마지막으로 통계 모델의 경우 개인의 신용도를 기준으로 통계 기법을 활용해 사기행위 탐지를 하는 기법을 사용한다. 다만 금융권에서 발생하는 사기행위 탐지 데이터의 양은 폭발적이다.

이진철 부사장은 “이체, 펀드, 매매, 공인인증 등 1만 가지 이상의 데이터 뿐만 아니라 금융 시스템들이 갖고 있는 각종 로그, 디도스 공격이나 안티 바이러스 등등의 50가지 이상의 보안 시스템 데이터들도 수집된다. FDS에서 수집되는 데이터는 통합 로그 관리시스템으로 모여 데이터 분석 과정을 통해 룰 베이스 및 스코어 베이스의 기준을 적용해 사기여부를 판단하게 되는데 여기에 상당한 지연이 발생한다”고 설명했다.

때문에 시티은행 등 글로벌 은행들은 FDS에 카프카를 적극 도입해 카프카라는 거대한 데이터 흐름에 통로를 만들어 룰과 스코어, 통계 기준을 계속 모니터링 하고 있다는 설명이다.

최근 국내에서 화두가 되고 있는 중대재해처벌법에 대응하기 위한 기업들의 움직임에도 카프카가 자리하고 있다.

중대재해처벌법에 따라 사용자인 기업이 고용인들의 안전을 위해서 노력을 했다는 걸 입증하기 위해 안전관리 플랫폼 도입이 필요하다. 여기에 대응하기 위해 국내 주요 건설사들이 구축한 안전관리플랫폼은 IoT 센서를 기반으로 실시간 위치 데이터를 수집해 작업자가 어느 위치에서 업무를 하고 있는 지를 파악하게 된다.

이 부사장은 “작업자가 안전고리 체결, 개구부 홀의 뚜껑이 닫혀 있는지 등, 스마트워치에 기반한 낙상 여부, 안전모 착용 여부, 중장비 작업 반경 범위 안에 위치해 있는지 등을 센서 데이터로 수집되고 있다”며 “다만 센서가 추가될 때 마다 데이터가 따로 저장되다 보니 종합적인 분석이 어려웠다. 때문에 카프카처럼 다양한 센서 데이터를 통합하고 실시간으로 감독할 수 모니터링할 수 있는 툴 도입이 필요했다”고 설명했다.

실제 예를 들어 중장비 작업 반경 안에 작업자가 들어왔는지 여부를 판단하는 센서에선 작업자가 반경 안에 들어왔다고 알람이 뜨는데 실시간 위치 정보에선 아니라고 판단하는 경우가 있었다는 설명이다.

때문에 카프카라는 데이터가 흐르는 강을 만들어 주고 각종 위험성 평가 기준, 위험 구간 분석, 부적합 관리 기준 등의 룰을 통해서 모니터링을 하고 룰에 해당되는 데이터가 발생하면 흐르고 있는 그 순간, 즉 작업자가 사고를 당하기 직전에 알람을 줄 수 있는 시스템 구현이 가능하다는 것이다.
다만 이러한 카프카를 이용하는데는 어려움도 있다. 카프카는 굉장히 복잡한 환경에서 데이터들이 흐르고 있다. 때문에 오라클 DB처럼 이를 편하게 활용할 수 있는 서드파티 애플리케이션이 필요하다.

굿어스데이터에선 ‘로켓해머’라는 데이터 서비스 플랫폼을 제공하고 있다. 로켓해머는 데이터의 속성을 파악하기 위한 메타데이터 관리와 이기종 데이터베이스 간의 데이터 연결을 도와주는 커넥터 기능을 가지고 있다. 또, 모니터링 기능 지원을 통해 컴퓨팅 리소스 자원 관리를 원활하게 도와주기도 한다.
이상일
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널