금융IT

[2022 금융혁신 SW] “싱글뷰 채널 모니터링, 신속한 통합 장애관리” 디리아 ‘Cr

박기록

- “안정성은 금융 IT시스템의 필수 요건”

현재 금융산업을 비롯해 여러 산업 분야에서 업무의 편의성 향상, 혁신적인 서비스를 구현하기위해 디지털전환(Digital Transformation) 노력이 활발하게 진행되고 있다.

치열한 경쟁 상황속에서 어떤 부문 하나 소홀히 할 수 없겠지만 성공적인 디지털전환을 위해 모든 IT 시스템이 가장 기본적으로 갖춰야할 요건을 꼽자면 그것은 바로 시스템 ‘안정성’과 ‘보안’이다. 이는 감당할 수 있는 ‘불편함’이 아닌 절대적으로 시스템에 대한 ‘신뢰’ 문제로 직결되기 때문이다.

시스템을 운영하는 기업의 입장에서 ‘장애’는 반드시 미연에 방지해야 할 이벤트이며, 또한 부득이 발생했더라도 신속하게 대처할 수 있는 방안을 마련해 둬야만 당황하지 않고 서비스 영향도를 최소화할 수 있다. 이 때문에 많은 금융기관 또는 기업에서는 장애 대응을 위해 다양한 솔루션을 도입하고 있으며 촘촘한 안전망을 확보하기 위해 많은 노력을 기울이고 있다.
여전히 미흡한 전체적 관점의 ‘장애 관리

이와 관련하여 이미 시장에는 APM(WAS), DBPM(DB), NMS(네트워크)와 같이 부문별로 모니터링하는 솔루션부터 E2E 거래추적 모니터링의 제품군까지 다양하게 존재하고 있다. 그럼에도 불구하고 여전히 실무적인 입장에서 보면 아쉬운 부분이 존재한다.

각각의 솔루션들은 충분히 훌륭한 기능들을 제공하고 있지만 관련 시스템들을 모두 엮어 전체적인 관점에서 장애를 관리하고, 운영자 및 관리자의 원인분석을 위한 ‘판단’을 지원해주는 부분은 여전히 부족하다고 생각되기 때문이다.

그렇다 보니 좋은 솔루션들을 두고도 여전히 장애 원인을 찾기 위해 많은 시간을 소요하고 있다.. 이런 아쉬운 점을 보강해 업무 효율을 높이고 기존의 모니터링 솔루션과 시너지를 낼 수 있는 솔루션이 바로 ‘채널 모니터링 솔루션’(CPM)이다.

갈수록 더 중요해지는 금융 ‘채널 시스템’의 역할

현재 전체적인 금융 시스템에서 채널시스템은 필수 구성 요소로 꼽힌다. 다양한 금융 채널(Web, Mobile, ATM, CD, ARS 등)에서 전송되어지는 금융거래(이체, 조회, 상품 등) 요청은 금융회사의 서비스를 이용하기 위해 MCA를 통해 들어오며, 외부 기관과의 거래는 FEP를 통해 송수신을 한다. 또한 내부의 다양한 단위시스템 간의 연계에는 EAI가 활용된다.

이렇게 금융거래는 다양한 채널들과 복잡하게 연계돼 있다. 특히 이는 최근 금융권 비대면 서비스 강화 정책, 제휴 업무의 증가 등에 따라 거래량이 급격히 증가하며, 시스템의 안정성 및 성능을 위한 주요 관리 포인트가 되고 있다.

이처럼 채널 시스템의 서비스 지연, 장애는 곧바로 금융회사의 대고객서비스 품질과 직결될 수 밖에 없다. 따라서 채널시스템의 역할이 중요해지는 만큼 채널시스템에 대한 실시간 모니터링 기능이 크게 강화되어야 하는 것은 당연하다.

신속한 장애대처를 위한 ‘싱글뷰(Single view)’ 채널모니터링 솔루션

이처럼 CruzCPM은 서비스의 지연과 장애를 신속하게 파악하여 조치하고, 사전에 이상징후를 파악하여 장애 전에 대처할 수 있도록 지원하는 채널모니터링 솔루션이다.

기존의 채널모니터링은 솔루션 내의 하나의 기능으로서 단말, MCA, 코어(Core), FEP등 개별 시스템을 부분적으로 모니터링해왔다. 또한 금융거래, OS, 앱(App), DB, 네트워크 등 각 레이어(Layer)별로 모니터링을 한다. 하지만, 단일 금융거래에도 다양한 시스템과 환경의 영향을 받는다.

따라서 장애 발생 시에는 해당 거래에 대한 다각적인 분석이 필요함에도 불구하고, 현재의 모니터링 운영 구조에서는 단편적인 분석이 이루어질 수밖에 없다. 각 시스템 별 모니터링 결과를 취합하고 분석하는 과정에서 결과도출이 쉽지 않을 뿐만 아니라 정보 취합에 상당한 시간이 소요되고, 원활하지 않은 커뮤니케이션으로 문제 해결의 방향을 잡는데 난항을 겪기도 한다.

장애 대처는 무엇보다 ‘신속함’이 중요하다. CruzCPM은 장애 모니터링에 대한 ‘싱글뷰’를 통해 신속한 대응 환경을 제공한다. 모든 구간 및 레이어(Layer)의 이벤트 정보(Metric, Log, APM, DPM 등)를 통합 수집 및 정제하고, 통합 저장 관리함으로써 문제 발생 시 하나의 화면에서 모든 이벤트 정보를 실시간으로 모니터링한다.

이를 통해 장애원인 분석 소요시간을 단축시켜준다. 또한 머신러닝을 통해 장애발생 전 이상징후를 보이는 구간과 레이어에 대해 운영 담당자에게 알람을 전송하여 사전에 문제를 식별 조치할 수 있도록 한다
.
CruzCPM의 주요 기능

CruzCPM은 크게 ▲지능형 통합수집 ▲표준형 통합저장 ▲실시간 장애관리 ▲편리한 이상징후 감지로 구성 된다.

지능형 통합수집은 하나의 Agent로 모든 이벤트정보를 수집하고 이를 서버로 실시간 전송하는기능이다. CruzCPM은 Agent를 통해 Metric, Log, DB, Network, APM 등 장애분석에 필요한 모든 이벤트를 수집 한다.

이때, 트래픽 증가에 따른 이벤트의 유실 및 중복이 없도록 Queue를 통해서 유량을 제어하고, 정확한 장애 분석을 위해 수집된 이벤트의 수정, 삭제, 추가 등의 정제작업을 실시간으로 처리한다. 이벤트 정보 수집 방식은 수집 대상에 따라 에이전트(Agent)설치 또는 리모트 접속방식을 선택하며, 모든 수집기는 서버에서 관리하고 원격으로 자동 업데이트 및 설정을 지원한다.

이벤트 특성에 따른 저장소 구성… 속도 확보 및 운영비 절감

표준형 통합저장 기능은 NoSQL 기반의 분산처리 샤딩을 통한 Scale-out 방식으로 검색속도의 저하없이 저장소를 무한대로 증설하여 기하급수적으로 증가하는 이벤트 관리에 적합하도록 클러스터로 설계되어 있다.

이러한 저장소는 ILM(Index Lifecycle Management)을 통해서 각 이벤트의 특성에 따라 자주 사용하는 이벤트는 빠른 속도를 보장하도록 구성하고 드물게 사용하는 이벤트는 저렴한 스토리지에 저장하여 운영비용을 최소화한다. 한편, 모든 이벤트 정보는 표준 이벤트 스키마에 따라 저장된다.

이벤트정보의 특성을 반영한 Naming Rule을 가지며 이를 통해서 이벤트의 검색 및 분석 시 일관된 검색 속도와 품질을 보장하고 서비스 중단없이 업그레이드와 서버의 추가 및 제거를 지원한다.
1초안에 통합 검색 결과 제공… 다양한 차트로 구성된 대시보드

실시간 장애관리 기능은 크게 검색, 통계, 대시보드, 토폴로지, 알람 기능으로 구성된다. 통합 저장된 모든 이벤트에 대해서 Full Text Search와 조건 검색으로 1초안에 통합 검색 결과를 제공하며, 대용량 이벤트에 대해서 Bucket(통계분류)와 Metric(통계연산)을 통해 실시간 빅데이터 통계 분석 및 연관분석을 제공한다.

사용자는 20여가지의 다양한 차트를 활용하여 제공되는 이런 검색과 통계 기능을 개발없이 설정만으로 손쉽게 대시보드(차트, 연관도, Heatmap, Cloud tag 등)로 구성하여 최적의 운영 환경을 구현할 수 있다. 또한 모든 이벤트 속성(CPU, Memory, Disk, Network, Delay, Traffic)에 대한 임계치 설정으로 문제 발생 시, 실시간으로 운영자에 이메일, 문자 등으로 알람을 전송함으로써 신속하게 장애관리를 할 수 있다.

머신러닝을 통한 이상징후 감지… 알람을 통한 사전 조치 지원

마지막으로 CruzCPM은 비지도 학습 기반의 머신러닝을 통해서 모든 이벤트 속성에 대해 이상징후를 감지한다. 감지된 이상징후는 실시간으로 이메일 및 문자로 발송되며, 대시보드에 표출된다. 운영자는 즉시 이상징후 내용의 상세 파악으로 실제 장애와 연관성 여부를 파악하고 필요 시 사전 조치를 한다.

CruzCPM의 이상징후 감지는 별도의 머신러닝 알고리즘 개발이나 통계지식이 없어도 이벤트 속성에 대한 이해를 기반으로 위저드 형식으로 설정함으로써 빠르고 쉽게 적용한다. 또한, 이상감지 시 해당 이벤트 연관 모든 요소들에 대한 검색 및 조회가 통합적으로 이루어져 다각적 관점에서 신속한 원인분석이 가능하다.

채널연계 노하우가 담긴 채널 모니터링 솔루션

디리아는 대내외채널연계 솔루션 CruzLink를 비롯해 API Management 솔루션 CruzAPIM, 전문통합관리솔루션 CruzEIMS 그리고 채널 시뮬레이터 CruzSim까지 다양한 ‘인터페이스’ 노하우와 관련 제품을 보유한 ‘연계’기술 선도기업이다.

CruzCPM은 디리아의 다년간 금융업무 및 연계 인프라에 대한 구축 및 장애관리 경험을 바탕으로 개발된 솔루션이다. 단순 ‘인프라’ 이벤트 모니터링이 아닌 ‘금융거래(거래전문)’ 이벤트를 ‘인프라’ 이벤트와 연계하여 장애 발생 시점의 모든 이벤트(인프라-CPU, Memory, Disk, Network, APM, DPM, 금융거래 등)를 통합적으로 검색 및 모니터링하여 상호 연관분석을 통해 Single Point 모니터링을 제공한다.

그리고 머신러닝 기반의 이상징후 감지로 사전에 운영자가 파악하지 못한 인프라 및 금융거래의 이상패턴을 찾아내고 이를 Anomaly score로 제공하여 기존 사후 대응체계와 달리 장애 발생 전에 대응할 수 있다.

CruzCPM의 최종 목표는 AIOps 솔루션

CruzCPM은 현재 장애 발생 시, 신속하게 해당 내용을 인지하고 원인분석 및 조치를 효율적으로 할 수 있는 사후처리에 중점을 두는 실시간 채널모니터링 솔루션이다. 하지만 궁극적으로 지향하는 모습은 AIOps(Aritificial intelligence for IT Operations) 솔루션이다. 즉, 장애 발생 전에 통합모니터링과 이상징후감지를 기반으로 신속하게 예상되는 장애의 원인을 파악하고 사전 대응하여 장애 발생 자체를 미연에 방지하는 것이다.

더 다양한 데이터를 수집하기 위한 에이전트(Agent) 고도화, 축적된 장애 및 원인분석 데이터를 이용한 AI 기반의 장애예측 알고리즘, 과거데이터를 이용한 장애 테스트 및 재현 시뮬레이션 그리고 정형화된 장애에 대한 자동 조치 기능 구현을 통해 갈수록 복잡해지는 시스템 환경에도 효율적이고 사각지대 없는 모니터링 환경을 제공할 계획이다.

* 본 기사는 디지털데일리가 올해 7월초 발간한 <2022년판 디지털금융 혁신과 도전>에 게재된 내용을 중심으로 재구성한 것입니다. 편집 사정상 책의 내용과 다를 수 있습니다.

박기록
rock@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널