금융IT

[2021 금융IT혁신] 금융 데이터 활용성 높이기 위한 신한금융그룹의 전략은?

이상일
[디지털데일리 이상일기자] 다른 업종이 탐낼 정도로 가치는 높지만 사용하는데 한계도 노출하고 있는 금융 데이터의 활용성 증대를 위한 기술연구가 금융권을 중심으로 속도를 내고 있다.

12월 8일부터 11일까지 4일간 <디지털데일리> 온라인 컨퍼런스 서비스 플랫폼인 DD튜브를 통해 진행되는 ‘2021 금융IT 혁신(Innovation)’ 컨퍼런스에서 ‘디지털 시대 금융권 빅데이터 활용을 위한 R&D 전략’을 발표한 신한금융그룹 디지털혁신연구소 최민정 수석 컨설턴트는 금융 데이터 분석의 신뢰성 향상을 위한 기술 동향에 대해 설명해 주목을 끌었다.

최민정 수석은 “금융권 데이터는 장단점이 분명하다. 금융데이터는 정합성과 거래정보의 신뢰성이 높다. 다만 거래빈도수가 낮아 분석의 폭이 제한된다. 머신러닝 결과물 활용에 설명력이 필요한 것도 넘어야할 산이다. 때문에 금융데이터를 위한 기술극복 과제가 필요한 상황”이라고 밝혔다.

◆고부가가치 가지고 있는 금융 데이터=데이터 분석에 대한 알고리즘이 컴퓨터 과학 분야에서 발전하다 보니 금융 산업에 바로 적용하기는 현실적으로 한계가 있다. 그럼에도 불구하고 최근 금융혁신 뒤에는 데이터 알고리즘이 자리하고 있다. 자동화, 보안, 보험사 언더라이팅, 대안신용평가, 로보어드바이저, 챗봇, OCR 등에 데이터 분석이 사용되고 있다.

실제 금융사들은 데이터 분석과 관련한 신기술 도입에 적극적이다. 고객의 정보와 자산의 보호가 가장 중요한 가치이기 때문에 새로운 기술도입이 필요하면 적극 나서는 추세라는 설명이다. 예를 들어 이상탐지시스템은 업계의 고급 알고리즘 도입으로 기술수준의 향상을 달성하고 있다.

특히 금융데이터는 정합성과 거래정보의 신뢰성이 높다. 데이터 결합성과 잠재가치도 높은 편이다. 대부분 정형, 관계형 데이터 형태로 수집, 저장돼 데이터의 결합성과 적재 효율성이 높아 빅데이터 활용 시 고부가가치 창출이 가능한 영역이 많다.

최민정 수석은 “금융권 데이터의 가장 큰 장점은 넓은 고객 베이스와 아직도 분석이 덜 된 고객(거래) 데이터”라며 “데이터 형태뿐만 아니라 이러한 고부가 가치의 데이터 수집은 어렵기 때문에 다른 업권에서 보고 싶어 하는 데이터이기도 하다”고 설명했다.

다만 금융 데이터가 가지는 가치만큼 약점도 있다. 최민정 수석은 “정합성이 높지만 거래빈도수가 낮아 분석의 폭이 제한된다. 예를 들어 예금, 여신, 보험 등 대부분의 금융활동은 거래빈도가 높지 않아 지도학습의 레이블 값으로 활용이 부적절하다”고 말했다.

또, “데이터접근 및 확산에 법적 제약이 존재해 다른 업권에 비해 데이터 이용 정책의 허들이 높다. 금융 데이터 용도가 많고 잠재력이 높지만 실제 공유하려면 여러 힘든 절차를 거쳐야 한다. 분석가 입장에선 어려운 점”이라고 밝혔다.

이 같은 특성을 갖는 금융 데이터의 활용도를 높이기 위한 데이터 분석기법 향상에 금융사들은 노력을 기울이고 있다.

신한금융그룹도 저빈도 데이터 극복을 위한 ‘데이터 재구축’ 분석기법 향상과 개인정보 접근과 열람규제를 극복하고 데이터의 활용도를 제고하기 위한 ‘재현 데이터 기술’, 금융AI가 단순상품추천 뿐만 아니라 추천한 이유도 제시하기 위한 ‘설명가능한 AI’ 기술을 바탕으로 고도화를 진행 중이다.

◆약점 극복 위한 ICT기술 접목에 고민=‘데이터 재구축’은 샘플을 확장시키거나 축소시키는 방법으로 머신러닝 예측성과 향상, 금융 데이터의 불균형성을 해결하는 것이다. 금융영역에서 불균형 데이터 처리가 중요한 이유는 예측 오류를 최소화하고 신뢰성 있는 서비스를 제공할 수 있기 때문이다.

최민정 수석은 “10만 명의 고객 중 2000명을 대상으로 한 고객예측을 하는 신한금융그룹의 사례의 경우 샘플 데이터와 피처 데이터의 변환으로 분류 모델의 성과 향상을 꾀하기도 했다. 리샘플링과 피처 데이터 변환으로 기존 모델 대비 11%에서 29% 향상된 예측 모델 수립이 가능해졌다”고 밝혔다.

실제 데이터를 모의적으로 생성하는 것이 '재현데이터' 기술이다. 개인정보 접근과 열람규제를 극복하고 데이터의 활용도를 제고하는데 쓰인다.

이것이 중요한 이유는 개인정보를 식별 불가능하도록 한 가명화가 금융사에 요구되는데 익명성을 준수하기 위해 각 항목을 군집화하게 되면 데이터 활용도가 매우 낮아지는 문제가 발생하기 때문이다. 때문에 원천 데이터의 분포를 만드는 모델을 학습해 존재하지 않는 데이터를 생성하거나 입력값을 다른 정보로 변환하는 등의 기술을 적용한다.

'설명가능한 AI(eXplainable AI, XAI)'의 경우 모델 개선의 명확한 근거를 제공하고 학습결과의 안정성을 강화하는데 목적을 두고 있다.

최민정 수석은 “기술적 측면 뿐만 아니라 컴플라이언스 측면에서도 의미가 있다. 개정 신정법에서는 AI를 활용한 자동화 평가 결과에 대해 설명을 요구하고 이의를 제기할 수 있는 프로파일링을 도입하고 있다. 이에 대비하기 위해선 금융AI가 단순상품추천 뿐만 아니라 추천한 이유도 제시해야 한다. 기존의 AI로는 할 수 없는 분야”라고 밝혔다.

신한금융그룹에선 아직 초기단계지만 XAI를 도입해 목적에 따른 예측모델을 계산하고 있다는 설명이다. 또, 학습데이터의 질은 양질의 데이터 뷰의 구축을 통해 관리할 계획이며 데이터 양은 신규 데이터 셋 수집과 확보에 노력 중이다.

한편 금융사의 데이터 분석 기반을 만들어가기 위해서 최 수석은 정확한 방향 설정이 중요하다고 강조했다.
최 수석은 “금융권에서 데이터 활용도를 높이기 위해 분석가 역량 강화와 플랫폼 구축에 집중하고 있는데 연구개발 투자도 중요하다. 선진기술 도입은 즉각적 수익은 아니지만 중장기 측면에서 데이터 가치를 실현하는데 중요한 요소가 된다. 핀테크, 빅테크 기업은 AI 기술 개발에 주도적으로 참여하고 있지만 대형 금융사는 기존 금융 인프라에 대한 투자와 비용 증가로 투자가 지연돼왔다. 경쟁에 뒤쳐지지 않기 위해선 명확한 방향설정이 필요하다”고 강조했다.

<이상일 기지>2401@ddaily.co.kr
이상일
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널