칼럼

[전문가기고] 강화학습 기반 의사결정 ‘에이전트 메이커’(Agent Maker)

박기록
*본 기고문은 7월1일 <디지털데일리>가 발간한 <디지털금융 혁신과 도전>2020년 특별호에 게재된 내용을 요약한 것입니다.

글: (주)애자일소다 최대우 대표

2016년부터 현재까지 5년간 의사결정 최적화 문제에 강화학습 방법론 적용

“인간을 도와 데이터를 기반으로 인공지능(AI)이 의사결정을 증강 혹은 자동화할 수 있게 된다면?” 베이킹소다의 기술 개발은 이 질문에서 시작됐다. AI는 경험이나 감정을 배제하고 데이터를 기반으로, 설정된 목표에 가까운 최적의 제안이 가능하다. 또한 AI는 데이터가 쌓일수록 경험을 재학습하며 자동으로 진화하는 기술로 발전해 나가고 있다.

전세계는 간단하고 반복되는 결정 정도는 AI에 맡기고 싶어 하는 기대가 커지고 있다. 스마트폰에는 AI 기술을 응용한 개인 비서 프로그램이 심어지고 가정에는 AI 스피커를 비롯한 각종 편의 제품들이 보급되고 있다.

전문가들은 기업 또한 대부분의 의사결정이 AI(특히 머신러닝, Machine Learning; 기계학습)를 통해 자동화될 것으로 예견하고 있다. 실제 최근 수년간 업무 프로세스를 자동화하는 기술이 각광받으며 RPA(Robotic Process Automation)라는 새로운 시장이 형성되어 빠르게 성장하고 있다.

강화학습 기반의 의사결정 에이전트 메이커(Agent Maker).

BakingSoDA애자일소다는 강화학습이 디지털디시전(Digital Decision; 데이터를 기반으로 인공지능 기술을 활용, 최선의 답을 얻는 의사결정 방법)에서의 최적화 및 자동화를 실현시키는 방법론 중 하나라고 판단하고 연구, 검증, 제품화에 집중해왔다. 디지털디시전에서의 최적화란 수익의 극대화 등과 같은 기업의 당면한 목표를 달성하기 위한 최적의 정책으로, 비즈니스 룰을 강화, 자동화하는 방법을 뜻한다.

강화학습은 어떤 환경(Environment) 안에서 정의된 ‘AI Agent’가 현재의 상태(State)를 인식하고, 선택 가능한 행동(Action)들을 통해 보상을 최대화하는 과정을 반복하면서 학습하는 인공지능 기술로 디지털디시전에 적합하다고 보고 있다.

그러나 전세계적으로 실제 비즈니스에 도입해 성공한 사례는 극히 드물며, 애자일소다에서는 H손해보험, K은행 등에 기술을 접목해 성공한 바 있다. 이 경험을 토대로 실제 기업의 의사결정을 지원할 수 있는 강화학습 에이전트(Agent)를 쉽게 개발하고 지속적으로 발전시켜 갈 수 있도록 강화학습 기반 의사결정 에이전트 메이커(Agent Maker)를 구상해 개발하고, 스스로 부풀어가는 베이킹소다(BakingSoDA)로 명명했다.

그림: 베이킹소다의 핵심 기술인 목표(Metric)와 보상체계를 일치시키는 최적화 기능(Wizard Function) 베이킹소다는 데이터를 기반으로 기업이 의사결정의 최적화 및 자동화를 실현할 수 있도록 기업의 목표 (Metric)와보상체계를 자동으로 일치시키는 기능(Wizard Function)을 제공함.
그림: 베이킹소다의 핵심 기술인 목표(Metric)와 보상체계를 일치시키는 최적화 기능(Wizard Function) 베이킹소다는 데이터를 기반으로 기업이 의사결정의 최적화 및 자동화를 실현할 수 있도록 기업의 목표 (Metric)와보상체계를 자동으로 일치시키는 기능(Wizard Function)을 제공함.
강화학습 적용의 어려움을 극복하는 베이킹소다만의 핵심 기술

강화학습을 기업 환경 실무 적용 시 다음과 같은 벽에 부딪히게 된다는 점을 발견했다. 애자일소다는 100여건에 달하는 다양한 AI 프로젝트 경험과 기업 현장에 대한 이해를 바탕으로 이를 해결할 수 있는 베이킹소다의 핵심 기술들을 연구, 개발했다.

애자일소다는 국내 은행 및 카드사, 보험사의 과제를 수행하며 위와 같은 니즈 및 어려움들을 해결하기 위해 강화학습 기반의 디지털디시전 프로세스를 개발하여 1)기업의 강화학습 내재화, 2)개발 비용 리소스 절감, 3)유지보수 시간비용 절감, 4)이론적으로 이해하기 어려운 강화학습 알고리즘을 보다 쉽게 적용, 5)모델 개발부터 운영까지 하나의 프로세스를 통한 일원화 등으로 강화학습을 활용하여 기업의 목표를 달성하기 위한 의사결정 에이전트를 쉽게 만드는 환경을 제공하는데 목표를 두고 있다.

베이킹소다의 핵심 기능인 최적의 보상 함수 정의를 기업의 목표(Metric)에 맞추어 정의하도록 지원하고 나아가 보상함수 설정을 완전 자동화할 수 있는 기능을 개발하고 있다. 관련 논문은 세계적 인공지능 학회인 NeurIPS에서 인증받은 바 있다. 또한 향후 메타러닝과 강화학습의 결합으로 훈련된 산업 특성화된 에이전트를 제공해 고객 맞춤형의 빠른 학습을 할 수 있도록 하는 기능과 배포된 에이전트가 운영하면서 스스로 성장하고 발전할 수 있는 기능을 탑재할 예정이다.

베이킹소다는 올 하반기에 정식 출시를 앞두고 있으며 금융권을 비롯한 전 산업분야로 널리 활용될 수 있도록 다양한 연구와 개발을 계속해 나갈 계획이다. <끝>
박기록
rock@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널