소프트웨어

[네이버 어벤저스] 영수증리뷰, 명함앱…이미 당신은 ‘클로바 OCR’을 쓰고 있다

최민지
국민 포털로 출발한 네이버가 다양한 플랫폼과 서비스들로 영역을 대폭 확장하고 있다. 이용자 경험을 위한 체질 개선뿐만 아니라, 중소상공인(SME) 및 창작자들과 이용자들을 연결해 디지털 비즈니스 시너지를 도모하는 데 골몰하는 모습이다. 이용자가 보는 앞단의 변화가 이 정도라면, 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다. 이에 디지털데일리는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라는 이름을 붙였다. 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. <편집자 주>
왼쪽부터 네이버 ▲이바도 OCR팀 리더 ▲박승현 인포메이션 익스트랙션(Information Extraction) 팀 리더 ▲조한철 도큐먼트 빅모델(Document BigModel) TF 리더ⓒ네이버
왼쪽부터 네이버 ▲이바도 OCR팀 리더 ▲박승현 인포메이션 익스트랙션(Information Extraction) 팀 리더 ▲조한철 도큐먼트 빅모델(Document BigModel) TF 리더ⓒ네이버

-광학문자인식 OCR, 기술 확보한 네이버…차별점은?
-구글‧아마존도 눈독 OCR, AI 원천기술 넘어 사업 활용도 높아
-네이버 영수증리뷰, 클로바램프, 리멤버 등에 클로바 OCR 적용

[디지털데일리 최민지기자] 스마트폰으로 명함을 촬영하기만 하면 ‘리멤버’ 앱에서 자동으로 분류하고, 영수증을 찍어서 올리면 어느 매장인지 인식해 리뷰를 남길 수 있다. 일상생활에서 실제로 이용하고 있는 이 같은 서비스에 네이버 인공지능(AI) 기술이 접목됐다. 바로 광학문자인식 ‘OCR(Optical character recognition)’이다.

OCR은 이미지 속 글자 위치를 찾고, 어떤 글자인지 자동으로 알아내는 기술이다. 사실 OCR은 최첨단 기술이 아니다. 1928년 오스트리아 엔지니어 구스타프 타우셰크 박사가 OCR 장치를 특허로 등록한 바 있다. 시기만 본다면, 분명 ‘올드패션’ 기술이다.

그런데, 현재 OCR은 인공지능(AI)‧딥러닝 등과 만나면서 새로운 것으로 가득 찬 ‘온고지신’ 기술로 변화했다. 심지어 활용도까지 높아 사업성까지 갖췄다. 이러다 보니 구글과 아마존과 같은 글로벌 기업도 OCR에 뛰어들었다. 한국 대표 빅테크기업인 네이버도 지원을 아끼지 않았다. 그 결과, 네이버는 한국와 일본 OCR 시장에서 두각을 드러내고 있다.

이에 <디지털데일리>는 네이버 클로바 OCR의 주역 ▲이바도 OCR팀 리더 ▲박승현 인포메이션 익스트랙션(Information Extraction) 팀 리더 ▲조한철 도큐먼트 빅모델(Document BigModel) TF 리더를 만났다. 클로바 OCR 최전선에 서 있는 3인방을 통해 기술 차별성과 실제 사용사례 등을 직접 들을 수 있었다.

◆“네이버는 OCR을 직접 개발한다고?” 개발자도 놀란 이유=네이버는 OCR 원천기술을 직접 개발하고 시스템화한다. 물론, 수고스럽고 비용도 많이 드는 일이다. 그럼에도 네이버가 직접 개발에 나선 이유는 분명 있다. AI 관련 원천기술에 가까운 주요 기술을 직접 개발해야 서비스와 강하게 접목, 할 수 있는 일이 더 많아지기 때문이다.

이바도 리더는 “2018년 처음 합류했을 때 특이하다 생각했다. 보통은 OCR을 내재화하지 않고, 외부에서 만들어진 것을 가져다 쓰는 것이 일반적”이라며 “품이 많이 들어가는 일이다. 개발자도 필요하고, 데이터를 잘 모아서 학습해야 하는데 만만치 않다. 돈도 많이 든다. 그래서 네이버가 OCR을 직접 한다고 해서 놀랐다”고 회상했다.

네이버는 2018년부터 본격적으로 OCR팀을 구성해 연구하기 시작했다. OCR 가치가 재조명되고 있기 때문이다. 기업은 단순‧반복 업무를 자동화하는 방식을 고민하고 있다. 이에 따라 기업들은 앞다퉈 로봇프로세스자동화(RPA) 도입을 통해 업무 효율화를 꾀하기 시작했다. 이같은 RPA에 꼭 필요한 기술이 AI 기반 OCR이다.

박승현 리더는 “OCR는 예전부터 있었던 기술이지만, 이걸 AI로 하겠다고 결정하고 지금까지 오게 된 계기는 가능성과 활용성에 있다. 서비스와 맞닿아 있어, 잘 만들면 잘 쓰일 수 있다고 봤다”며 “ 논문으로 끝나는 기술이 아니라, 실생활에서 쓸 수 있다는 것이다. 실제로 기대 이상으로 비즈니스 액수가 커지고 있다”고 설명했다.

이어 조한철 리더는 “OCR이라는 이름만 들으면, 누군가는 굉장히 올드패션(구식)한 기술을 AI 팀에서 왜 하느냐고 생각할 수 있겠다”며 “그러나 딥러닝 모델을 사용하는 등 기반 기술은 모두 최신의 최첨단 기술들로 꾸려져 있다. 네이버가 전체 시스템을 만들고 대부분을 처리하고 있다고 자신있게 말할 수 있다”고 전했다.

◆일상생활 곳곳에 스며든 클로바 OCR=클로바 OCR은 논문 속에서만 볼 수 있는 기술이 아니다. 실제 생활에 접목돼 이용자 편익을 높여주는 기술로 자리했다.

클로바 OCR은 2019년부터 다양한 네이버 및 라인 서비스에 탑재됐다. 영수증 서비스인 네이버 마이플레이스 영수증 리뷰 등을 비롯해 ▲네이버웍스 ▲리멤버 ▲클로바램프 ▲사업자등록증 ‘스마트플레이스’ 등이 대표적이다.

이 중에서 클로바램프는 클로바 OCR, 비전(Vision), 보이스, 스피치(Speech) 등 클로바 AI 기술이 집약된 조명 타입 AI 디바이스다. 책을 램프 아래 펼쳐 놓으면 해당 페이지의 글자를 읽어주며, 파파고 번역 기술을 활용해 실시간으로 페이지를 번역해 들려줄 수도 있다. 글자를 읽어야 하기에 OCR 기술이 중요한 역할을 하고 있는 셈이다.

이 리더는 “클로바램프가 학습한 책이라면, 데이터베이스(DB)에서 불러와서 스크립트를 읽어주면 되지만 모든 책을 학습할 수는 없다”며 “등록되지 않은 책을 읽으려면, OCR이 필수적이다. OCR은 텍스트가 어디에 있고, 무엇인지 알려주기 때문에 모든 책을 읽어줄 수 있다”고 부연했다.

또한, 음악스트리밍 서비스 ‘바이브’를 사용할 때도 OCR이 활용된다. 보통 앱을 바꾸면, 플레이리스트를 새로 만들어야 한다. 플레이리스트 이전 기능을 제공하지 않기 때문이다. 하지만, 기존 앱에서 플레이리스트를 캡처하면, 바이브에서 OCR을 통해 음악재생 목록을 자동으로 추출해준다.

◆OCR 기술 사업화, 일본시장 공략=지난해 상반기부터는 네이버클라우드플랫폼(NCP)을 통해 본격적으로 외부에도 OCR 기술을 사업화하기 시작했다. 다른 AI 기술 사례에 비해 실무에 활용 가능성이 높아 고객만족도 또한 높다는 평가다.

이와 관련 네이버는 도큐먼트OCR(영수증, 신용카드, 명함, 신분증, 사업자등록증) 상품을 출시하고, 의료비 영수증 특화모델을 개발해 상품군에 추가했다. 문서 표를 그대로 추출해 재현하는 모델도 개발해 제너럴OCR 상품에 적용했다.

국내에서는 대표적으로 ‘흥국화재’와 AI 서비스 업무 협약을 맺고, 보험금 지급을 위해 인입되는 월 100만장에 가까운 의료비 영수증 처리 자동화를 진행하고 있다.

일본에서도 다양한 파트너사들이 클로바 OCR을 도입했다. 한국에 비해 디지털화가 비교적 느린 일본은 ‘문서 인식’ 시장이 한국의 10배에 달할 정도로 크다. 일본국립국회도서관 전산화 프로젝트가 대표적이다. 이는 일본의 1800년대 이후 서적을 모두 전산화, 검색 가능하게 만드는 프로젝트다. 약 20억원 규모다. 일본 현지 OCR 업체들을 제치고 입찰에 성공했다.

◆까다로운 손글씨까지 척척, 클로바 OCR은 다르다=
네이버 클로바 OCR은 모델‧데이터 관점에서 차별성을 지닌다. OCR 엔진 모듈은 검출(Detector)과 인식(Recognizer)으로 구성된다. 이전에는 띄어쓰기로 구분된 단어 단위로 검출하는 방식이었다면, 클로바 모델은 글자 단위다. 단어 글자수를 이용해 학습하는 방식이라, 성능이 높아질 수밖에 없는 이유다.

‘새해 복 많이 받으세요’라는 문장이 있다. 기존에는 ▲새해 ▲복 ▲많이 ▲받으세요, 4개로 검출된다. 그러나 클로바 모델에서는 ▲새 ▲해 ▲복 ▲많 ▲이 ▲받 ▲으 ▲세 ▲요, 9개로 검출된다.

이같은 글자가 무엇인지 알아내는 인식의 경우, ▲이미지 정렬(Normalization) ▲특징 추출(Feature Extraction) ▲순차적 모델(Sequential Model) ▲예측(Prediction) 등 여러 요소를 조합한다. 네이버는 자체 연구를 통해 각 요소 간 최적의 조합을 찾아내 인식 성능을 끌어올렸다.

이 리더는 “한국어와 일본어에서 경쟁사 대비 높은 성능이 나온다고 자신할 수 있다”며 “상대적으로 까다로운 손글씨 데이터를 많이 확보하고 있으며, 이를 학습에 활용하고 있다”고 덧붙였다.

<다음 기사에서 계속됩니다>
최민지
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널