솔루션

포티투마루, 자연어처리 기술 텍스탠딩 출시

박세아

[디지털데일리 박세아 기자] 포티투마루(42Maru)는 인공지능(AI) 광학문자인식-자연어처리(OCR-NLP) 솔루션 '텍스탠딩'을 출시했다고 28일 밝혔다.

포티투마루가 출시한 텍스탠딩(Textanding)은 문서(Text)와 이해(Understnading)를 조합한 것으로, AI 딥러닝 기술을 이용해 기존 기술을 한 단계 발전시킨 솔루션이다.

광학문자인식(OCR) 솔루션은 문서내 글자를 인식할 수 있지만 구조화된 정보를 얻을 수 없어 체계적인 정보 구축을 위해서는 추가적인 처리 방법이 요구된다. 이때 사용되는 것이 인지된 기호를 우리가 평소 사용하는 언어로 바꿔주는 자연어처리(NLP) 기술이다.

그러나 기존의 기술은 문서내 줄 바뀜이나, 배경의 음영, 점, 문서 오염, 수기 작성 문자 등을 잘못 이해하는 경우가 많아 추출 후 정제 과정에서의 수작업 의존도가 매우 높았다. 신규 비정형 문서나 위치 값이 변동될 때도 매번 추가 개발이 필요했다.

이러한 단점을 보완하기 위해 포티투마루는 AI 기술을 이용해 다양한 서식을 자동으로 인식하고 수정 및 교정, 분류할 수 있으며, 딥러닝 기술로 핵심 데이터 추출률과 문서 양식을 지속적으로 확대할 수 있는 AI OCR-NLP 솔루션 '텍스탠딩'을 내놓았다.

포티투마루 텍스탠딩은 문서에서 필요한 항목명과 값을 자동으로 추출한 후 구조화하여 데이터베이스(DB)에 저장한다. 저장된 DB는 업무에 활용 가능한 형태로 사용자에게 제공된다. 이때 정보는 사용자가 확인할 수 있는 유저 인터페이스(UI)를 통해 신뢰도 및 오류를 지속적으로 관리할 수 있다. 신규 문서의 경우 별도의 프로그래밍 없이 사용자가 손쉽게 학습데이터를 구축하고 활용할 수 있다.

포티투마루 김동환 대표는 "텍스탠딩은 한 번 학습한 문서의 핵심 항목은 100% 인식이 가능하기 때문에 신규 추가 양식의 학습에만 집중하면 된다"며 "비정형 자료 데이터 추출시 평균 93% 이상의 정확도로 자동 구조화가 가능하고, 학습 기반의 딥러닝 기술로 인식률과 정확도, 대상 문서 범위 역시 지속적으로 확대될 예정"이라고 말했다.

박세아
seeall@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널