e비즈*솔루션

“문서 분류·번역 AI로 한번에”...번역 플랫폼 팩트앤지, LLM 기술 특허출원

오병훈 기자
[ⓒ팩트앤지]
[ⓒ팩트앤지]

[디지털데일리 오병훈기자]문서 번역 플랫폼 ‘써밋 글로벌지원센터’를 운영하는 스타트업 팩트앤지가 인공지능(AI)를 활용한 문서 분류변환 및 번역 기술 특허를 등록했다고 20일 밝혔다.

이번에 팩트앤지가 등록한 특허는 AI 및 대형언어모델(LLM) 기술을 활용해 문서를 자동 수신·변환·번역하는 내용으로, ‘인공지능 기반 다유형 문서 변환 방법 및 장치’에 대한 특허다. 대상 문서는 이미지든 PDF 파일 구분 없이 가능하다.

사용자가 엔진에 문서를 입력만 하면, 자동으로 문서 유형이 분류되고, 유형에 맞게 변환 및 번역돼 번역을 대폭 효율화한 것이 핵심이다.

엔진에 문서를 입력하면 광학문자인식(OCR) 기술을 이용해 원본 문서로부터 텍스트를 추출하고, 자연어처리(NLP) 엔진을 통해 사전 학습된 특징 정보를 기반으로 문서 유형을 분류한다. OCR은 ABBY, 네이버 등 기성 OCR 등을 활용하고 있다. 분류 방식 예를 들자면, 엔진에 혼인관계증명서를 입력하면, 엔진이 해당 서류를 ‘혼인관계증명서’로 인식한 뒤 양식까지 구분하는 방식이다. 공공인증 문서 경우 전산발급, 무인발급, 현장발급 등 발급 방식에 따라 문서 양식 및 형식이 달라지기 때문이다. 이처럼 엔진이 제목과 문서 형식까지 모두 정확히 인식한 후 OCR을 진행한다.

분류 이후에는 텍스트를 복수 부분 텍스트들로 분할하고, 각 부분 텍스트에 관한 문서 변환·번역 LLM 모델들 성능을 실시간 비교하며, 실시간 비교 결과에 따라 각 부분 텍스트별로 변환 결과를 결정한다. 결과 문서 형식 또한 최초 분류 문서 유형에 맞게 LLM을 통해 구성한다.

팩트앤지는 이번 특허에 기반한 자동 번역 엔진을 개발 및 고도화 중이다. 현재 개발 중인 엔진을 통해 번역 소요 시간을 80% 이상 단축했으며, 번역 소요 시간을 90% 이상 단축하는 것을 목표로 한다.

팩트앤지는 현재 해당 기술을 내부적으로 학교 생활기록부 번역에 활용 중이다. 생활기록부를 번역엔진에 입력하면, 자동으로 생활기록부 종류를 분류하고 문자를 인식한다. 이후 LLM을 통한 기계 번역이 진행되며, 전문 번역사 선택에 따라 텍스트를 분할해 다양한 LLM을 번역에 적용할 수 있다. 향후 법인등기부등본이나 계약서와 같은 법률 문서까지 적용 범위를 확대할 계획이다.

이혁주 팩트앤지 대표는 “LLM에 기반한 번역 모델은 아직까지 번역 정확도에 한계가 있는 것이 사실”이라며 “본 특허는 번역사가 정한 기준에 따라 번역에 다양한 LLM이 동시에 사용되는 최초의 시도로, 팩트앤지는 기계 번역과 휴먼번역 조화를 통해 특화 번역 시장을 개척하겠다”고 말했다.

한편, 지난 2022년 설립된 팩트앤지는 AI 기반 문서 번역 및 공증 서비스 써밋 글로벌지원센터를 운영하고 있다. 유학이나 해외 취업 등 과정에서 다양한 문서 제출이 필요한데, 이 과정에서 번역 어려움을 겪는 이들에게 전문 번역 인력들을 바탕으로 고품질 번역 서비스를 제공한다. 팩트앤지를 이끌고 있는 이 대표는 미들마일 화물운송 업체 와이엘피 대표로서 누적 200억원 투자금을 유치하며 사업을 확장한 뒤 티맵모빌리티에 매각한 경험이 있다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널