e비즈*솔루션

업스테이지, 차세대 광학문자인식모델 ‘도큐먼트파스’ 선봬

오병훈 기자
[ⓒ업스테이지]
[ⓒ업스테이지]

[디지털데일리 오병훈기자] 인공지능(AI) 전문기업 업스테이지가 대규모언어모델(LLM)을 활용한 광학문자인식(OCR) 모델을 선보였다.

업스테이지가 정확하고 빠르게 문서를 분석해 대규모 언어 모델(LLM)로 처리가 가능한 차세대 광학문자인식(OCR) 모델 도큐먼트파스(Document Parse)를 공개했다.

도큐먼트파스는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열 레이아웃이나 테이블 등을 포함한 복잡한 형태 문서도 각 구조와 글자 정보를 분석해 데이터 자산화를 가능하게 한다. 어떤 형식 문서도 HTML과 같은 구조화된 형식으로 전환해 기업이나 기관에서 실제 LLM 활용 시 바로 적용할 수 있다.

도큐먼트파스는 검색증강생성(RAG) 시스템 성능과 LLM 응답 정확도를 결정하는 핵심 요소인 데이터 전처리 과정에서 정확성뿐 아니라 속도와 사용성 측면에서 진보한 형태 문서 처리 기술이라는 것이 회사 측 설명이다.

업스테이지는 관련 기술 성능 측정에 통용될 수 있는 객관적 기준 마련을 위해 문서 구조 분석 벤치마크인 ‘DP-Bench’를 함께 공개했다. 그 결과에 도큐먼트파스 는 레이아웃 및 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS) 를 포함한 빅테크 5개사 관련 서비스와 비교해 5% 이상 높은 점수를 받았다. 속도면에서도 도큐먼트파스는 1분에 100장을 처리해 같은 기준을 적용한 AWS ‘텍스트트랙(Texttract)’과는 10배, 라마파스(LamaParse) 보다는 5배 가량 빠른 능력을 보였다는 설명이다.

또, DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종 문서 처리뿐 아니라 수식 인식 및 이미지 추출과 같은 새로운 기능도 추가했다. HTML 외에도 헤더 및 테이블 요소를 마크다운 형식(가볍고 읽기 쉽게 작성된 언어)으로 제공해 LLM 사용자가 입력 문서 토큰 크기를 줄일 수 있다.

업스테이지는 지난해 공식적으로 OCR 서비스를 선보인 직후 같은 해 AI OCR 경진대회 ICDAR에서 아마존과 엔비디아 등 빅테크 기업을 제치고 1위를 차지한 바 있다. 업그레이드된 기술력을 바탕으로 보안이 필수적인 금융권 및 제조업 주요 기업들을 고객으로 확보하고 있으며, 향후 대규모 문서 디지털 전환을 통해 LLM 활용 예정인 전 산업 영역에서 유용하게 활용될 전망이다.

김성훈 업스테이지 대표는 “도큐먼트파스는 각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구”라며 “다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것”이라고 전했다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널