소프트웨어

이파피루스, 오픈소스 PDF 라이브러리 플랫폼 리뉴얼

이상일 기자
이파피루스, 오픈소스 PDF 라이브러리 플랫폼 리뉴얼 [ⓒ이파피루스]
이파피루스, 오픈소스 PDF 라이브러리 플랫폼 리뉴얼 [ⓒ이파피루스]

[디지털데일리 이상일기자] 이파피루스(대표 김정희)는 오픈소스 PDF 라이브러리 ‘뮤피디에프(MuPDF)’의 웹사이트 뮤피디에프닷컴’을 리뉴얼했다고 20일 밝혔다.

MuPDF는 이파피루스의 자회사인 미국 아티펙스 사(Artifex Inc., artifex.com)가 보유한 C언어 기반 오픈소스 라이브러리다. PDF, XPS 및 EPUB 문서 이미지 렌더링을 비롯해 PDF 변환, 처리 및 추출 등 다양한 문서 작업에 폭 넓게 사용된다.

특히 MuPDF의 파이썬 바인딩인 ‘파이뮤피디에프(PyMuPDF)’는 2016년 첫 출시 이래 전 세계에서 6천만 번 이상 다운로드되었으며, 2023년에는 미국 오픈AI 사의 인공지능 챗봇 ‘챗GPT’의 학습 및 문서 처리용으로 공급되어 인공지능 업계의 주목을 한 몸에 받았다.

새롭게 단장한 홈페이지는 그동안 여러 채널에 흩어져 있던 MuPDF 제품군을 한 자리에 모아 정리, 글로벌 개발자들이 보다 손쉽게 이용할 수 있는 통합 원스톱 플랫폼으로 거듭났다. 2005년 첫 출시 이래 여러 번 업데이트와 세분화를 거친 MuPDF 시리즈의 다양한 기능과 특성을 직관적인 디자인과 상세한 안내 자료를 통해 알기 쉽게 소개한다.

커뮤니케이션 기능 또한 강화됐다. 개발자 및 사용자들의 활발한 의견 공유를 위해 사이트 내에 깃허브(GitHub)를 도입했으며, 제품 및 서비스 이용자 피드백을 받기 위한 디스코드 채널을 개설했다.

신제품도 꾸준히 개발해 나갈 예정이다. 기존 보유하고 있던 MuPDF 자바 바인딩 라이브러리 외에 도 Node.js 서버 애플리케이션에 초점을 맞춘 ‘뮤피디에프JS(MuPDF.js)’, C#과 닷넷(.NET) 프레임워크를 사용하는 기업을 타겟으로 한 ‘뮤피디에프닷넷(MuPDF.NET)’ 등을 추후 출시해 제품 라인업을 확장해 나갈 계획이다.

LLM(대규모 언어 모델, Large Language Models) 특화 제품도 출시했다. LLM이 그럴듯한 오류나 거짓말을 결과로 도출하는 ‘AI 환각’ 현상을 완화해주는 등 ‘팩트체킹’에 활용할 수 있는 효과적인 기술로서 PyMuPDF의 텍스트 추출 기능이 최근 LLM 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 개발자들 사이에서 인기를 끌고 있다.

이러한 수요에 부응하기 위해 이파피루스는 신제품 ‘파이뮤피디에프 포 엘엘엠(PyMuPDF4LLM)’을 출시했다. PDF 문서 내용을 인공지능이 이해할 수 있도록 텍스트 데이터로 정확하고 안정적으로 추출하며, 간단한 몇 줄의 파이선(Python) 코드로 복잡한 PDF 문서를 손쉽게 마크다운 랭귀지(JSON 포맷)으로 변환한다. LLM 학습에 필요한 마크다운 랭귀지 포맷을 효과적으로 생성하는 데 특화된 제품이며, 개발자 입장에서도 LLM 모델에 적용하기 수월하다는 이점이 있다.

이파피루스 김정희 대표는 “MuPDF(뮤피디에프)를 사용하는데 필요한 모든 정보를 총망라하면서도 이용하기 쉽고 직관적이며, 무엇보다도 전 세계 개발자들과 언제든지 소통할 수 있는 젊고 활기찬 플랫폼을 목표로 했다”며 “어떤 개발 환경에서든 자유자재로 MuPDF(뮤피디에프)를 활용할 수 있도록 지속적으로 제품 강화와 확장에 나설 것” 이며 특히 앞으로 AI 분야 지원에 더욱 심혈을 기울일 예정이라고 밝혔다.

이상일 기자
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널