일반

무하유, 정부 초거대 AI 데이터 구축사업 '학술논문 이해' 부문 참여

이건한 기자
ⓒ 무하유
ⓒ 무하유

[디지털데일리 이건한 기자] 무하유가 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 '2024년 초거대 AI 데이터 구축사업'에 참여한다고 7일 밝혔다.

무하유는 해당 사업 내 교육 영역의 '학술논문 이해 데이터' 구축을 담당한다. 일반인들도 학술 논문을 쉽고 빠르게 이해할 수 있도록 'CC-BY 라이선스 형태'의 학술 논문 1만 건에 대한 포스터 생성을 돕는다.

또한 포스터 생성을 위한 논문 요약, 핵심 표·그림 선정, 표·그림에 대한 설명문 작성 등을 지원하는 학습 데이터를 구축하고, AI 모델을 개발할 예정이다. 수작업으로 진행할 경우 많은 시간이 소모되는 학술논문 포스터 제작을 자동화한다는 목표다. 학술 논문 전문 중 포스터에 활용될 영역을 매핑하는 데이터를 라벨링하는 게 핵심이며, 라벨링 과정에는 국내 연구기관출신의 석·박사급 인재를 고용해 정확도를 높일 계획이다.

무하유는 지난 13년간 AI 기반 학술논문 전문 표절검사 서비스 '카피킬러'를 운영하며 축적한 자연어 이해(NLU) 전문성 및 학술 논문 내용에 대한 노하우를 쌓은 회사다. 이번 선정은 다양한 형태의 데이터를 분석하고 동시 처리할 수 있는 '멀티모달' 기술력도 높게 평가받았다는 설명이다. 논문은 텍스트 요약을 넘어 논문 내 이미지들과 텍스트 내용 간의 유기적인 상관관계를 데이터로 옮겨야 하기 때문이다. 이 점에서 무하유는 AI 면접 평가 서비스 '몬스터'를 개발 및 운영하며 이미지·영상·음성 등 복잡한 데이터를 분석하고 평가하는 노하우를 쌓아왔다.

한편 이번 사업은 품질관리 전문기업 더테스트가 참여해 구축 데이터의 품질을 보증할 예정이다. 주관기관이 구축 과정에서 자체 검증한 데이터를 교차 검증해 데이터 품질을 제고할 예정이다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널