플리토, 국립국어원 말뭉치 구축 사업 5년 연속 유일 참여... 누적 수주액 115억원
[디지털데일리 이건한 기자] AI 언어 데이터 기업 플리토가 국립국어원이 주관하는 '한국어-외국어 병렬 말뭉치 구축 사업' 수행 기업으로 5년 연속 선정됐다고 19일 밝혔다. 플리토는 이로써 해당 사업 5개년 계획에 전부 참여한 유일한 기업이 됐다. 5년간 누적 수주액은 115억원에 달한다.
병렬 말뭉치(Parallel Corpus)는 2개 이상의 언어로 번역된 문장 쌍이 포함된 언어 데이터베이스다. AI 번역을 위한 자연어처리(NLP)의 핵심 요소 중 하나다. '한국어-외국어 병렬 말뭉치 구축 사업'은 국립국어원이 AI 시장에서 한국 언어문화의 데이터 주권을 지키면서 한국형 AI 기술 개발을 지원하기 위해 추진하고 있다.
플리토는 본 사업의 1차 중장기 5개년 계획에서 총 5500만개에 달하는 어절을 구축했다. 올해 사업은 주 수행 기관인 경희대학교 산학협력단과 협력하는 형태로 진행되며 총 사업 규모 42억원 중 플리토가 20억원 9000만원 규모의 병렬 말뭉치 구축을 맡는다. 사업비의 약 절반을 확보한 셈이다. 이번 사업에서는 ▲베트남어 ▲인도네시아어 ▲태국어 ▲힌디어 ▲크메르어 ▲타갈로그어 ▲러시아어 ▲우즈베크어 ▲영어 등 9개 언어에 대한 900만 어절 규모의 병렬 말뭉치를 구축할 예정이다.
구축된 언어 데이터는 AI 기반 언어 문화 산업 진흥을 위한 정부 주도 기술 개발에 활용된다. 특히 이번 사업에서 아세안-인도 지역과 유라시아 지역의 저자원 언어 데이터로 풍부하게 구축됨에 따라 데이터 불균형이 해소되고, 국가 간 언어문화 교류 활성화에도 기여할 것으로 예상된다. 구축된 언어 데이터는 국립국어원이 운영하는 언어정보나눔터 통합시스템 모두의 말뭉치에서 확인할 수 있다. 언어 정보 처리 분야에 응용하기 위한 연구 및 기술 개발과 저자원 언어 데이터 시장 진출을 모색하는 기업들이 활용할 수 있다.
이정수 플리토 대표는 "플리토의 언어 데이터 구축 경험과 전문성을 인정받아 5년 연속 사업을 수행하게 되어 뜻깊다"며 "정부가 육성하는 언어 데이터 산업에서 차별화된 고품질 언어 데이터를 지속해 공급함으로써 한국형 AI 기술의 글로벌 경쟁력 확충에 기여하겠다"고 말했다.
‘6G 첫발’ 3GPP 워크숍, 어떤 이야기 오갔나 [IT클로즈업]
2025-03-19 18:53:05“의사정족수 3인 방통위법 거부, 합의제기구 성격 무시한 결정”
2025-03-19 18:52:04우리투자증권, 종합증권사 도약 기반 마련… 금융위, '투자매매업' 본인가
2025-03-19 18:03:15삼성생명, 결국 삼성화재를 자회사로 편입… 금융위, 편입안건 의결
2025-03-19 17:28:03[DD퇴근길] 고개 숙인 삼성, "HBM·AI 반도체, 더 분발하겠다"
2025-03-19 17:21:15