ETRI, AI 서비스 개발 돕는 한국어 최첨단 언어모델 공개

컨버전스

디지털데일리 발행일 2019-06-11 11:09:02

채수웅

[디지털데일리 채수웅기자] 과학기술정보통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 최첨단 한국어 언어모델을 공개했다. 인공지능(AI) 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발이 한층 고도화될 것으로 전망된다.

11일 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 홈페이지를 통해 공개했다.

연구진이 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 교착어 특성까지 반영한 언어모델도 만들었다. ETRI는 하반기에 ‘법령분야 질의응답 API’를 추가 공개하고 ‘유사 특허 지능형 분석 기술’도 출시한다는 계획이다.

그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 ‘버트’(BERT)를 사용했다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. ETRI 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있다. 아울러, 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어다. 이에 연구진은 한국어의 의미 최소 단위인 형태소까지 고려해 한국어 특성을 최대한 반영한 언어모델을 만들었다. 연구진은 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다고 설명했다.

개발된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며 공공인공지능 오픈 API‧데이터 서비스 포털에서 쉽게 찾아볼 수 있다.

엑소브레인 사업의 총괄책임자인 ETRI 김현기 박사는 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다”고 말했다.

<채수웅 기자>woong@ddaily.co.kr

채수웅

woong@ddaily.co.kr

기자의 전체기사 보기

당신이 좋아할 만한 뉴스

연재기사

실시간 추천 뉴스

항공우주·에너지 종사자 노리는 北…"채용 담당자 위장해 사이버 공격"
2024-09-21 09:15:42
금감원 신임 부원장에 김병칠 부원장보...공채 출신 임원도 탄생
2024-09-20 19:57:05
[부고] 한민옥(디지털투데이 편집국장)씨 모친상
2024-09-20 19:50:04
아이폰16 공시지원금, 전작과 비교해보니…"기본 모델은 낮아져"
2024-09-20 19:39:53
오징어게임2, 새 게임은 '이것'?…티저 영상에 '힌트' 있다
2024-09-20 19:37:56

회사명: ㈜디지털데일리｜제호: 디지털데일리｜등록번호 : 서울아00039｜등록발행연월일: 2005년 9월 6일｜사업자 등록번호: 101-86-13419
주소: (04057)서울특별시 마포구 신촌로14길 24(노고산동 54-46)｜대표전화: 02-334-7781｜Fax: 02-334-7782
대표자: 양경진｜편집국장: 채수웅｜개인정보·청소년보호책임자: 오주엽

뉴스

뉴스

기획/특집

부가서비스

당신이 좋아할 만한 뉴스

많이 본 기사

연재기사

실시간 추천 뉴스