시리즈

[네이버 어벤저스] 우리는 ‘클로바 보이스 원(One)팀’입니다

이대호
네이버가 지난해부터 모바일 메인 개편에 이어 동영상 중심의 사용자경험을 위한 체질 개선, 창작자가 검색의 주인공이 되는 ‘인플루언서 검색’ 등 여러 굵직한 변화를 추진하고 있다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.

<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’, ‘SRE’, ‘데브옵스’, ‘음성인식’에 이어 이번엔 ‘클로바더빙’ 개발진을 만났다. <편집자 주>


네이버 클로바 보이스 김재민 리더(가운데), 손정민 연구원(왼쪽), 이봉준 연구원
네이버 클로바 보이스 김재민 리더(가운데), 손정민 연구원(왼쪽), 이봉준 연구원
[디지털데일리 이대호기자] “합쳐지니 시너지가 엄청나다” 김재민 클로바 보이스(Clova Voice) 리더<사진 가운데>는 <디지털데일리> 인터뷰를 통해 단시일 내 음성합성 기술 수준을 끌어올리고 일반 대상의 쉬운 음성합성 플랫폼을 선보인 것에 대해 힘줘 말했다.

여기서 ‘합쳤다’는 표현은 여러 인재들을 원(One)팀으로 묶었다는 말이다. 각종 음성합성시스템(Unit selection, DNN, End-to-end 등 TTS) 기술을 클로바 보이스 하나의 팀에서 협업, 연구 중이다. 회사 측은 “각기 다른 기술 분야에 대해 잘하고 있는 사람들이 모여 좋은 결과를 냈다”고 설명했다.

구글과 텐센트 등 굴지의 글로벌 정보기술(IT) 기업은 물론 이 분야 전통적 유력 기업인 미국 뉘앙스커뮤니케이션의 기술 인력과 클로바 보이스 팀 간 규모 비교는 불가하다. 경쟁사엔 관련 인력만 수백, 수천명 수준이다. 김 리더는 “(알파고를 만든 구글 자회사) 딥마인드만 해도 여러 파트를 나눈 팀들이 있다”며 경쟁 현황을 전했다.

◆기업 간 음성합성 기술 경쟁 치열

김 리더에 따르면 음성합성 기술은 권역마다 유력 기업이 있다. 미국엔 뉘앙스커뮤니케이션, 중국엔 아이플라이텍(iFLYTEK), 유럽엔 이보나(IVONA Software), 국내엔 네이버 등이 있는 식이다. 중국 바이두도 수천명의 인력을 두고 기술 개발에 매진하고 있다. 이보나는 미국 아마존에 인수됐다.

애플은 AI 비서 시리(Siri)에 미국 뉘앙스 기술을 활용했다. 구글은 자체 음성합성팀을 운영 중이다. 지금은 구글이 음성합성 분야 최강자로 평가된다.

이처럼 대부분 유력 정보기술(IT) 기업들이 인공지능(AI) 음성 기술을 연구하거나 확보하기 위해 고군분투 중이다. 음성이 터치만큼 인간에게 자연스러운 인터페이스인 까닭이다. 다양한 시장과 연결돼 발전하기 쉽다. 기업마다 AI 스피커가 나온 이유이기도 하다.

◆관련 경험 없어도 핵심 인재들 모였더니 ‘시너지 효과’

현재 클로바더빙의 핵심 기반 기술인 NES(Natural End–to-end Speech Synthesis) 팀엔 음성합성기 개발 경험이 없는 인력들이 모였다. 그런데도 약 40분 목소리 녹음으로 기쁨과 슬픔 등 감정이 반영된 가운데 실제 음성과 닮은 합성음을 만들어낼 정도로 기술 수준을 끌어올렸다. 더 적은 녹음량으로 일정 수준 이상의 음성합성 결과물을 내기 위한 기술 개발은 계속 이어진다.

이봉준 연구원<사진 오른쪽>은 네이버에서 NES 첫삽을 뜬 팀원이다. 이 연구원이 이끈 NES 팀의 기술 노하우와 손정민 클로바더빙 연구원(개발자) 등이 몸담은 클로바 보이스 팀이 시너지 효과를 내면서 결과물이 나왔다.

손정민 연구원은 클로버더빙 개발과 서비스를 같이 담당한다. 네이버 내에서 개발과 서비스를 같이 담당하는 곳은 많지 않다. 손 연구원은 “어려운 기술을 일반 사용자에게 친숙하게 제공하는 재미와 보람을 느끼고 있다”며 “팀원 간 활발한 소통이 좋은 성과로 나온다고 생각한다”고 말했다.

◆“소통 활발, 서슴없이 도움 주고받아…네이버로 오세요”

인터뷰에 나선 클로바 보이스 팀 3인은 ‘인재 구인’에 강한 의지를 보였다. 김 리더는 “국내에서 음성합성 전공자는 손에 꼽는다. 연구실이 5곳이 채 안되고 졸업자 자체가 몇 명 안된다”며 척박한 국내 환경을 전했다.

이런 가운데 기업 간 인재 확보 경쟁은 치열하다. 네이버는 물론 카카오, 삼성전자, 현대자동차 등 국내 유력 기업들도 모두 AI 음성 기술을 연구 중이다.

김 리더는 “전산 전공자가 음성합성에 도전하면 좋을 것”이라고 말했다. 손 연구원은 “음성합성 자체에 관심이 있다는 게 가장 큰 부분”이라며 “합성을 해본 적이 없더라도 이쪽 분야를 해보고 싶다는 게 중요하다. 신호처리, 언어처리, 전산 등이 결합된다”고 부연했다.

이 연구원은 “네이버엔 신호처리하시는 분들, HDTS, 언어처리가 강화된 엔보이스, NES, 엔드투엔드 TTS, 백엔드 개발 서비스 등이 다 있다”며 “음성합성에 관심이 있다면 다 할 수 있는 상황”이라고 강조했다.

손 연구원은 “다른 영역의 기술이지만 한 팀 안에 있다보니 커뮤니케이션이 활발하고 서슴없이 도와주고 도움을 받는 문화가 자연스럽게 있다. 유관부서 피드백도 좋다”고 웃으며 내부 분위기를 전했다.

<이대호 기자>ldhdd@ddaily.co.kr
이대호
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널