시리즈

[네이버 어벤저스] ‘기계가 말귀 알아듣게’ 음성인식 조련사들 떴다

이대호
올해 20주년을 맞은 네이버가 상당 폭의 변화를 추진 중이다. 모바일 메인 개편은 여러 실험 끝에 확 달라졌고 동영상 중심의 콘텐츠 제작과 편집, 소비에 이르기까지 끊이지 않는 사용자경험을 위한 체질 개선도 진행 중이다. 창작자 중심의 검색 서비스인 ‘인플루언서 검색’은 내년 초 정식 서비스를 앞뒀다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.

<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’, ‘SRE’, ‘데브옵스’에 이어 여섯 번째 팀 ‘음성인식’ 개발진을 만났다. <편집자 주>


사진 왼쪽부터 네이버 서치앤클로바 스피치(Speech) 팀 권오혁 연구원, 오명우 연구원, 한익상 리더
사진 왼쪽부터 네이버 서치앤클로바 스피치(Speech) 팀 권오혁 연구원, 오명우 연구원, 한익상 리더
[디지털데일리 이대호기자] 누군가에겐 음성 비서가 되고 다른 누군가에겐 말동무, 친구가 되는 네이버. 사람 말귀를 알아들으면서 가능해진 변화다. 네이버가 그린닷 버튼과 웨이브(프렌즈) 스피커를 통해 귀를 텄고 말문을 열었다.

이처럼 생활 속 친근한 네이버가 될 수 있도록 수년째 조련을 이어가고 있는 음성인식 기술 연구원 3인을 만났다. 네이버 서치앤클로바 스피치(Speech) 팀 한익상 리더, 권오혁 연구원, 오명우 연구원이다. 이들 3인이 음성인식 팀을 일궜다. 현재 사내엔 음성인식 기술 관련해 50여명이 일하고 있다.

◆음성검색의 시작 ‘음성인식’=음성검색은 크게 다음과 같은 과정을 거쳐 서비스된다.

▲음성인식 모듈을 통해 사용자의 음성을 문자로 변환한 뒤 ▲언어처리 모듈에서 해당 문자열로부터 사용자의 의도를 해석하고 ▲이를 바탕으로 적합한 답변을 생성, 이를 음성합성을 통해서 소리로 들려주기도 하고 직접 화면에 사용자가 원하는 검색 결과를 출력한다.

한 리더를 포함한 연구원들은 이 가운데 음성인식 모듈 기술을 개발, 고도화하고 있다.

음성인식 모듈은 크게 호출어 인식과 음성쿼리(또는 음성명령) 인식으로 구분되며 다음과 같은 동작 시나리오로 연동된다.

우선 네이버앱(네앱)을 켜면 호출어 인식(미리 설정 시)이 작동하게 된다. 이는 ‘안녕 네이버’라는 특정한 키워드를 감지할 때까지 디바이스(단말) 내에서 동작하는 모듈이다. 해당 호출어가 감지될 경우 이어지는 사용자의 음성이 끝날 때까지 음성을 서버로 보내 사용자의 음성쿼리 내용을 인식하게 된다.

한 리더는 “스피커가 나오면서 ‘안녕 네이버’, ‘헤이 클로바’로 깨어나는 부분이 중요 기술로 들어가기 시작했다”며 “음성인식과 함께 그쪽도 개발하고 있다”고 현황을 전했다. 이어서 “딥뉴럴 네트워크가 단말에서 돌아가면서 소리를 듣다가 호출어 인식 이후엔 서버로 넘겨 의미를 이해한 뒤 사용자에게 액션을 취하게 된다”고 설명했다.

음성인식은 음성검색 앞단의 기술이다. 호출어 인식에 실패하면 음성합성과 자연어처리 등 뒷단의 과정까지 진행되지 않는다. 생활 잡음 속에서 대충 부른 호출어와 대화를 찰떡같이 알아듣도록 만드는 것이 음성인식의 또 하나의 중요 과제이기도 하다.

◆‘따로 또 같이’ 음성인식도 유행 탄다=음성쿼리 인식은 일반적으로 3개 모델이 합쳐져서 이뤄진다. ▲각 음소 자체를 통계적으로 모델링하는 음향모델과 ▲각 단어가 어떤 음소들로 구성되어 있는 지를 기록해둔 발음모델 ▲각 단어들이 어떤 조합으로 문장을 만들어 낼 수 있는 지를 나타내는 언어모델로 구성돼 있다.

오명우 연구원은 “3개 모델이 순서대로 실행된다”며 “각자 학습이 효율적으로 이뤄질 수 있도록 규칙대로 고정하고 쓴다”고 말했다. 물론 상황에 따라 적절한 모델링을 쓰게 된다.

최근엔 엔트투엔드 딥러닝이 개발돼 3개 모델을 합치기도 한다. 전체 과정을 보고 모델링을 단순화, 최적화하는 방식으로 한 번에 학습이 이뤄진다. 이 분야 최신 유행으로 꼽힌다. 네이버도 연구 중으로 일부 음성인식 기술엔 이 같은 방식을 채택했다고 한 리더는 전했다.

◆음성 데이터는 다다익선=음향모델의 고도화를 위해선 다양한 소리를 모아야 한다. 데이터는 많을수록 좋다. 이른바 ‘다다익선’이다. 이 같은 데이터를 가장 많이 가진 회사가 네이버이기도 하다. 현재 음성인식 팀은 사투리 음성 데이터까지도 보고 있다.

한 리더는 “아직은 사투리에 취약하다”며 “일반적인 사투리는 DB(데이터베이스)에 포함되지만 제주도 방언은 모은 적이 없다”고 말했다. 그는 “목소리만 모으는 게 아니라 문장 패턴도 모아야 한다. 서비스 확장되는 것에 맞춰 모을 생각”이라고 밝혔다.

<다음 기사에서 계속됩니다>

<이대호 기자>ldhdd@ddaily.co.kr
이대호
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널