컨버전스

KT ‘AI 음성분리’, 테러부터 산업현장까지 활용분야 무궁무진

최민지
[디지털데일리 최민지기자] 서울 서초구 우면동에 위치한 KT 연구개발센터에는 작은 방이 있다. 가정집 거실을 그대로 옮겨놓은 이곳에서 청소기 3대를 작동시키고 주방에서 들리는 물소리까지 더해 생활소음을 극대화했다. 옆 사람 목소리도 잘 들리지 않는 시끄러운 상황. 두 사람이 동시에 “안녕하세요” “내일 날씨 알려줘”라고 말했다. KT 연구원의 클릭 한 번에 청소기, 설거지 소리는 사라지고 각각의 음성만 나눠 들을 수 있었다.

이는 KT에서 고도화하고 있는 인공지능(AI) 분리기술이다. 잡음까지 제거하면서 음성을 분리하는 기술을 선보인 곳은 KT가 처음이다. KT 융합기술원 서비스연구소 약 8명 직원이 이 프로젝트에 매달려 있다. 박사급 인원들이 포함됐고, 1995년부터 음성전처리, 음성인식 기술 등을 연구해 온 류창선 수석연구원도 합류했다. 이들이 매일같이 작은 방에 모여 청소기를 틀고 음성을 분리하는 이유는 무엇일까?

AI 음성분리를 다양한 산업영역으로 확대해 활용할 수 있는 방안이 무궁무진하기 때문이다. KT는 향후 4년간 3000억원을 투입해 AI 기술을 개발해 ‘AI 기업’으로 탈바꿈한다고 선언한 바 있는데, AI 음성분리는 이를 위한 다양한 AI 서비스의 기반 기술과도 같다. 단순히 AI 스피커의 음성인식률 향상뿐 아니라 스마트팩토리, 의료, 안전까지 사회 전반으로 확대할 수 있다.

예를 들어, 미디어분야를 살펴보면 뉴스 등에서 해외연사가 발표하는 장면이 나올 때 보통 한국어 통역을 동시에 제공한다. 외국어와 한국어가 한 번에 나오는데, 사용자에 따라 필요한 언어만 골라 들을 수 있게 된다. 이 기술은 언어에 종속되지 않고 음성을 분리한다는 특성을 지니고 있기 때문이다. 노래나 연주를 듣다 필요한 악기 소리만 골라내 듣는 것도 가능하다.

사회안전 및 생명에도 영향을 미칠 수 있다. 테러 상황이 발생했을 때 스마트폰에 도입된 AI 음성분리 기술을 통해 카메라를 구동하지 않아도 주변 소리를 분석할 수 있다. 사이렌이 울리고 사람들이 비명을 지르는 등 동시다발적으로 펼쳐지는 각종 소리를 분리해 장소와 위급상황 등을 파악할 수 있다는 설명이다. 또한, 병원에서는 사람의 숨소리와 심장 박동소리 등을 분리해 좀 더 정밀하게 환자를 진료할 수 있다.

향후 산업현장에서도 활용할 수 있다. 시끄러운 기계소리 속에서 상호 소통할 때 기존에는 문자메시지 등을 이용했다. 그러나 잡음을 제거할 수 있게 되면 양손이 자유로운 상태에서 통화와 같은 방식으로 소통하게 된다.

류창선 수석연구원은 “시끄러운 상황에서도 집중하는 곳의 소리가 더 크게 들리는 것을 칵테일파티 효과라고 한다. KT는 이를 대입해 AI로 지능화한 청각지능을 구현하려고 한다”며 “스마트홈뿐 아니라, 스마트팩토리, 의료, 안전, 자율주행에서도 각광받을 수 있다”고 강조했다.

이성재 선임연구원은 “마이크 4~6개가 필요하고 특정 범위 내에서만 작동하는 빔포밍 기술이나 입모양을 카메라 정보로 확인하면서 음성을 인식하는 기술들과 비교했을 때, 소프트웨어 기반 KT AI 분리기술은 마이크 하나로 가능한 가장 쉽지만 어려운 기술”이라며 “단말에서 음성을 저장하지 않고 처리할 수 있도록 해 보안을 높였고, 알고리즘을 경량화하고 적은 비용으로 소프트웨어가 작동될 수 있도록 지속적으로 연구하겠다”고 전했다.

<최민지 기자>cmj@ddaily.co.kr
최민지
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널