일반

"그게 AI 목소리였어?" 실용성 끝판왕 '음성합성' 기술동향 [real! AI pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은 것'을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 최근 오픈AI가 공개한 챗GPT의 고급음성모드를 사용해 보았나요? 이제는 실제 사람과 구분하기 어려울 만큼 정확한 발음과 톤, 실시간 응답성을 보여 놀라움을 자아냅니다. 미국 인공지능(AI)임에도 한국 지역 사투리는 물론, 감정표현도 어색함이 없는 수준이죠.

MBC '놀면뭐하니' 2022년 12월31일 방송에서는 30년전 사고로 세상을 떠난 남편의 목소리가 담긴 테이프 목소리 복원 과정이 담겼다. 네오사피엔스를 비롯한 음성기술 전문업체들의 협업한 결과물이었다.[ⓒ 놀면 뭐하니? 유튜브 채널 갈무리]
MBC '놀면뭐하니' 2022년 12월31일 방송에서는 30년전 사고로 세상을 떠난 남편의 목소리가 담긴 테이프 목소리 복원 과정이 담겼다. 네오사피엔스를 비롯한 음성기술 전문업체들의 협업한 결과물이었다.[ⓒ 놀면 뭐하니? 유튜브 채널 갈무리]

또한 음성합성 기술은 이미 2년 전에도 망가진 카세트테이프에서 음성 데이터를 추출해 고음질 음원으로 복원하고, 고인의 목소리로 음성합성 편지까지 제작해낼 만큼 상당한 발전이 이뤄진 상태였습니다. 이런 음성합성은 일부 논란과 별개로, 현재까지 AI의 수혜를 가장 크게 본 기술 영역 중 하나로 꼽힙니다. 아직까지 완전한 통제가 불가능한 이미지, 영상 생성 AI와 달리 상대적으로 정해진 문장과 문법 안에서 작동하므로 안전성은 높으면서도 품질과 생산성은 전보다 월등한 모습을 보이거든요.

실제로 요즘 우리가 요즘 유튜브, 틱톡 등 영상 SNS에서 심심찮게 듣는 음성들 중 상당수가 사람이 아닌 AI로 합성 및 생성되고 있다는 사실을 아시나요? 저 역시 그동안 취재 중 "이것도 합성된 음성이었다고?"하며 놀란 일이 적지 않았습니다.

이에 요즘은 '영상미' 못지않게 '음성미'란 말이 이상하지 않을 만큼 콘텐츠의 품질을 좌우하는 요소로서, AI와의 소통 품질을 높이는 핵심 요소로서 음성합성에 대한 주목도가 높아지고 있습니다. 관련하여 무엇이 현재와 같은 고품질 음성합성 기술의 토대가 되었는지, 향후 동향과 전망은 어떨지 AI 음성합성 기술 전문가인 이영근 네오사피엔스 AI 리드에게 들어보겠습니다.

이영근 리드는 카이스트 석·박사를 거쳐 음성합성 기술 분야에서 두각을 드러낸 젊은 AI 전문가입니다. 현재 국내외에서 200만명 이상이 활용하는 생성형 AI 기반 음성합성 콘텐츠 제작 플랫폼 '타입캐스트' 개발사인 네오사피엔스의 AI 기술 리더로 근무 중인데요. 음성합성 기술의 고도화, 실용성 양면 모두에서 기여하며 업계의 주목을 받는 전문가로 꼽힙니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

기억하세요? 이젠 '추억'이 된 기계식 음성

안녕하세요, 이영근입니다. 음성합성, 꽤 오래된 기술이죠. 2000년대 초반만 해도 특유의 기계 느낌이 물씬 나는 컴퓨터 프로그램 기반 음성합성 콘텐츠가 웹 2.0, UCC(사용자제작콘텐츠) 열풍과 함께 인기를 끌기도 했습니다. 특히 2009년 방영된 tvN 예능 '롤러코스터'의 '남녀탐구생활'은 아예 성우가 음성합성 프로그램 특유의 톤을 실제로 구현한 듯한 내레이션을 선보여 큰 인기를 끈 기억도 나네요.

그런데 그와 같은 기계식 톤은 이제 과거의 향수가 됐습니다. 아마 요즘 아이들에겐 남녀탐구생활을 보여줘도 '내레이션이 특이하다' 정도만 생각할지 모르겠습니다. 그 뒤 불과 10년 사이 음성합성 기술은 놀라울 정도의 성장이 이뤄졌기 때문인데요. 터닝포인트는 바로 심층 AI 기계학습 기법, 딥러닝과의 만남이었습니다.

과거의 음성합성 분야는 '음성 신호처리'와 '언어학'에 대한 지식을 활용해 사람이 직접 음성 데이터를 세밀하게 분석한 뒤, 각 발음에 대응하는 음성을 이어 붙이는 방식, 혹은 통계적 모델을 사용해 자연스러운 느낌이 나도록 붙이는 방식이 주로 사용됐습니다.

그런데, 고성능 기계학습 기법인 딥러닝 등장 이후 AI 모델이 음성이나 언어학 지식 없이도 데이터에서 자연스러운 발화 구현에 필요한 특징을 만들어내는 것이 가능해졌습니다. 심지어 딥러닝 기반 AI가 기존에 인간 전문가가 디자인한 특징 요소를 활용하는 모델보다 자연스러운 음성을 만들어내기 시작하면서 관련 연구가 더욱 활발해졌고요, 지금까지 지속적인 품질 향상이 이뤄지고 있습니다.

고품질 음성의 바탕은 역시 '대규모 데이터'

딥러닝뿐 아니라, 지금은 챗GPT와 같은 생성형 AI 카테고리의 대형언어모델(LLM)이 대량의 학습 데이터를 사용하고 모델의 크기를 키울수록 성능이 향상된다는 사실이 여러 연구를 통해 입증된 시점입니다. 특히 LLM은 스마트폰의 텍스트 자동완성 기능과 유사하게 앞서 나온 텍스트를 바탕으로 다음 텍스트를 예측해 생성하는 것이 기본인데요. 지금은 음성합성도 비슷한 방식이 적용되어 이 분야에서도 양질의 대규모 데이터를 사용하고 모델 크기를 키울수록 인간에 더 가까운 음성생성이 이뤄지고 있습니다.

바로 지금, 가장 활용성 좋은 AI

AI 기반 음성합성, 생성 기술에 우리가 특히 더 주목할 이유는 바로 현시점에서 가장 생산성에 도움이 되면서 실효성 있는 비즈니스도 이뤄지는 시장에 속해 있기 때문이기도 합니다.

요즘 'AI 거품론'이 세계적으로 대두하고 있죠. AI 기술 투자에 막대한 비용은 쏟아붓는데 막상 생산성이 높지 않고 수익성은 저조하단 인식이 확산된 까닭입니다. 하지만 음성합성은 다릅니다. 이미 유튜브와 같은 플랫폼에서 많은 콘텐츠가 음성합성으로 제작되는 중이고, 소비자들도 이런 콘텐츠를 활발하고 거부감 없이 소비하고 있다는 점에서 그 가치는 분명히 입증되고 있거든요.

현재 225개국에서 175만명 이상의 콘텐츠 크리에이터 가입자를 확보한 저희 네오사피엔스의 AI 음성합성 기반 콘텐츠 제작 플랫폼 '타입캐스트'도 이미 540개 이상의 AI 기반 캐릭터와 특징적 음성합성 서비스를 제공하고 있는데요. 유료 구독자 수가 지난 4년간 105배나 성장했단 점만 봐도 실제 사용자들이 음성합성 기술을 굉장히 유용하게, 필요를 갖고 쓰고 있단 사실이 잘 드러납니다. 또한 평소 영상 콘텐츠를 즐겨 시청하는 분들은 저희의 인기 캐릭터 음성을 들려주면 대부분 "들어본 적 있다"고 기억하실 정도이기도 합니다.

타입캐스트 사용자인터페이스(UI)와 인기 캐릭터들 [ⓒ 네오사피엔스]
타입캐스트 사용자인터페이스(UI)와 인기 캐릭터들 [ⓒ 네오사피엔스]

무엇보다 콘텐츠 제작자 입장에서 보면 고가의 녹음 장비를 구비하고, 방음 시설 없이도 텍스트 입력만으로 고품질 음성 생성이 가능한 점은 매우 유용하다는 피드백이 나옵니다. 혹은 기업이 전문성을 위해 성우를 고용하는 경우와 비교해도 녹음 일정을 맞추고, 수정하는 과정에서 상당한 돈과 시간이 드는 문제도 건너뛸 수 있고요. 이처럼 지금도 실전에서 상업적 가치를 충분히 입증하며 지속적 성장까지 이뤄지고 있는 점이 음성합성 및 생성 AI가 여전히 논란과 허점이 많은 다른 분야의 AI보다 앞선 부분이라 자신 있게 말씀드릴 수 있겠습니다.

아, 물론 이런 AI가 기존 성우들의 일자리를 뺏는 건 아니냐는 우려도 있는데요. 이는 서비스 기업의 상생 의지만 충분하면 오히려 서로 시너지 효과로 이어질 수 있습니다. 타입캐스트에서 서비스 중인 목소리도 이미 모두 성우들과 계약이 되어 있어서, 그 목소리가 쓰인 만큼 금전적 보상을 받고 있죠. 이는 성우들 입장에서도 시간, 건강상의 제약 없이도 추가 수익을 올릴 수 있다는 점에서 오히려 타입캐스트를 먼저 찾아오는 분들이 있을 정도입니다.

음성합성의 다음 과제는 '제어의 자유'

앞서 언급했듯 지금의 음성합성 기술은 꽤 자연스러운 음성을 만듭니다. 그러나 여전히 특정한 감정표현이나 말하는 속도의 조절, 말끝의 높낮이나 길이 조절 등 자연스러움을 좌우하는 세부적 요소에서는 사용자가 원하는 만큼 정밀한 제어가 어렵다는 한계도 존재합니다. 문제는 이런 조절이 제한되는 만큼 광범위한 음성합성 기술의 사용 범위도 그만큼 줄어드는 점이죠. 실제로 사용자들이 가장 공통적으로 주시는 개선점도 보다 정교한 음성 조절에 관한 것들입니다.

이에 관해선 저희도 지속적인 연구를 통해 개선 방안을 모색 중입니다. 지금까지 음성합성에서 감정을 조절하는 방법으론 주로 '기쁨'이나 '슬픔' 같은 감정 분류를 키워드로 추가하는 방법이 주로 쓰였는데요. 인간의 감정은 이렇게 이분법적으로 나뉘지 않고, 심지어 연속적으로 변하기 때문에 미묘한 감정 변화를 모두 반영하는 일에도 한계가 따릅니다.

따라서 저희는 현재 다양하고 세밀한 감정을 자연어로 입력받아 적용할 수 있도록 함으로써, 제작자에게 더 높은 음성조절의 자유도를 제공하는 연구를 진행 중인데요. 이처럼 콘텐츠 제작자에게 얼마나 더 쉽고, 더 정교한 수준의 음성제어 통제권을 제공할 수 있는지가 앞으로 이 시장의 주요 경쟁 포인트가 될 가능성이 높은 상황입니다.

이미 유명 콘텐츠 제작 채널에서도 널리 쓰이는 음성합성 AI. 보다 섬세한 제어 기능이 개발될 경우 더 많은 영역에서 활약할 것으로 기대된다. [ⓒ 네오사피엔스]
이미 유명 콘텐츠 제작 채널에서도 널리 쓰이는 음성합성 AI. 보다 섬세한 제어 기능이 개발될 경우 더 많은 영역에서 활약할 것으로 기대된다. [ⓒ 네오사피엔스]

AI 악용한 '딥보이스' 어떻게 막을까?

한편으로 고도화된 AI 음성합성 기술을 보이스피싱이나 딥보이스에 악용하는 사례도 늘어나고 있어 안타까움을 느낍니다. 솔직히, 아직은 이를 완벽하게 차단할 방법은 없기도 합니다. 다만 관련 업계에서도 최근 논란이 된 딥페이크 영상 판별 솔루션과 유사한 방식의 연구가 진행되고 있습니다.

예컨대 목소리 도용을 방지하기 위해 유명인의 음성을 미리 데이터베이스(DB)에 저장해두고, 새로운 음성 모델링 요청이 들어올 때 해당 음성이 기존 유명인의 목소리와 일치하는지 확인하는 방식을 적용할 수 있습니다. 가정이지만, 나중에는 각 개인도 자신의 음성을 미리 DB화함으로써 도용 가능성을 최소화하는 것이 일반화된 시대가 올 수도 있겠습니다.

나아가 음성 모델링을 의뢰하는 사용자의 신원 확인과 본인인증 절차를 더 엄격히 시행하는 방법도 있습니다. 다만 이런 방법은 사용자에게 불편을 줄 수 있어 서비스 기획자들은 신중한 고려가 필요할 것으로 보입니다.

이밖에 자연어처리(NLP) 기술을 이용해 사용자가 음성합성을 위해 입력한 텍스트 내용을 분석함으로써 부적절한 내용을 필터링하는 기술도 도움이 될 수 있습니다. 대신 이 과정 또한 사용자의 프라이버시와 자유를 침해하지 않도록 적절한 선을 만드는 노력 또한 중요할 것입니다.

이면을 넘어, 긍정적 미래를 꿈꾸며

이런 어두운 면과 부작용을 근절하는 노력이 충분한 효과를 거둔다면, 저희는 지금보다 더 풍성해질 AI 음성합성 산업의 미래를 충분히 기대해 볼 수 있습니다.

특히 기존 영상을 다른 언어로 번역하고, 음성을 더빙하는 자동 번역 및 더빙 기술의 프로토타입은 이전부터 있었습니다. 하지만 아직 완벽한 수준이라 보기 어려운데, 지금 같은 기술발전 속도라면 앞으로 AI가 영상의 상황과 전체적인 맥락까지 파악해 더 자연스러운 음성합성 결과물을 만드는 일도 충분히 가능할 것으로 보고 있습니다.

이 경우, 하나의 언어로 제작된 콘텐츠가 더 다양한 언어로 번역되어 자막 없이도 여러 나라에서 쉽게 소비될 수 있을 텐데요. 한국처럼 고유의 언어를 사용해 방대한 영어권 자료 접근성이 낮았던 곳에서는 그 효용이 더욱 클 것으로 기대됩니다. 또한 이미 활성화된 AI 기반 고객 응대, AI 버출 유튜버와 같은 신생 서비스 및 콘텐츠 산업의 볼륨도 고도화된 음성합성 AI가 주는 '음성미'를 바탕으로 더욱 크게 성장할 것으로 예상됩니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널