"여보세요" 한마디로 내 목소리 뺏는 AI는 '괴담' [real! AI pro]
AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>
[디지털데일리 이건한 기자] AI 기술이 빠르게 발전하는 요즘, 때때로 믿기 힘든 이야기도 들려옵니다. 지난해는 한때 "모르는 번호로 전화를 받았을 때 '여보세요' 한마디도 함부로 하지 말라"는 경고성 메시지가 돌기도 했는데요. 고도화된 AI가 이젠 통화 중 녹음되는 한두마디의 음성만으로 대상의 목소리를 똑같이 합성하는 '딥보이스' 구현이 가능해졌기 때문이란 설명이었습니다.
그러나 결론부터 말하자면, 이는 불가능에 가깝습니다. AI 음성합성 기술 전문가인 이영근 네오사피엔스 AI 리드에 따르면 그만큼 적은 데이터로 합성 가능한 음성은 아직 한계가 있기 때문이라고 하는데요. 오늘 이야기에선 이영근 리드가 이 같은 저자원 AI 음성합성 구현에 필요한 기술적 조건과 관련 연구 동향 등을 알기 쉽게 전해드립니다.
고작 "여보세요" 한마디만 잘한다면?
안녕하세요, 이영근입니다. 그거 아시나요? 음성합성 AI는 다른 분야보다 AI 모델이나 소스코드 공개 사례가 적은 편에 속합니다. 현재 고도화된 음성합성 모델의 목소리 모사 능력은 생각보다 매우 뛰어난 편인데요. 그만큼 업계에선 이 기술이 무분별하게 공개될 경우 목소리 도용과 같은 부작용이 발생할 수 있다고 우려하기 때문입니다.
그러나 혹자가 말하듯 불과 수분, 극단적으론 초 단위의 적은 음성 데이터만으로 감쪽같은 수준의 딥보이스 구현이 가능하냐 묻는다면, 아직 불가능합니다. 소위 '여보세요 딥보이스'를 구현하려면 다양한 선행 조건이 필요한데요. 우선 그정도의 저자원 데이터로도 작동하는 AI 음성합성 모델이 필요합니다. 또한 그 모델이 자연스러운 결과물을 내려면 다시 모델 '압축'이나 '최적화'도 충분히 이뤄져야 하는데요. 이어서 그 이유를 설명해 드리겠습니다.
일반적으로 AI 모델은 학습 데이터에서 특정한 패턴과 관계를 파악한 뒤 '일반화'하는 방식으로 동작합니다. 일반화란 AI 모델이 이미 학습한 데이터뿐 아니라, 처음 접한 데이터로도 정확한 결과를 도출할 수 있는 능력을 말합니다.
그런데 음성처럼 학습 데이터가 적은 저자원 환경은 일반화 과정에서 그만큼 문제가 더 발생할 수 있습니다. 음성합성 모델의 크기가 아무리 크고 성능이 좋아도, 학습할 데이터가 부족하면 모델이 다양한 패턴을 학습할 기회를 얻지 못하기 때문입니다. 결국 모델은 데이터 전체의 경향성을 파악하는 것이 아니라, 주어진 질문에 대한 답변을 외우는 식으로 학습하게 되는데요. 이는 곧 학습한 데이터만 잘 처리하는 '오버피팅(Overfitting, 과적합)' 문제로 이어지게 됩니다.
만약 오버피팅 문제를 '여보세요 딥보이스'와 연결한다면 어떨까요? 해당 데이터로 만든 음성합성 결과물은 데이터로 주어진 '여보세요' 한마디만 잘하고, 나머지 말은 그리 자연스럽지 못할 가능성이 크다고 볼 수 있을 겁니다.
군살 빼고, 선생에게 배우고… AI 모델 최적화 기법
따라서 저자원 환경에서 고성능 AI를 구현하려면 일단 오버피팅을 줄여야 합니다. 여기엔 두 가지 방법이 있습니다. 모델 크기에 맞춰 데이터를 늘리거나, 저자원 환경에 맞춰 모델 크기를 줄이는 건데요. 보통 데이터가 부족한 경우가 더 많으므로 모델을 압축하는 편이 합리적입니다.
자연스럽게 다음 과제는 AI 모델 압축 및 최적화 기술 연구로 이어집니다. 크게 소프트웨어 측면의 기법과 하드웨어 측면의 기법이 있습니다. 먼저 소프트웨어 측면의 압축은 AI 모델 계산 결과에 영향을 주지 않는 파라미터(모델 내 수학적 변수)를 제거하는 가지치기(Pruning) 기법이 대표적입니다. 쉽게 말해 '모델의 군살을 제거하는 다이어트' 같은 개념입니다. 프루닝이 잘 이뤄지면 기존 모델과 비슷한 성능을 유지하면서 모델 사이즈는 획기적으로 줄일 수 있습니다.
다음은 지식증류(knowledge distillation) 기법입니다. 우선 기존에 만든 큰 크기의 사전학습 AI 모델을 선생님으로, 작은 모델을 학생으로 정의합니다. 이어 학생이 선생 모델의 중간 연산 결과를 따라 학습하도록 하죠. 이 방법은 선생 모델에 학습된 지식을 학생 모델이 효과적으로 흡수할 수 있도록 유도하는 것으로, 역시 작은 모델로 큰 모델에 버금가는 성능을 발휘하게 할 수 있습니다.
또한 'LoRA(Low-Rank Adaptation, 로라)'라고 하여 최근 이미지 생성 분야와 LLM(대형언어모델)에서 널리 쓰이는 기법도 있습니다. AI가 모델 파라미터 내 행렬에서 '데이터 구조를 단순화한 작은 범위의 행렬만 학습'하는 방법인데요. 모델이 실질적으로 작아지는 효과를 내므로 오버피팅 방지는 물론, 학습 중 메모리 사용량과 계산량 등 가동 비용도 줄일 수 있는 미세조정 기법입니다.
하드웨어를 고려한 모델 최적화 방법도 유사합니다. 먼저 필요에 따라 모델 파라미터의 정밀도를 낮추는 방법이 있지요. 정밀도가 낮은 숫자로 표현하면 GPU의 연산도 빨라지고 메모리도 적게 차지합니다. 동시에 성능에 큰 영향을 주지 않는 경향이 있어 쉽게 적용할 수 있는 방법이지요.
또한 하드웨어의 구조를 고려해 연산 속도를 높이는 접근 방식도 최근에 많이 연구되는 추세입니다. 가령 HBM(High Bandwidth Memory) 같은 고속 메모리를 최대한 활용하고, 장치 간 데이터 이동을 줄여 동일한 결과의 연산을 더 빠르게 수행하는 플래시 어탠션(flash attention) 같은 사례가 있습니다. 이는 모두 저희 네오사피엔스에서도 적용 중인 기술로, 나아가 아예 AI 맞춤형 프로세서를 제작하는 방법 또한 불필요한 연산과 메모리 접근을 최적화하는 해법이 될 수 있습니다.
자연스러운 감정 표현은 더 복잡한 문제
이처럼 적은 음성 데이터로 온전한 음성합성 결과물을 만들려면 모델 최적화 단계부터 상당히 많은 공을 들여야 합니다. 또한 불과 2~3초 수준의 음성만 가지고 특정인의 말버릇, 감정 표현과 같은 모든 발화 특성을 구현하는 일도 결코 쉬운 문제가 아닙니다.
보통 음성합성에서 감정까지 구현하려면 음성 제공자가 감정이 실린 발화까지 다 녹음을 해야 합니다. 그런데 과연 '여보세요' 한마디로 피싱이 가능한 수준의 자연스러운 발화와 감정 구현이 가능할지 의문입니다. 사실상 불가능하다고 봐야겠지요. 감정 처리, 표현은 그만큼 복잡하고 어려운 일이기 때문입니다.
실제로 저희가 운영하는 AI 음성합성 플랫폼 '타입캐스트'가 내세우는 경쟁력 중 하나는 매끄러운 감정 처리 능력이 있습니다. 여타의 음성합성 AI 서비스를 써 본 사람들은 알겠지만, 대부분 '기쁨', '슬픔', '분노'처럼 단순한 감정만 구현할 수 있는 경우가 많습니다. 하지만 같은 감정이라도 세기 등 표현 강도와 형태는 모두 다르며, 그것이 음성합성 결과물의 자연스러움을 좌우합니다.
이에 타입캐스트에서는 현재 사용자가 직접 감정을 묘사한 문장을 써서 조절하는 방식까지 제공하는데요. 이 또한 여전히 한계가 있다고 생각됩니다. 그만큼 세밀한 감정처리는 쉽지 않은 문제라, 저희는 아예 사용자에게 원하는 감정이 포함된 예시 음성을 입력받거나 문맥에서 자동으로 감정을 파악해 음성합성에 반영할 수 있는 정도의 기술을 목표로 연구하고 있습니다. 짧은 유튜브 콘텐츠가 아니라, 실제 영화나 드라마에 쓰여도 자연스러울 정도로 말이죠.
이 밖에도 최근 AI 음성합성 기술은 점차 다양한 곳에서 활용 가능한 형태로 연구 개발되고 있습니다. 앞서 말했듯 작은 모델로도 큰 모델 수준의 성능을 내고, 처리 속도도 점차 빨라진다면 AICC(인공지능컨택센터)나 키오스크(무인판매기), 나아가 스마트폰 수준의 온디바이스 환경에서의 음성합성 구현도 기대해 볼 수 있겠습니다. 특히 온디바이스 AI는 개인정보보호의 측면, 빠른 응답 속도에 대한 사용자 수요가 분명하기 때문에 상당히 빠른 속도로 연구가 이뤄질 것이라 봅니다. 즉, 수요와 기술 발전이 맞물린 상황이기 때문에 온디바이스 음성합성 기술 또한 머지않은 미래에 상용화 될 것이란 예측입니다.
[일문일답] 혼돈의 AI 교과서, 출판사들 “정부, 신뢰보호 위반…법적 대응 불사”
2025-01-13 12:44:29AI 교과서 지위 확보 호소 나선 관련업계…"교육격차 막아야"
2025-01-13 11:12:41[주간 클라우드 동향/1월②] AI 내건 국내 SW기업 ‘CES 종횡무진’
2025-01-13 10:23:40현대오토에버, ‘디지털 경험 전문가’ 김지현 DX센터장 영입
2025-01-13 10:23:05케이뱅크, IPO 무산 후폭풍… '개인사업자대출' 확대 제동 걸리나
2025-01-13 10:16:39