다음카카오, 음성합성 엔진 ‘뉴톤 톡’ 음색 강화
- 자체 개발 한국어 운율 적용…일상적 음성 표현 가능
[디지털데일리 이대호기자] 다음카카오(www.daumkakao.com 공동대표 최세훈, 이석우)는 음성 합성 오픈 API(애플리케이션 프로그래밍 인터페이스) ‘뉴톤 톡(Newtone Talk)’의 낭독체 음성을 개선하고 대화체를 추가 제공한다고 17일 밝혔다.
뉴톤 톡은 다음카카오가 지난 6월, 기본 낭독체를 탑재해 첫 선을 보인 음성 합성 엔진으로 입력된 문장을 음성으로 변환해준다. 자체 개발한 한국어 운율 모델을 이용해서 사람의 발성을 재현하고, 대용량·자동화 처리 기술에 의해 다양한 한국어 문장을 빠르게 학습하고 운율을 예측하기 때문에 효율적이라는 게 회사 측 설명이다.
다음카카오는 뉴톤 톡의 새로운 낭독체가 사람이 읽어주듯 자연스러운 음성이 특징이라고 밝혔다. 밝고 부드러운 음색의 성우가 기존 낭독체보다 2배 이상 많은 문장을 녹음한 데이터를 이용했기 때문에 어떠한 문장 조합에도 유연하게 대응할 수 있으며 음질 향상을 위해 합성 방법을 목소리의 여러 주파수 별 파형을 조합하는 방식으로 바꿔서 딱딱한 기계음이 만들어질 가능성을 최소화했다고 강조했다.
예를 들어 ‘안녕’이라는 단어가 문장 앞 부분에 있을 경우 끝 음을 올리고, 문장 중간에 포함될 경우 앞뒤 단어와의 연결에 따라 끝 음을 내리거나 동일 음조로 처리하는 식이다.
다음카카오 구동욱 음성처리파트장은 “뉴스나 책 구절 등의 장문 낭독을 대신하거나 모바일 메시지를 대화체 음성으로 변환하고, 시각 장애인을 위한 생활형 서비스를 개발하는 등 다양한 영역에서 뉴톤 톡의 기능이 활용될 수 있다”며 “뉴톤 톡의 지속적인 강화와 사용 확대가 모바일 환경에서 음성 기술 영역 전반의 발전을 이끌게 될 것”이라고 말했다.
뉴톤 톡은 한 번에 최대 30초 분량의 음성을 합성하고, 입력된 글자의 분석부터 음성화까지 0.1초 안에 처리한다. 현재 뉴톤 톡에서는 남녀 화자 각 하나씩의 낭독·대화 음성으로 총 4개의 음색을 사용할 수 있다.
뉴톤 톡 API는 누구나 다음 개발자 네트워크(http://dna.daum.net/affiliate/newtone)에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다.
<이대호 기자>ldhdd@ddaily.co.kr
[2024 IT혁신상품] AI 협업부터 비정형데이터 보호까지…지란지교그룹 '각개약진'
2024-12-19 18:33:01비트코인, 1억5000만원대 유지…RWA NOVA 코인, 비트마트에 신규 상장
2024-12-19 18:06:07'계엄군 점거' 서버 살펴본 선관위 보안자문위…"침입 흔적 없다"
2024-12-19 17:56:25[현장] 티빙·웨이브 합병 두고 CEO별 온도차…"주주 동의 필요 vs 無 관여"
2024-12-19 17:13:57[DD퇴근길] 갈길 먼 AI 기본법…바디프랜드, '가구' 선보인 이유는
2024-12-19 16:52:18