AI

목소리까지 복제하는 오픈AI 신기술 ‘보이스 엔진’…출시는 시기상조

최민지 기자
오픈AI 로고 [ⓒ오픈AI]
오픈AI 로고 [ⓒ오픈AI]

[디지털데일리 최민지기자] 챗GPT를 개발한 오픈AI가 이번엔 ‘보이스 엔진’을 공개했다. 인간의 목소리를 모방할 수 있는 신기술이다. 다만, 이 기술을 범용적으로 쓸 경우 오용 가능성 우려가 커지는 만큼, 정식 출시는 미루기로 했다.

오픈AI는 지난 29일(현지시간) 자사 블로그를 통해 15초 분량 음성샘플만으로 원래 화자와 매우 유사한 자연스러운 음성을 생성하는 새로운 인공지능(AI) 도구 ‘보이스 엔진’을 개발했다고 밝혔다.

이날 오픈AI에 따르면 보이스 엔진은 2022년 말 처음 개발해, 이를 텍스트‧음성 변환 애플리케이션 프로그래밍 인터페이스(API), 챗GPT 음성인식 및 읽어주기 기능 강화에 활용했다.

오픈AI는 “15초짜리 단일 음성 샘플로도 감성적이고 사실적인 목소리를 만들 수 있다”며 “이 기술의 용도를 잘 이해하고자, 지난해 말 신뢰할 수 있는 소규모 파트너 그룹과 비공개 테스트를 시작했다”고 말했다.

비공개 테스트 결과, 이 기술을 긍정적으로 활용할 수 있는 분야들이 나타났다. 책을 읽지 못하는 이들과 어린이에게 음성 해설 콘텐츠를 제공하고, 실시간 맞춤형 응답도 생성할 수 있다. 동영상과 팟캐스트 콘텐츠를 여러 언어로 번역해 전세계 서비스에 사용할 수 있다. 특히, 언어에 영향을 미치는 질환이 있는 개인의 치료와 의사소통을 지원하는 사례도 나왔다.

하지만, 오픈AI는 보이스 엔진의 광범위한 출시는 신중해야 한다고 판단했다. 특히 올해는 ‘선거의 해’로 불릴 만큼 전세계 곳곳에서 주요 선거가 예정돼 있다. 만약, 특정인과 유사한 연설을 생성하는 기능이 범용적으로 출시된다면 심각한 위험을 야기할 수도 있다.

실제, 지난 1월 조 바이든 미국 대통령 목소리를 사칭한 가짜 음성이 논란된 바 있다. 미국 대선 관련해 뉴햄프셔 예비경선을 하루 앞두고 민주당 당원에게 투표 거부를 독려하는 내용이라 더 문제가 컸다. 바이든 대통령의 가짜 목소리는 생성형AI로 합성한 것으로 알려졌다.

이에 오픈AI는 안전한 AI를 위해 이번 기술을 미리 보여주기만 하고, 널리 출시하지는 않을 방침이다. 오픈AI는 미국과 해외 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 다양한 분야와 협력해 의견을 반영하기로 했다.

오픈AI는 “보이스 엔진을 테스트하는 파트너는 동의나 법적 권리 없이 다른 개인이나 조직인 척 가장하는 것을 금지하는 사용정책에 동의했다”며 “AI로 생성된 음성임을 청중에게 명확하게 공개해야 하며, 보이스엔진에서 생성된 음성 출처를 추적하는 워터마크 등 안전조치를 구현했다”고 설명했다.

오픈AI는 음성 생성 기술 발전에 대비해 은행계좌나 민감한 정보 접근 권한을 주는 보안 조치에 음성 기반 인증 방식을 단계적으로 폐지할 것을 권고했다. 또한, AI에서 개인 목소리 사용을 보호하기 위한 정책을 만들고, 시청각 콘텐츠 추적 기술 개발을 가속화해야 한다고 주장했다.

오픈AI는 “인조 음성의 책임감 있는 배포, 사회가 새로운 기능에 어떻게 적응할 수 있을지에 관한 대화를 시작하기를 희망한다”며 “궁극적으로 전세계 사람들은 이 기술이 어디로 향하는지 이해하는 것이 중요하다. 정책 입안자, 연구원, 개발자 및 창작자들과 인조 음성 과제와 기회에 대한 대화를 계속 이어가기를 기대한다”고 전했다.

최민지 기자
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널