딜라이트닷넷

[딜라이트닷넷] 영상합성 기술 어떻게 이뤄지나?

이상일

[IT전문 미디어블로그=딜라이트닷넷] 인공지능 스타트업 머니브레인이 인공지능을 기반으로 사람의 목소리와 얼굴을 똑같이 합성해 새로운 영상을 만들어내는 기술을 선보였다.

이 기술은 특정 인물이 등장하는 영상을 AI 기술로 학습, 당사자와 똑같은 말투, 억양 등의 목소리 뿐만 아니라 영상으로 말하는 얼굴, 표정 및 움직임까지 합성할 수 있도록 개발되었다. 이를 위해 얼굴 특징 추출과 피부합성, 감정표현 등 첨단 인공지능 기술이 적용되었으며, 영상과 음성을 결합해 딥러닝 훈련 과정을 거쳐 실제 사람을 닮은 인공지능 영상으로 제작된다.

이 AI 영상합성 기술은 중국, 미국과 함께 전 세계에서 3곳에서만 성공한 기술적 난이도가 높은 딥러닝 기술이다. 특히 한국팀의 기술은 중국에 비해 자연스러운 얼굴 움직임을 구현했고, 미국팀의 오바마 합성과 다르게 별도의 영상 보정 없이 순수 딥러닝 기술만으로 구현한 세계 최초의 기술이다.

우선 미국의 ‘딥페이크’와는 기술적으로 다르다. 딥페이크는 이미 있는 영상에 다른 영상, 혹은 별도로 촬영한 인물의 얼굴을 합성하는 방식이다. 딥페이크 자체도 기존의 영상합성 기술보다 진일보 했지만 전체적인 행동 면에서 어색할 수 있다.

하지만 머니브레인의 경우 기존 영상을 인공지능으로 학습해 새로운 행동을 만들어낼 수 있다는 점이 다르다. 물론 현재로선 얼굴에 특화되어 있지만 향후 몸동장, 움직임까지도 접목이 가능할 것으로 예상된다.

이번 영상합성 결과물을 보면 우선 주목되는 것이 음성합성 기술이 상당부분 진척됐다는 점이다. 흔히 기계로 합성한 사람의 음성은 음절이 끊어지거나 연결이 어색한 경우가 많다. 음성의 고저차도 쉽게 감지된다. 하지만 이번 머니브레인이 올린 동영상에 나온 문재인 대통령과 여자 아나운서의 발음은 어색함이 없다.

따라서 이러한 음성합성 기술은 향후 오디오북에 사용될 개연성도 있다. 현재 유명 성우나 연예인이 오디오 북을 출간하는 경우가 있는데 아직 종이책에 비해 가격이 비싼 편이다. 책의 처음부터 끝까지 사람이 읽는 것을 녹음하는 것이기 때문에 시간과 후 보정에 돈이 많이 들어간다. 관련업계에 따르면 200-300페이지 내외의 오디오북을 제작하는데 제작비로 1000만원 내외가 소요되는 것으로 알려진다.

하지만 인공지능 기반의 음성합성 기술이 발달하면 오디오 북 등에도 적용이 가능할 전망이다. 다만 현재로선 넘어야할 과제도 많다.

장세영 대표는 “오디오북은 개선의 여지가 있다. AI 기반의 음성합성은 30초나 1분 정도 책을 읽어주는 것은 어색함이 없지만 그 이상 넘어갈 경우 전체적인 흐름이 어색하게 연결될 수 있다. 또 1시간 이상의 분량으로 늘어날 경우 사람이 전체 녹음을 검수해야 한다. 오디오 북이 활성화되기 위해선 AI 음성합성 기술로 구현한 총 비용이 몇십만원 수준으로 낮아져야 하는데 아직은 200만원 전후로 가능할 것 같다”고 밝혔다.

그렇다면 이러한 인공지능 영상을 제작하는데는 어느 정도의 시간과 비용이 들어갈까? 우선 촬영에는 5시간 가량이 소요되는 것으로 알려진다. 정 대표는 “입모양을 명확히 하는 사람이 원본 데이터로서 가치가 높다”며 “아나운서의 경우 5시간 정도 영상을 촬영하면 모든 발음으로 적용이 가능하다. 마찬가지로 중국어, 영어도 같은 방식으로 가능하다”고 설명했다.

비용의 경우 현재 유명인, 공인 등을 위주로 진행되는 만큼 저작권 및 초상권에 대한 비용지불이 가장 큰 것으로 알려진다. 성우 및 아나운서의 경우 2차 저작권까지 계약하지만 연예인의 경우 특정 기간 단위로 계약하고 있다는 설명이다.

[이상일 기자 블로그=IT객잔]

이상일
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기

이 기사와 관련된 기사

디지털데일리가 직접 편집한 뉴스 채널