소프트웨어

문장만 입력하면 AI가 ‘동영상’까지 제작한다... 구글 ‘이매진 비디오’ 화제

양원모
<사진> 이매진 비디오로 만든 영상 일부
<사진> 이매진 비디오로 만든 영상 일부

[디지털데일리 양원모 기자] 인간의 고유 영역으로만 여겨졌던 ‘창작’ 분야에 인공지능(AI)의 입김이 더욱 거세지고 있다.

앞서 텍스트만 입력하면 AI가 그림을 사람 대신 그려주는 도구가지는 나왔지만 이번에는 '영상 창작물'까지 제작해 준다.

구글이 최대 초당 24프레임, 1280×768 해상도의 비디오를 생성할 수 있는 텍스트-비디오 AI 생성기 ‘이매진 비디오(Imagen Video)’를 개발하고 있다고 6일(현지 시각) 아르스 테크니카 등 외신이 보도했다.

최근 오픈 AI ‘DALE-2’ 출시 이후 창작계에서는 AI가 화두로 떠오르고 있다. 즉 사람이 아닌 AI가 그린 그림, AI가 쓴 글, AI가 지은 음악 등은 AI의 창작물을 어떻게 바라볼지 질문을 던지고 있는 것이다.

이와 함께 AI를 활용한 창작 솔루션의 확산도 활발하다. 아르스 테크니카는 “DALE-2 출시 이후 6개월 만에 AI 모델 발전이 빠르게 진전되고 있다”고 전했다.

이번 발표는 구글의 ‘구글 이매진’ 출시 이후 5개월 만에 이뤄졌다.

구글이 공개한 연구 논문에 따르면 이매진 비디오는 고흐 등 유명 미술가의 작품을 바탕으로 비디오를 만들거나, 물체 구조를 유지하면서 3D 회전 물체를 구성하는 등의 기능을 갖추고 있다.

이매진 비디오는 입력기에 문장을 적어넣으면 1차로 저해상도 비디오를 생성한 뒤 단계별로 프레임, 해상도 스케일 업을 거쳐 최종 영상을 생성해 보여준다. 최대로 제작 가능한 영상 길이는 5.3초다.

영상 제작에 필요한 데이터 세트는 LAION-400M 이미지 텍스트 데이터 세트 등 오픈 소스에서 가져온다. 또 자체 준비한 1400가지의 비디오-텍스트쌍과 6000만가지의 이미지-텍스트쌍도 활용한다.

이매진 비디오는 ‘페이스북’을 운영하는 메타(META)를 견제하는 성격도 있다.

아르스 테크니카는 “메타가 텍스트를 비디오로 변환하는 AI 도구 ‘Make-A-Video’를 공개한 지 일주일도 지나지 않아 이미젠 비디오의 개발 사실이 공개됐다”고 지적했다.

앞서 딥페이크 등 합성 도구가 ‘지인 합성’ 등에 악용되면서 이매진 비디오에 대해서도 비슷한 우려가 고개를 든다. 구글은 “이런 우려가 사라질 때까지 이매진 비디오의 모델이나 소스 코드를 공개하지 않을 것”이라고 밝혔다.
양원모
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널