[디지털데일리 이형두기자] 한 영상을 재생했더니 배우 곽도원, 황정민, 천우희가 등장한다. 눈썰미가 좋은 사람은 영상을 처음 봤더라도 영화 ‘곡성’이라는 것을 추론할 수 있다. 사람은 콘텐츠를 ‘의미’ 단위로 인식한다. 내용, 등장인물, 입고 있는 옷 등으로 콘텐츠를 구분한다.

기계도 영상 정보 필터링을 통해 영화를 식별할 수 있다. 다만 이는 ‘신호(특징) 기반 식별 기술’을 통한 콘텐츠 인지 방식이다. 영상의 밝기 분포, 색상 분포 데이터를 읽어내 원본과 비교한다. 원본 영상을 분석한 분포 데이터가 없으면 쓸 수 없는 기술이다, 또 영상을 조금만 변조해도 어떤 영화인지 알아보지 못한다. 실제로 유튜브 등지에서 유통되는 불법영상은 영상을 잘라 내거나 늘리는 방식으로 이 필터링을 피한다 .

지난 8일 서울 한국저작권위원회 서울사무소에서 열린 ‘인공지능과 차세대 저작권 기술 연구 발표회’에서 이런 문제점을 개선한 ‘지능형 마이크로 식별’ 기술이 소개됐다. 인공지능(AI)이 영상에 등장하는 배우 얼굴을 읽어내 어떤 영화인지 식별하는 기술이다. 사람처럼 의미 단위로 콘텐츠를 읽어낸다. 한국전자통신연구원(ETRI)이 창작물의 온라인 불법유통을 막기 위해 개발했다.

지능형 마이크로 식별 기술의 가장 큰 장점은 원본이 없는 상태에서도 콘텐츠 식별이 가능하다는 점이다. ETRI 박지현 연구원은 “영화는 개봉 후 1달 정도 이내에 50~70%의 수익을 얻게 되는데, 이 시기 불법 영상이 돌아다니게 되면 큰 피해를 입게 된다”며 “기존 필터링 기술로 이를 막으려면 원본 특징이 들어간 데이터베이스가 필요하지만, 보통 제작사는 원본 제공이 불법 유통의 한 경로가 될 수 있다고 생각해 주지 않으려 한다”고 설명했다.

이 기술은 우선 얼굴 검출기를 적용해 영상에서 얼굴이 잘 나온 장면들만 뽑아낸다. 그리고 눈‧코‧입 등 얼굴의 랜드마크(특장점) 모델링으로 미리 입력된 배우 얼굴 데이터 리스트와 대조한다. 이 과정에서 인식률을 높이기 위해 측면을 바라보는 배우 얼굴을 정면으로 돌리는 과정도 거친다. 여기에 또 정면 및 상하좌우 얼굴 이미지를 별도로 분류해 다시 확인한다.

이렇게 복잡한 과정을 거치는 이유는 배우 역할에 따른 분장 때문이다. 박 연구원은 “일반사람의 경우에는 스마트폰 앱 등으로도 얼굴을 인식할 수 있지만 배우는 그게 어렵다”며 “현대극 사극 특수분장 등에 따라 얼굴이 달라져도 모두 같은 사람으로 인식할 수 있도록 해야 한다”고 말했다. 


ETRI가 배우 600명의 얼굴 정보를 입력하고 테스트를 진행한 결과, 2000년 이후 한국영화 1000편 중 약 80%를 식별해냈다. 이 기술이 식별하지 못한 20%는 배우 얼굴 데이터가 확보되지 않은 독립영화였다. 마블스튜디오 캐릭터 ‘아이언맨’ ‘헐크’ 등 컴퓨터그래픽(CG) 기반의 비실사 캐릭터에도 적용할 수 있다. 

영화나 드라마처럼 러닝타임이 긴 영상뿐만 아니라 3~5분 사이의 영상클립에도 이 기술을 응용 가능하다. 다만 짧은 영상에서는 등장 배우 숫자가 충분하지 않으므로 의상 정보를 추가적으로 활용한다. 예컨대, 황정민이 머리를 묶고 흰색 무당옷을 입고 있다면 영화 ‘곡성’으로 인식한다. 반면 짧은 스포츠머리에 죄수복을 입고 있다면 ‘검사외전’이다. 황정민 한 사람만 인식하더라도 어떤 콘텐츠인지 식별할 수 있다.

방송 콘텐츠에서 사용된 배경음악 저작권 문제에도 AI가 활용될 수 있다. 현재는 사람이 직접 듣고 확인한다. 전체 콘텐츠 중 일부 표본만 골라서 사용된 음원의 숫자만 확인한다. 데이터가 정확하게 파악되지 않기 때문에 원저작자에게 저작권 수익이 제대로 배분되지 않는다. 일반적인 음악 인식 기술도 적용하기 어렵다. 배경음악은 인물 대사, 효과음 등이 섞여서 들리기 때문에 인식률이 떨어진다.

이 때문에 배경음악 식별에도 사람의 소리 인식 방식을 적용 중이다. 사람은 여러 소리 중에서 특정한 소리만 더 집중해서 들을 수 있는 ‘선택적 주의집중(Selective Attention)’이라는 능력이 있다. ETRI는 딥러닝을 통해 전체 오디오 데이터 중에서 배경음악만 따로 분리해 식별률을 높이는 기술을 개발 중이다. 음악만 분리하는 것은 사람의 음성 분리보다 난이도가 높다. 음악은 음성보다 활용되는 주파수 영역이 훨씬 넓기 때문이다.

박 연구원은 “이 음악 식별 기술을 통해 방송음악 시스템을 개선하려 한다”며 “기존 부정확했던 큐시트의 정확도를 높이는 데 도움이 될 것”이라고 전했다.

<이형두 기자>dudu@ddaily.co.kr



네이버 뉴스스탠드에서 디지털데일리 뉴스를 만나보세요.
뉴스스탠드


  • IT언론의 새로운 대안-디지털데일리
    Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
 
· [카드뉴스] 기업의 지속가능성 해법은 결국···
· [카드뉴스] B tv 서라운드, 거실을 영화관으로
· [이지크로] 안전하고 믿을 수 있는 에스크로
배너
  • 동영상
  • 포토뉴스
삼성전자 내년 폴더블폰 공식화…스마트폰 주… 삼성전자 내년 폴더블폰 공식화…스마트폰 주…
  • 삼성전자 내년 폴더블폰 공식화…스마트폰 주…
  • 삼성 폴더블폰, ‘접는 이유’ 충족했을까…소…
  • SKT-삼성전자, 5G 상용화 이후 준비도 ‘착…
  • 삼성전자 “QLED 8K, 압도적 화질 직접 보세…