전문가칼럼

[기업법률리그 61] 인공지능(AI) 학습데이터 활용과 저작권 침해 문제

양진영
양진영 변호사. [ⓒ 법무법인 민후]
양진영 변호사. [ⓒ 법무법인 민후]

[법무법인 민후 양진영 변호사] 일반 사람을 능가하는 인공지능의 파워풀한 능력은 어마어마한 학습데이터의 습득이 있기에 가능하다. 그런데 인공지능의 학습데이터 습득과정에서 이루어지는 저작권 침해 문제는 전세계적으로 문제가 되고 있다. 오픈AI의 ChatGPT, 끌로드(Claude), 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney) 유명 인공지능 빅테크 회사대부분은 현재 저작권침해 소송에 휘말려있는 상황이다.

사람이라면 눈으로 보고 머리로 학습하겠지만, 인공지능(AI)의 경우 학습 시 전자화되어 있는 파일의 복제 및 전송이 필연적으로 수반된다. 더욱이 학습데이터의 수집은 개별 보통 대량으로 일어나며, 이때 크롤링(Crawling) 기법이 활용된다. 크롤링 대상이 되는 자료들은 대부분 데이터베이스화되어 있으며, 이때 데이터베이스의 복제, 전송이 일어난다.

저작권자의 허락 없이 무단으로 저작물을 복제, 전송하면 저작권법 위반에 해당하여 5년 이하의 징역 또는 5천만원 이하에 벌금에 처해질 수 있고(저작권법 제136조 제1항 제1호), 데이터베이스의 무단 복제, 전송이 있는 경우 3년 이하의 징역 또는 3천만원 이하의 벌금에 처해질 수 있다(저작권법 제136조 제2항 제1호, 제93조).

이처럼 저작권법 상 학습데이터 활용을 위한 저작물의 복제·전송 등이 원칙적으로 금지되다 보니, 인공지능 산업의 발전이 저해될 우려도 공존한다. 이에 인공지능의 학습을 위한 저작물의 복제·전송행위에 대해 법적으로 면책하자는 목소리가 대두되었다.

우리 저작권법에서는 공정이용 규정을 두고 있으며, 특정한 요건을 충족하는 저작물의 이용에 대해서는 저작권자의 이용허락 없이 저작물 이용이 가능하다. 저작권법 제35조의5가 공정이용의 일반규정에 해당하는데, 저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 이익을 부당하게 해치지 아니하는 경우에는 저작물을 이용할 수 있으며, 이러한 공정이용에 해당하는지 여부를 판단함에 있어서는 ①이용의 목적 및 성격, ②저작물의 종료 및 용도, ③이용된 부분이 저작물 전체에 차지하는 비중과 그 중요성, ④저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향이 고려된다.

인공지능 학습을 위한 저작물의 복제 전송이 저작권법상 공정이용에 해당하는지에 대해서는 의견이 대립하고 있으나, 인공지능 학습데이터 사용을 위한 복제 전송은 현행 저작권법상 공정이용에 적용할 수 없다는 입장이 다수로 보인다.

이에 TDM(Text and Data Mining) 예외조항 도입 논의가 진행되고 있다. TDM이란 인공지능 학습을 위해 대량의 저작물을 수집 및 해석하는 경우 필요한 범위 내에서 복제·전송 등을 허용하고 저작권법 침해행위의 예외로서 면책하는 조항을 뜻한다. 국내에서도 여러차례 TDM 도입을 담은 저작권법 일부개정안이 발의되었으나, 아직까지 통과된 법안은 없으며, 작년 12월 문화체육관광부가 개최한 ‘인공지능(AI)-저작권 제도개선 워킹그룹’ 전체회의에서 TDM 규정 도입의 필요성이 제시되었다.

이처럼 국내 저작권법 상 TDM 면책 규정이 없는 상황에서 원칙적으로 AI 학습데이터 사용을 위한 복제·전송은 저작권법 위반 또는 데이터베이스제작자의 권리침해에 해당한다고 할 수 있다. 따라서 저작권자의 동의없이 제3자가 저작물을 학습데이터에 활용하였다면, 저작권자는 형사고소, 저작권침해로 인한 손해배상청구, 저작물에 대한 사용금지청구, 폐기청구 등이 가능하다.

그런데 실제 법적조치를 해서 저작권침해로 인정받기 위하여는, 학습데이터로 도용된 저작물이 무엇이며, 그 저작물을 제3자가 언제 어떠한 방법으로 복제, 전송하였는지에 대한 구체적인 증명이 있어야 한다.

유명 이미지 회사인 게티이미지(Getty Images)는 2023. 1.경 초거대 AI 회사인 스테이블 디퓨전(Stable Diffusion)이 자사의 이미지를 동의없이 무단 학습하였다면서 저작권침해 소송을 제기했는데, 게티이미지는 스테이블 디퓨전이 운영하는 생성 AI 툴인 스태빌리티 AI에서 생성한 이미지에 게티이미지의 워터마크가 찍혀있는 것을 근거로 삼았다. 위 사건은 학습데이터로 활용했다는 증거가 확보된 사안으로 법원의 판결결과가 주목되고 있으나, 아직 결론이 나지 않았다.

학습데이터로 도용된 명백한 증거가 없다면, 생성AI를 통해 도출된 결과물과 원저작물의 실질적 유사성을 통하여 입증하여야 하나 이는 쉽지 않다.

위 사건과 일러스트레이터·만화가들이 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney), 데비안 아트(Devian Art)이 자신들이 저작물을 무단으로 학습데이터에 활용했다면서 소송을 제기하였는데(Anderson, McKernan, Ortiz v. Stability AI, DeviantArt, MidJourney 사건), 미국 캘리포니아 연방법원은 생성 AI를 통해 산출된 이미지만으로 원저작자들의 작품이 사용되었다는 개연성이 부족하다며 저작권자들의 주장을 일부 받아들이지 않았다. 생성AI를 통해 산출된 이미지가 원본 작품과 실질적으로 유사하다는 것이 증명되지 않았다고 판단한 것이다.

이처럼 실질적 유사성의 입증만으로 학습데이터의 도용을 증명하기 쉽지 않기 때문에, 저작권자들은 AI사에게 학습데이터를 공개하라는 요구를 하고 있다. 작년 12월, 마이크로소프트(MS), 아마존웹서비스(AWS) 등이 속한 글로벌 소프트웨어(SW) 기업 연합체 BSA는 한국저작권위원회에 인공지능(AI) 저작권 제도 개선 의견을 전달하면서, AI 학습에 이용된 데이터 공개를 반대한다는 입장을 밝혔으나, 문화체육관광부는 2025. 1. 10. AI 학습 활용 데이터 목록공개 의무를 담은 저작권법 개정을 추진하겠다고 발표했다.

AI 학습데이터와 저작권 문제는 신기술 발전과 법적 규제 사이에서 지속적인 조율이 필요한 영역이다. TDM 예외조항, 학습데이터 공개의무 등 새로운 법제도 도입에 대한 심도있는 논의를 통해 AI 산업 발전과 저작권 보호 간 균형을 맞출 수 있기를 기대한다.

<양진영 변호사> 법무법인 민후

<기고와 칼럼은 본지 편집방향과 무관합니다.>

디지털데일리가 직접 편집한 뉴스 채널