e비즈*솔루션

[딜라이트닷넷]‘AI 카니발리즘’ 경고…이전 AI 모델 데이터가 차세대 AI를 오염시킨다?

오병훈 기자
챗GPT 생성 이미지
챗GPT 생성 이미지

[디지털데일리 오병훈기자] 인공지능(AI)의 데이터 학습 방법론과 관련해 동족포식(카니발리즘)으로 인한 모델 붕괴를 경고하는 논문이 화제다. AI에게 학습시키는 데이터를 검수하는 작업이 중요해졌으며, 이전 AI 모델이 생성한 데이터를 차세대 AI에게 무차별적으로 학습시킬 경우 AI모델이 붕괴되며 잘못된 데이터를 내놓게 된다는 설명이다.

최근 일리아 슈마일로프, 자카르 슈마일로프 등이 소속된 연구팀은 네이처지에 ‘재귀적으로 생성된 데이터 학습에 의한 AI 모델 붕괴(AI models collapse when trained on recursively generated data)’를 제목 논문을 등재했다.

생성형 AI는 대규모언어모델(LLM)을 기반으로 하고 있어 다양하고 방대한 데이터를 학습하는 것이 중요하다. 그 과정에서 학습시킬 선택 데이터를 고르는 것이 AI 품질을 결정하는 중요한 요소가 된다.

연구팀은 논문을 통해 “(새로운 AI)훈련에 (구형 AI) 모델에서 생성된 콘텐츠를 무차별적으로 사용하면 새로운 AI에 돌이킬 수 없는 결함이 발생할 수 있다”라며 “원래 콘텐츠 분포 일부가 사라질 수 있으며, 이 효과를 ‘모델 붕괴’라고 하며 LLM뿐만 아니라 가우시안 혼합 모델(GMM)에서도 발생할 수 있다는 것을 보여준다”고 설명했다.

새로운 LLM을 구축하기 위해서는 웹을 통해 대규모 데이터를 수급하게 된다. 그 과정에서 이전 AI모델에서 생성된 데이터가 함께 섞여 들여가게 될 경우, 이전 AI모델에 의한 ‘제귀적인 학습’이 일어나게 된 다는 것이다. 이는 곧 모델 붕괴를 일으켜 ‘할루시네이션(AI가 없는 것을 있다고 잘못 판단하는 현상)’ 등 문제를 야기할 수 있다는 것이 연구팀 설명이다.

해당 현상을 확인하기 위해 연구팀은 이전 AI 버전에서 생성된 텍스트가 후속 모델 대부분 학습 데이터 세트를 형성하는 경우 어떤 일이 발생하는지 조사했다. 그 결과 다른 AI 모델에서 생성한 데이터를 무차별적으로 학습시키는 횟수가 증가할수록 새로운 AI모델 붕괴가 쉽게 발생할 수 있다는 것을 발견했다.

연구팀은 “시간이 지남에 따라 모델이 실제 기본 데이터 분포를 잊어버리는 퇴보적인 프로세스를 거쳤다”며 “모델 붕괴는 학습된 생성 AI 세대에 영향을 미치는 퇴화 과정으로, 생성된 데이터가 결국 다음 세대 학습 결과를 오염시킨다”고 강조했다.

올바른 장기간 AI 학습을 유지하기 위해서는 원래 데이터 소스에 대한 액세스가 보존되고 LLM에서 생성되지 않은 추가 데이터가 시간이 지나도 사용 가능한지 확인해야 한다는 것이 연구팀 조언이다.

마지막으로 연구팀은 인터넷에서 크롤링(웹페이지를 그대로 가져와 데이터를 추출)된 콘텐츠 출처에 주의해야 한다고 제언했다. 해당 데이터가 AI를 통해 생성된 것인지, 인간의 손으로 생성된 것인지 구분해야 한다는 조언이다. 이를 위해 AI엔지니어 커뮤니티 전체 협조를 통해 LLM 생성 및 배포에 관련된 AI 엔지니어들이 데이터 관련 정보를 다른 엔지니어와 공유하도록 하는 방법을 제안했다.

연구팀은 “이런 정보 공유 과정을 거치지 않으면 기술이 대량으로 채택되기 전에 인터넷에서 크롤링된 데이터에 접근(엑세스)하는 등 문제가 발생할 것”이라며 “(AI모델이 생성한 것 아닌) 인간이 생성한 데이터를 통해 새로운 버전 LLM을 훈련하는 것이 점점 더 어려워질 수 있다”고 분석했다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널