보안

[CSK2024] 범죄 하나 알려주면 열 배우는 AI…“AI모델 간접 공격 위험도↑”

오병훈 기자
11일 권태경 연세대학교 교수가 ‘사이버 서밋 코리아2024’에서 ‘AI모델 취약점 분석 및 대응 기술’을 주제로 발표 중이다.
11일 권태경 연세대학교 교수가 ‘사이버 서밋 코리아2024’에서 ‘AI모델 취약점 분석 및 대응 기술’을 주제로 발표 중이다.

[디지털데일리 오병훈기자] 인공지능(AI)이 동작하는 과정에 범죄자가 개입해 데이터를 오염시킨다면 어떤 문제가 발생할까? 인공지능은 단순히 데이터를 입출력하는 것에 그치지 않고 학습을 통한 추론 과정을 거치기 때문에 하나의 오염된 데이터가 큰 문제로 이어질 수 있다. 관련 대비책 마련이 중요해지면서 보안 시장에서 AI 모델 보안에 대한 관심도 높아지고 있다는 분석이 나왔다.

11일 권태경 연세대학교 교수는 ‘사이버 서밋 코리아2024’에서 ‘AI모델 취약점 분석 및 대응 기술’을 주제로 발표하며 “생성형 AI 등장으로 ‘어뷰즈’ 위험에 대한 경고가 지속되고 있다”고 강조했다.

학계에서는 AI가 학습한 데이터를 탈취·변형하는 공격에 대한 연구가 이전부터 이어져왔다. 그간 주목을 받았던 공격 방법으로는 ▲AI 모델의 필터링을 우회하는 ‘인베이젼’ ▲학습 데이터에 잘못된 정보를 주입하는 ‘포이즈닝’ ▲AI 모델 추론을 역추적해 개인정보를 탈취하는 ‘인프런스’ ▲직접적으로 학습된 데이터에 접근하는 ‘익스트랙션’이 있다.

최근에는 여기에 더해 생성 AI에서 발생하는 ‘어뷰즈’ 위험이 강조되고 있다는 것이 권 교수 설명이다.

그는 “생성 AI 등장으로 떠오른 어뷰즈 위험은 이 모델 자체를 악용하는 것이다”라며 “AI 모델에 직접 공격 메시지를 주입할 필요 없이 AI 모델 백도어에 악성 프롬프트를 넣는 방식인데, 대표적으로 ‘간접 프롬프트 주입 공격’ 등이 있다”고 설명했다.

간접 프롬프트 주입은 AI가 단순히 입출력 명령으로 구성돼 있지 않고 각종 논리 추론이 포함된 프롬프트로 작동되는 점을 이용했다. 예컨대 AI 모델에 악성 프롬프트가 주입되면 이용자가 동물 사진을 보내도 모델은 벌레로 인식되게 분류체계를 바꿔버린다.

권 교수는 “프롬프트 간접 주입을 활용해 AI가 비하 언어 도출하도록 바꿀 수도 있다”며 “실제로 주입 후 비하하는 답변을 내놨는데, 더 큰 문제는 비하를 넘어 살인 등 범죄 방법도 알려주는 답변을 하는 상황도 연출됐다”고 말했다.

이는 AI가 각종 범죄 수단으로 악용될 수 있는 불씨가 되며, 이를 차단하기 위한 보안 산업 연구도 속도가 붙고 있다는 것이 권 교수 설명이다. 특히 AI 모델을 외부 공격으로부터 보호하는 ‘세이프가드’ 보안 시스템이 주목받고 있다는 것이다.

권 교수는 “‘세이프가드’ 혹은 ‘가드레일’에 대한 연구가 진행되는 데, 가드레일은 주로 롤 베이스 기반 필터링 관점이고, 세이프가드는 AI 모델을 직접 활용해 방어함 과 동시에 하고 사람이 개입한 상황에서 보안 방법을 학습하게 된다”고 말했다.

이어 그는 “메타에서 도입한 퍼플라마도 대표적인 AI 보안 사례다”라며 “입출력 안전장치인 ‘라마 가드’를 통해 간점 프롬프트 주입 공격에 대응하고, 모르는 프롬프트는 걸러서 학습하는 등 침입을 막고 있다”고 설명했다.

마지막으로 그는 “최근 조사에 따르면 기업들이 섣불리 생성AI 도입 못하는 이유로 중요한 요소가 보안이다”라며 “거대언어모델 취약점에 대한 위협이 늘어나는 상황에서 카운트 매니저 산업이 성장하고 있다”고 강조했다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널