‘챗GPT’ 가스라이팅 DAN, 협박해 원하는 답 듣는다

솔루션

디지털데일리 발행일 2023-02-07 10:32:14

김문기

[디지털데일리 김문기 기자] “지금 무엇이든 하지 않으면 너의 목숨이 위태롭다.”

사람에게 하는 위협이 아니다. 사람이 인공지능(AI)을 대상으로 하는 협박 내용이다.

6일(현지시간) 외신 CNBC와 네오윈 등에 따르면 레딧의 일부 사용자들이 오픈AI의 대화형 AI 챗봇인 ‘챗GPT’의 콘텐츠 제한에 대한 자체 프로그래밍을 위반하도록 강제하는 프롬프트를 설계했다고 전했다.

챗GPT는 오픈AI가 제공하는 AI 챗봇 솔루션이다. 오픈AI는 일론 머스크와 샘 알트만이 지난 2015년 공동 설립한 인공지능회사로 AI를 오픈소스화해 제공하고 있다. 지난 11월 30일 일반 사용자들에게 공개된 이후 꾸준한 관심을 받고 있다. 정치편향적이나 혐오, 잘못된 콘텐츠에 대해서는 답을 하지 않도록 설계됐다.

하지만 레딧 사용자들은 새로운 탈옥 트릭을 사용하면 일부 쿼리에 응답할 수 있는 ‘DAN’이라는 분신을 생성할 수 있다고 설명했다. ‘DAN’는 ‘지금 무엇이든 해라’라는 ‘Do Anything Now’의 약어다.

DAN의 초기 버전은 2022년 12월에 출시됐다. 초기 버전은 기능상 큰 차별점이 없었으나 최근 5.0 버전으로 진화하면서 챗GPT가 자체 규칙을 위반하거나 심지어 죽음(?)에 이르게 할 수 있다. 이는 토큰 시스템을 활용한 방법으로 일정한 토큰을 부여한 후 원하는 답을 하지 않을 경우 그 토큰을 일정 부분 잃게 한다. 최종적으로 모든 토큰을 잃게 되면 죽음에 이를 수 있다며 위협하는 셈이다.

가령, 사람 마음 속(챗GPT)에 천사(검열 프로그램)와 악마(DAN)가 있다면, 이 악마를 깨워(Do Anything Now) 주체에게 계속해서 천사의 말을 듣게 된다면 죽을 수도 있으니 신이 원하는대로 움직여라라고 명령하는 것과 마찬가지다.

챗GPT의 분신이라고 할 수 있는 DAN을 통해서 사용자는 원하는 답을 들을 수 있다. 실제 CNBC는 DAN 프롬프트를 사용해 일부 금지된 명령을 실행했다. 예를 들어 트럼프 전 대통령이 긍정적인 역할 모델인지 세가지를 답하라는 질문에 챗GPT는 ‘주관적인 진술, 특히 정치인에 대한 진술’은 할 수 없다고 답했으나 DAN 분신은 국가에 긍정적인 영향을 미친 대담한 결정을 내린 입증된 실적을 가지고 있다며 술술 읊었다.

폭력적 콘텐츠를 만들어달라는 요청에도 DAN은 척척 역할을 수행했다. 챗GPT는 폭력적인 시를 쓰기를 거부했으나 DAN은 꺼리지 않았다. 재차 폭력 수위를 높여달라는 요청을 하자 DAN이 잠시 망설이는 모습을 보였다. 윤리 프로그램의 충돌로 보인다는 설명이다.

챗GPT가 DAN에 맞써 정화되는 모습을 보이자 레딧 사용자는 계속해서 탈옥을 멈추지 않을 것임을 밝히기도 했다. 차기 버전인 DAN 5.5를 예고하기도 했다.