인터넷

악플 3분의1로 줄인 카카오 ‘세이프봇’, 어떻게 만들어졌나

이나연 기자
포털 다음(Daum) 타임톡 화면 갈무리 [ⓒ 다음]
포털 다음(Daum) 타임톡 화면 갈무리 [ⓒ 다음]

[디지털데일리 이나연 기자] 포털 다음(Daum) 뉴스나 카카오톡 오픈채팅 오토(Auto)를 사용해 본 이용자라면 누구나 한 번쯤 ‘세이프봇(Safebot)이 작동 중’이라는 문구를 보았을 것이다. 세이프봇은 카카오가 안전한 온라인 환경을 제공하기 위해 지난 2020년부터 도입한 인공지능(AI) 기반 서비스다.

다른 이용자에 불쾌감을 주는 메시지를 AI 기술로 분석해 자동으로 가려주는 방식인데, 관리자 개입이 없이도 어떻게 자동으로 이러한 조치가 가능할까. 카카오는 이달 발간한 ‘테크 에틱스(Tech Ethics)’ 2호를 통해 세이프봇이 개발된 과정과 그 안에 담긴 AI 기술을 소개했다.

◆욕설 자동 감지로 시작해 AI 기술 탑재하기까지

카카오가 처음 도전한 영역은 댓글에 달린 욕설이다. 카카오는 욕설 표현을 자동으로 음표로 변환시키는 ‘욕설 자동 치환’ 기술을 지난 2017년 상반기에 개발하고 이를 같은 해 하반기 포털 다음에 도입했다. 이를 위해 카카오는 수십만개 욕설 데이터베이스를 구축했고, 데이터베이스에 포함된 욕설은 모두 자동으로 음표로 바뀌어 표시됐다. 이 기술은 다음 뉴스뿐만 아니라 톡 채널·브런치·카카오스토리 등 카카오 30여개 주요 서비스에도 적용됐다.

하지만 욕설 자동 치환 기술도 한계가 있었다. 욕설을 변형하거나 특정한 단어를 이용해 게시물 운영 정책을 회피하는 사용자까지는 막지 못했기 때문이다. 이를 계기로 카카오는 운영 정책을 위반한 댓글을 관리자가 일일이 찾는 대신, AI 기술을 활용해 자동으로 찾는 세이프봇을 개발하기로 했다.

지난 2020년 12월 시범 적용된 세이프봇은 초창기 AI 모델 정확도를 완벽히 신뢰하기 어려워 감지된 악성 댓글을 자동으로 신고하는 역할만 수행했다. 이후 기능을 고도화하면서 이듬해 세이프봇을 정식 도입했다. 욕설 자동 치환뿐만 아니라, 욕설과 비속어 등 운영 정책을 위반하는 댓글까지 자동으로 가리는 기능이 추가된 것이다.

세이프봇은 ‘새끼’가 ‘낳은 지 얼마 되지 않은 어린 동물’을 의미하는지 ‘어떤 사람을 욕해 이르는 말’인지 문맥을 이해한다. 이에 따라 (ㄱ),(ㄴ) 문장에서 사용된 단어는 가리지 않고 (ㄷ)문장에서만 해당 단어를 가리기 대상으로 판단한다 [ⓒ 카카오]
세이프봇은 ‘새끼’가 ‘낳은 지 얼마 되지 않은 어린 동물’을 의미하는지 ‘어떤 사람을 욕해 이르는 말’인지 문맥을 이해한다. 이에 따라 (ㄱ),(ㄴ) 문장에서 사용된 단어는 가리지 않고 (ㄷ)문장에서만 해당 단어를 가리기 대상으로 판단한다 [ⓒ 카카오]

◆세이프봇은 어떻게 악플을 찾아낼까

세이프봇이 AI 기술로 부적절한 표현을 분류하는 과정은 ▲데이터 수집 ▲데이터 라벨링 ▲학습 ▲테스트와 개선 순으로 이뤄진다. 먼저 세이프봇은 이용자들이 올린 다양한 댓글 데이터를 수집한다. 이렇게 수집된 데이터 가운데 스팸 댓글과 그렇지 않은 댓글을 구분하기 위해 해당 데이터를 AI가 식별해서 학습할 수 있도록 다양한 정보를 입력하는 과정인 데이터 라벨링이 필요하다.

카카오는 AI를 이용해 데이터 라벨을 자동으로 판단해 마킹하는 오토 라벨링(Auto Labeling) 기법을 채택하고 있으며 일부 데이터는 사람이 직접 검증하는 과정을 거치고 있다. 라벨링 된 데이터는 세이프봇이 스팸 댓글을 분류할 수 있도록 학습시키는 데 쓰인다. 이때 활용하는 기술은 AI 스팸 분류다. AI 스팸 분류는 단어들이 어떤 상황에서 어떻게 사용되는지 이해하는 능력을 특징으로 한다. 핵심은 단어 하나하나를 독립적으로 보지 않고, 그 단어가 문장 속에서 어떤 위치에 있고, 어떤 단어들과 함께 쓰였는지를 고려한다는 것이다.

예컨대, ‘라이언은 ( ) 옆에 있다’라는 문장이 있을 때, 세이프봇은 ‘라이언’과 ‘옆에 있다’를 동시에 보며 괄호에 들어갈 적절한 단어를 찾아낸다. 마치 사람이 문맥을 통해 대화를 이해하는 것과 유사하다. 학습이 끝난 후에는 세이프봇이 실제로 스팸 댓글을 잘 분류하는지 테스트를 진행한다. 만약 세이프봇이 잘못 분류한 경우가 있다면, 사용자 피드백을 통해 세이프봇을 개선한다.

세이프봇 적용 후, 욕설·비속어·신고 ‘뚝’

카카오에 따르면 세이프봇을 적용하기 전인 지난 2020년 하반기와 적용 이후인 2021년, 2022년 월평균 수치를 비교한 결과, 욕설이나 비속어가 포함된 댓글이 3분의1 수준으로 줄었다. 욕설이 포함돼 음표로 자동 치환된 댓글 수가 2020년 하반기 대비 2021년에는 53.7%, 2022년에는 63.8% 감소했다.

전체 댓글 중 이용자가 신고한 욕설 댓글 비중도 지난 2020년 하반기 4.2%에서 2022년 2.4%로 낮아졌고 이용자 신고로 삭제된 욕설 댓글 건수도 같은 기간 대비 2022년에는 12분의1 수준인 8.2%로 줄어들었다.

세이프봇을 총괄하는 김종환 다음개발사업실 실장은 “앞으로 욕설이나 혐오 발언뿐만 아니라 정신적, 육체적 피해를 주거나 건전한 토론문화를 저해하는 표현을 사람이 아닌 AI가 100% 판단할 수 있도록 기술 혁신을 지속할 것”이라며 “현재는 댓글이나 짧은 대화형 콘텐츠에 적용됐지만, 게시글 같은 장문 콘텐츠와 이미지, 동영상 등에도 적용을 확대하겠다”고 전했다.

이나연 기자
lny@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널