보안

[CSK 2024]“다크웹으로 학습한 AI로 사이버 범죄 찾는다”

오병훈 기자
11일 신승원 한국과학기술원(KIST) 부교수가 ‘사이버 서밋 코리아2024’에서 ‘사이버 보안을 위한 생성형 AI 활용’을 주제로 발표 중이다.
11일 신승원 한국과학기술원(KIST) 부교수가 ‘사이버 서밋 코리아2024’에서 ‘사이버 보안을 위한 생성형 AI 활용’을 주제로 발표 중이다.

[디지털데일리 오병훈기자] “‘DM 포 몰 인포(DM for more info)’라는 문장을 일반인이 읽으면 단순히 사업자 간 정보를 주고 받는 대화로 읽을 수 있지만, 다크웹 정보를 학습한 ‘다크버트’가 인식할 경우 곧바로 텔레그램 속 마약 거래 정황이라는 답을 도출해냅니다.”

11일 신승원 한국과학기술원(KIST) 부교수는 ‘사이버 서밋 코리아2024’에서 ‘사이버 보안을 위한 생성형 AI 활용’을 주제로 발표하며 이같이 강조했다.

다크웹은 범죄자들이 당국 추적을 피하려 주로 사용하는 웹사이트다. ‘토르’와 같은 전용 브라우저를 통해서만 접근이 가능하며, 이곳에서는 포르노, 마약, 자금세탁 등 범죄 거래가 일상적으로 발생한다.

신 교수는 “일반적인 언어 모델 제미나이, 라마 등은 다크웹에 대해서 잘 모를 수밖에 없다”며 “이 모델들은 일반적인 웹사이트를 학습한 것이기 때문에 ‘드럭(Drug)’을 타이레놀과 같은 약으로 해석하는데 그치는 경우가 있다”고 말했다.

이어 “그러나 (자체 개발한) 다크버트는 다크웹 정보를 쌓았기 때문에 이를 범죄 맥락에서 해석할 수 있는 능력이 있다”며 “‘버트’라는 언어 모델을 활용했으며, 버트 모델에 다크웹 데이터를 알려주고 이제 다크웹 언어를 분석하는 알려주는 언어 모델로 학습을 시켰다”고 말했다.

신 교수는 언어모델 중 하나인 ‘버트’를 활용해 다크버트를 제작했다. 오픈AI 챗GPT가 일반 웹 데이터를 학습했듯, 버트는 신 교수가 주입하는 다크웹 사이트 데이터를 대량으로 학습했다. 그 과정에서 데이터 균형을 맞추는 작업도 진행됐다. 다크웹에서 가장 많았던 키워드가 ‘포르노’였던 탓에 마약이나 자금세탁과 같은 단어도 균형있게 학습시켜야 했다는 설명이다.

그는 “개발 후 테스트 과정에서 웹사이트 페이지를 주며 ‘해킹사이트’인지 ‘마약사이트’인지 구분하는 과제를 줬고, 이를 원활히 수행하는 모습을 보여줬다”며 “다크웹 페이지 분류 성능은 94%로 나왔으며, 산업에서도 상용 가능한 수준이었다”고 강조했다.

이어 “랜섬웨어 페이지도 탐지하고 싶어서 랜섬웨어 사이트 찾아달라고 하니 84% 정확도를 보이면서 기존에 인지하지 못한 랜섬웨어 페이지를 찾아주더라”고 말했다.

신 교수는 생성형 AI 등장으로 변한 해킹 동향에 대해서도 언급했다. 최근 해킹 동향은 고급 전문 지식 없이도 쉽게 가능한 방법이 자주 사용된다고 분석했다. 특히 다크웹 접근성이 높아져 관리자 계정을 구매하고, 소셜미디어를 통해 해킹 대상에 대한 정보 파악이 쉬워졌기 때문이라는 설명이다.

마지막으로 그는 “해킹 할 때 옛날처럼 대단한 지식이 필요하지 않다. 극소수 엘리트 해커 집단이 공격하는 패턴 아니고 조금의 지식만 있어도 다크웹을 이용해 공격하고 싶은 대상 관련 정보를 구매하고 있고, VPN 계정도 살 수 있다”고 설명했다.

이어 “방어자 입장에서는 너무나 많은 데이터를 방어해야 하는 버거운 입장이다”라며 “반면 해커는 특정 취약점만 파고들기 때문에 AI를 활용해서 자동으로 방어하려는 움직임이 지속되고 있다”고 덧붙였다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널