e비즈*솔루션

"AI 시대, 이미지·영상 데이터 폭증" 개인정보 가명처리 기준 나왔다

김보민 기자
고학수 개인정보보호위원회 위원장이 24일 정부서울청사에서 제2회 전체회의에 참석해 발언하고 있다. [ⓒ 개인정보보호위원회]
고학수 개인정보보호위원회 위원장이 24일 정부서울청사에서 제2회 전체회의에 참석해 발언하고 있다. [ⓒ 개인정보보호위원회]

[디지털데일리 김보민기자] 비정형 데이터에 대한 가명처리 기준이 새롭게 마련됐다.

비정형 데이터는 이미지, 영상, 음성, 텍스트 등 일정한 규격 없이 구조화되지 않은 데이터를 뜻한다. 통화 음성, 대화 기록, 논문 보고서, 블로그 등이 대표적인 예다. 인공지능(AI) 기술 개발에 필요한 필수 재료로 꼽히는 만큼, 기존 가이드라인의 한계를 보완할 새 기준이 마련됐다는 평가가 나온다.

4일 개인정보보호위원회(이하 개인정보위)는 '비정형 데이터 가명처리 기준'을 공개했다. 앞서 개인정보위는 정책연구용역과 전문가로 구성된 태스크포스(TF)를 운영해 약 1년간 준비 작업을 거쳤다.

기존 가이드라인의 경우 정해진 규칙에 맞게 구조화된 형식으로 존재하는 '정형 데이터'에 대한 내용만 포함하고 있었다. 정형 데이터는 연산·분석 등 처리 방식과 기술 방법이 비교적 단순하다는 특징이 있다.

다만 최근 AI 기술과 컴퓨팅 자원이 발달하면서 정형뿐만 아니라 비정형 데이터에 대한 활용 수요가 폭증했다. 시장조사기관 IDC에 따르면 전 세계 데이터 중 이미지, 영상, 음성, 텍스트 등 비정형 데이터가 차지하는 비중은 약 90%에 달한다. 기업, 연구기관 등은 비정형 데이터에 대한 가명처리 방법이나 수준을 알지 못해 불확실성을 겪어야 했다.

이번 가명처리 기준은 현장의 어려움을 고려해 비정형 데이터를 가명 처리할 때 참고해야 할 원칙과 의료, 교통, 챗봇 등 분야별 시나리오를 제시했다.

먼저 개인정보위는 비정형 데이터가 개인식별 가능 정보에 대한 판단이 상황에 따라 달라질 수 있는 만큼, 데이터 처리목적·환경·민감도 등을 종합 고려해 개인식별 위험을 판단할 수 있도록 했다.

예를 들어 정형 데이터의 경우 주민번호, 전화번호, 주소 등과 같은 개인식별 위험 정보가 명확히 구분되지만 비정형 데이터를 그렇지 않다. 눈·코·입을 알아볼 수 없는 거리에서 찍힌 CCTV 영상이라도 머리 모양이나 흉터, 문신 등 신체적 특징으로 인해 특정 인물을 식별할 위험이 있다는 의미다. 흉부 CT 사진도 3차원 재건 기술을 악용하거나 특이한 흉터가 찍힌 경우 위험 요소가 있다.

이에 개인정보위는 개인식별 위험성 검토 체크리스트를 통해 위험을 사전에 진단하고, 위험을 낮추기 위한 관리 및 환경적 통제 방안을 적용하도록 했다.

연구 목적을 달성할 때 필요한 정보 항목을 남겨야 하는 경우에는, 그 외 정보에 대한 가명처리 수준을 높이거나 접근 권한 통제, 식별 악용 가능성이 있는 소프트웨어(SW) 반입 제한, 보안 서약서 징구 등 조치를 시행하도록 했다. 필요시 외부 전문가가 참여한 위원회의 적정성 검토를 받도록 했다.

고학수 개인정보위 위원장은 "AI 등 많은 신기술 영역은 현장 불확실성을 해소할 수 있는 세밀한 데이터 처리 정책이 중요하다"라며 "대규모 언어모형 등 생성형 AI와 관련한 '공개된 개인정보 처리 가이드라인' 등 현장의 어려움을 해소할 수 있는 기준을 올해 순차 발표할 것"이라고 말했다.

한편 비정형 데이터 가명처리 기준을 담아 개정한 '가명정보 처리 가이드라인'은 5일부터 개인정보위 누리집 또는 개인정보포털에서 확인할 수 있다.

김보민 기자
kimbm@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널