보안

구글·애플도 강조한 '차등정보보호', 개인정보 노출 해결법은?

김보민 기자

팀 쿡 애플 최고경영자(CEO) [ⓒ애플 WWDC 영상 캡처]

[디지털데일리 김보민기자] 개인정보 노출 사고를 예방할 대안으로 개인정보보호강화기술(PET)이 떠오르고 있다. PET는 가명처리 기술, 동형암호, 합성데이터 등 개인정보 보호 수준을 향상할 기술을 통칭하는 말이다.

최근 빅테크 사이에서는 '차등정보보호(Differential Privacy)'를 적용하는 흐름이 두드러지고 있다. 이 기술은 데이터셋에 임의로 오류를 섞어 개인을 식별하지 못하도록 하는 것이 핵심이다. 다만 더 많은 노이즈를 섞을수록 유용한 결괏값을 얻어내기 쉽지 않아, 전문가들 사이에서는 추가적인 연구가 필요하다는 의견이 나온다.

개인정보보호위원회(이하 개인정보위)는 16일 서울 중구 중앙우체국에서 제5차 '2024 개인정보 미래포럼'을 열고 PET 활용 방안을 논의했다. 이날 발표를 맡은 정성규 서울대 통계학과 교수는 "현재 외국에서는 차등정보보호를 활용한 사례가 많이 있다"며 "전체 통계적 특성을 파악하는 질문에 답을 제공해 주되, 특정 개인에 대한 정보 공개로 이어질 수 있는 질문에는 답을 주지 않는 것이 핵심"이라고 밝혔다.

차등정보보호를 구현하는 대표적인 방식은 데이터셋에 '노이즈(noise)'라고 불리는 작은 오류를 추가하는 것이다. 200명을 대상으로 데이터 조사를 진행한다고 가정했을 때, 여기에 대상 한 명을 노이즈로 추가해 201명의 값을 도출하는 방식이다. 정 교수는 "노이즈는 무작위로 추가된다"며 "작은 노이즈는 큰 영향을 주지 않는다"고 설명했다.

차등정보보호 특히 인공지능(AI) 시대가 도래한 이후 주목을 받고 있다. AI 모델을 학습시키기 위해서는 데이터셋이라는 재료가 필수적인데, 여기에 개인을 식별할 만한 정보가 들어갈 시 노출 사고가 발생할 수 있기 때문이다.

정 교수는 "차등정보보호는 적대적 공격이 일어나더라도 확률적 모호성을 보장해, 개인에 대한 추론을 어렵게 한다"며 "여러 개의 차등정보보호된 결괏값을 결합해도 구현이 가능하다"고 부연했다.

현재 빅테크에서는 소비자 정보를 수집하거나 분석할 때 차등정보보호 기술을 활용하고 있다. 애플은 사용자 행동 패턴을 수집할 때 차등정보보호를 적용 중이다. 텍스트 입력 추천용 단어를 학습하거나, 인기 이모티콘과 건강 데이터 유형을 추적할 때가 대표적이다.

구글은 교통, 에너지 소비, 온실가스 배출 현황 등 환경 정보를 제공하는 'EIE(Environmental Insights Explorer' 서비스에 차등정보보호를 적용하고 있다. 이 서비스는 위성 이미지와 지도 데이터를 활용해 개인정보 노출에 주의가 필요하다는 특징이 있다. 이 밖에도 마이크로소프트(MS)는 프로그램 사용시간 조사에, 링크드인은 외부인 데이터 쿼리에 차등정보보호가 적용된 데이터셋을 사용하고 있다.

개인정보보호위원회가 16일 서울 중구 중앙우체국에서 제5차 '2024 개인정보 미래포럼'을 진행하고 있다. [ⓒ개인정보보호위원회]

이러한 흐름에 최근에는 오픈소스에 대한 차등정보보호 연구도 활발해지는 추세다. 다만 일각에서는 차등정보보호가 개인정보 노출을 해결할 만병통치약이 아니라는 지적도 나온다. 노이즈를 삽입하는 등 데이터셋에 변동을 주는 만큼, 동일한 수준에서 개인정보 보호 수준을 유지하면서 유용한 결괏값를 얻어내는 것이 까다롭기 때문이다.

정 교수는 "현재 차등정보보호를 지키면서 결괏값을 어떻게 더 유용하게 만들지에 대한 연구가 가장 활발하다"며 "쉽게 생각하면 노이즈를 많이 넣어 (개인을) 알아볼 수 없게 하면 되지만, 같은 정보보호 수준에서 균일한 결괏값을 내는 것이 관건"이라고 강조했다.

한편 이날 개인정보 미래포럼에서는 황성주 카이스트 AI대학원 교수의 '연합학습'에 대한 발표에 이어 질의응답 시간이 이어졌다. 개인정보위는 제안된 의견과, 추후 제6차 포럼에서 논의한 내용을 반영해 개인정보 보호 강화기술에 기반한 활용 체계를 마련할 계획이다.

김보민 기자
kimbm@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널