법제도/정책

AI시대 대응에 필요한 ‘합성데이터’, 정부도 활성화 의지

최민지 기자

30일 국립중앙도서관에서 ‘합성데이터 안전 활용 방안’을 주제로 ‘개인정보 기술포럼 세미나’가 열렸다.
30일 국립중앙도서관에서 ‘합성데이터 안전 활용 방안’을 주제로 ‘개인정보 기술포럼 세미나’가 열렸다.

[디지털데일리 최민지기자] AI 일상화로 데이터 수요가 기하급수적으로 증가함에 따라 전세계적으로 안전한 데이터 확보를 위한 ‘골드러시’가 심화되는 상황에서, 개인 프라이버시를 보호하면서도 산업적 활용도가 높은 ‘합성데이터’에 대한 국내외 관심이 높아지고 있다.

이에 개인정보보호위원회(이하 개인정보위)와 한국인터넷진흥원(KISA)은 30일 ‘데이터 경제시대의 핵심기술, 합성데이터 안전 활용 방안’을 주제로 2024년도 제1회 ‘개인정보 기술포럼’을 개최했다.

가트너에 따르면 2030년까지 세계 합성데이터 생성시장은 22억2616만달러(한화 약 3조832억원)에 이를 것으로 예상되며, 합성데이터 시장은 연간 10% 이상 성장할 전망이다.

합성데이터는 실제 데이터와 통계적 특성이 유사해, 실제 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 새롭게 생성한 가상의 데이터를 말한다. 개인정보를 보호하기 위해 실제 데이터 활용이 어렵거나, 활용할 수 있는 데이터 양이 부족한 경우 주로 활용된다. 실제 데이터와 유사할수록 활용 가치가 높아진다.

무엇보다, AI 학습에 필요한 대규모 데이터를 직접 구축하는 것보다 비용적으로 저렴하다는 장점도 있다.

이와 관련 개인정보위는 합성데이터 5종 ▲구강이미지 1000장 ▲안전모 착용 이미지 5500장 ▲혈당 측정정보 723건 ▲통신사 멤버십 사용내역 10만2503건 ▲기업주주‧대표자 정보 1860건을 공개했다.

또한, LG CNS와 서울시는 지난해 합성데이터 ‘서울시민 라이프스타일 재현데이터’를 생성해 서울 빅데이터 캠퍼스에 공개한 바 있다. 사례별로 서울 시민생활 데이터 10%를 활용해 합성데이터 생성 모형을 만든 후 서울 시민생활 데이터와 유사한 규모로 증강해 합성데이터를 생성했다. 활용 주제는 가구 유형별 금융 현황, 서울시민 소비 및 이동패턴이다.

이날 개인정보위 주문호 사무관은 “참조모델에서는 영상, 자연어 텍스트, 음성 등 복잡한 베정형 데이터를 합성데이터로 생성한 사례를 포함하지 않는다. 더 복잡하고 정교한 기술이 필요하며, 전통적 기법으로 유용성‧안정성을 평가하는 것이 어려워 많은 연구가 필요하다”고 짚었다.

이어 “개인정보 기반으로 생성된 합성데이터가 익명성을 검증받지 못한다면, 개인정보보호법 등 법적 제약으로 인해 활용에 부담이 발생할 수 있으니 익명성 판단 기준‧체계 마련이 필요하다”고 강조했다.

관련해 정부는 합성데이터 활성화를 위해 노력하겠다는 의지를 드러냈다. 합성데이터는 대표적인 개인정보보호 강화기술(PET)로, AI 혁신성장을 주도하면서 안전한 개인정보 활용을 담보할 수 있는 중요한 방법이라는 것이다. 특히, 개인과 관련된 실제 데이터인 비식별처리된 데이터와 차이가 있다는 설명이다.

개인정보위는 합성데이터 관련 규율체계를 구축하고, 합성데이터 생성‧검증 기술에 대한 연구개발(R&D) 사업을 추진할 방침이다.

최장혁 개인정보위 부위원장은 “가명정보가 활성화되지 못하는 이유는 재식별 가능성에 대한 우려 때문”이라며 “공공분야 많은 사례를 만들면서, 민간 가명처리에 대한 부담을 덜고자 한다. 합성데이터를 통해 데이터 활용을 촉진하고, 민간 가명처리 부담을 덜어 데이터경제 활성화를 기대한다”고 말했다.

이어 이상중 한국인터넷진흥원(KISA) 원장은 “합성데이터는 많은 양의 고품질 데이터를 생성하고, AI 성능 향상에 기여할 것”이라며 “양질의 합성데이터를 안전하고 유용하게 사용할 수 있도록 하겠다”고 전했다.

최민지 기자
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널