보안

합성데이터 생성 참조모델 5종 공개…6월3일부터 활용 신청 가능

김보민 기자
[ⓒ 개인정보보호위원회]
[ⓒ 개인정보보호위원회]

[디지털데일리 김보민기자] 연구자와 기업이 참고할 수 있는 합성데이터 생성 참조모델이 공개됐다.

개인정보보호위원회(이하 개인정보위)는 민간 연구자와 기업이 인공지능(AI) 학습에 합성데이터를 활용할 수 있도록 '합성데이터 생성 참조모델' 5종을 마련했다고 30일 밝혔다.

합성데이터는 실제 데이터와 통계적 특성이 유사해, 실제 데이터와 유사한 분석 결과를 얻을 수 있도록 만든 가상의 정보다. 데이터 특성만 참조해 실제 개인과 직접적 관련이 없는 새 데이터셋을 생성하기 때문에, 개인정보 일부 또는 전부를 변형하는 '비식별 처리' 기법과는 개념이 다르다.

일부 생성 요건을 갖출 경우 개인정보에 대해 요구되는 법적 제약 없이 활용이 가능하다. 민감 정보가 포함되거나 개인정보 침해 우려가 있는 경우에도 안전히 활용할 수 있다.

참조모델은 ▲구강 이미지 ▲안전모 착용 이미지 ▲혈당 측정정보 ▲통신사 멤버십 사용내역 ▲기업주주 및 대표자 정보 등으로 구성됐다. 합성데이터는 사전 준비, 생성, 유용성 및 안전성 검증, 활용 등 네 단계 절차를 거쳐 만들어졌다.

합성데이터 생성에는 첨단 기술이 활용될 수 있다. 예를 들어 구강 이미지 합성데이터 생성에는 AI 기술 기반 '적대적 생성 신경망(GAN)' 기술이 활용됐다. GAN은 '가짜 데이터를 생성하는 AI'와 '진짜와 가짜를 구분하는 AI'를 만들고, 두 개가 서로 경쟁해 발전하는 방식으로 학습을 진행하고 합성데이터를 만드는 알고리즘이다.

이번에 생성한 합성데이터 5종은 6월3일부터 '가명정보 지원플랫폼'을 통해 공개됐다. 합성데이터 활용을 원하는 기업이나 연구자는 누구나 신청할 수 있고, 최소한의 확인 절차를 거쳐 제공을 받을 수 있다.

고학수 개인정보위 위원장은 "본격화되는 데이터 경제 시대에 국민 삶의 질을 제고할 수 있도록, 개인정보의 안전한 활용을 위해 노력할 것"이라고 말했다.

한편 개인정보위는 한국인터넷진흥원과 함께 30일 '데이터 경제 시대의 핵심기술, 합성데이터 안전 활용 방안'을 주제로 올해 첫 개인정보 기술포럼 세미나를 개최한다.

이날 세미나에는 염흥열 기술포럼 의장(순천향대 정보보호학과 교수) 개회사를 시작으로 합성데이터 의미와 국내 발전 동향, 통계 및 AI 기반 생성 기술과 검증 방법 등을 주제로 각계 전문가 발표와 패널 토론이 이어졌다.

김보민 기자
kimbm@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널