e비즈*솔루션

‘AI편향성’ 문제 해결나선 국가들…국내 데이터 전처리 기술 주목

오병훈 기자

[Ⓒ 픽사베이]
[Ⓒ 픽사베이]

[디지털데일리 오병훈기자] 정부가 국제 인공지능(AI) 안전성 공조를 위한 ‘AI안전연구소’를 출범하기로 한 가운데, AI 데이터 편향성 문제가 다시금 주목받고 있다. AI안전연구소 주요 해결과제 중 하나로 지목됐기 때문이다. AI 데이터 편향성 문제는 차별과 혐오 등 사회적으로 다양한 문제를 일으킬 뿐만 아니라, 기술적으로도 AI 성능을 떨어뜨릴 수 있어 시급히 보완·해결해야 할 문제로 지적되고 있다.

최근 정부는 안전한 AI 발전을 위한 국제 협력 체계 일환으로 오는 11월 중 한국전자통신연구원(ETRI) 내에 AI안전연구소를 개소한다고 밝혔다. AI안전연구소는 AI 안전 문제와 관련해 ▲안전평가 ▲정책연구 ▲대내·외 협력 ▲안전기술 연구 등 역할을 수행할 예정이다.

◆전세계는 AI 편견과 전쟁 중…다양성’과 ‘편견·혐오’ 구분 골치

AI 데이터 편향성 문제는 AI가 학습하는 데이터가 지나치게 한쪽으로 편중되거나, 정보가 한정적인 경우 발생하게 된다. 쉽게 예를 들자면, ‘한국인은 김치를 좋아한다’는 데이터만 학습한 AI는 김치를 싫어하는 사람을 ‘한국인이 아닌’ 사람으로 판단할 수도 있는 셈이다.

데이터 편향성 문제는 먼저 사회적 편견이나 혐오 문제와 직결된다. 불량 데이터를 학습한 AI는 작동 과정에서도 편견·혐오가 담긴 답을 출력할 수도 있다. 구글 AI 기능을 예로 들자면, 지난 2015년 ‘포토서비스’에 탑재된 AI가 흑인 여성을 ‘고릴라’로 인식하는 문제가 발생한 바 있다. 올해 2월에는 생성형AI 제미나이가 ‘독일군’ 이미지를 그려달라는 이용자 명령에 전범 나치 군인 모습을 출력하는 부작용이 발생해 한때 기능을 중단하기도 했다.

한 국내 AI 기업 관계자는 “편향성을 제거하기 위해서는 데이터 수집과 전처리 과정부터 균형잡힌 데이터셋을 구축하는 것이 필요하다”며 “데이터 수집 단계에서부터 인종, 성별, 연령, 사회적, 경제적 다양한 배경 요인을 검토해 데이터 다양성, 대표성을 확보해야 한다”고 강조했다.

특정 언어나 단어 등을 막는 필터링 방식으로 이를 해결할 수 있지 않느냐는 일부 의견도 있으나, 미봉책일 뿐이다. 특정 단어만 문제 삼을 경우에는 반대로 ‘다양성’ 문제를 해칠 수 있다. 다양한 의견이 개진될 수 있는 사회적 논쟁에서도 AI가 답변 출력을 거부할 수 있기 때문이다.

예컨대 중국이 제작한 AI 챗봇에 ‘천안문 사태’에 대해 질문할 경우, 해당 단어가 블라인드 처리되는 현상이 나타난다. 중국 당국에서 천안문 사태를 금지어로 지정해둔 것이 원인으로 알려졌다. 즉, 단순한 필터링 작업은 ‘눈치 보는’ AI를 만들 수 있다는 지적이다.

아울러 부족하고 편향된 데이터는 할루시네이션(환각) 문제와도 깊게 연관돼 있다. 다양한 데이터 속에서 연관성 및 관계성을 파악해 새로운 데이터를 추출하는 AI 특성상, 편향된 데이터 안에서는 한정된 답변밖에 할 수 없다는 설명이다. 특히 금융권 AI 활용 과정에서 정확한 데이터가 없어서 AI가 제대로 작동하지 않는다면, 은행이나 소비자 자산에 피해를 끼칠 수도 있다.

◆AI안전연구소, 편향성 해결 위한 기술 연구 집중

AI가 등장한 이후 데이터 편향성은 쉬이 고칠 수 없는 고질적 문제로 지적됐다. 정확한 AI 작동 원리를 규명하지 못하는 ‘블랙박스 문제’가 남아 있는 탓이다. AI를 개발한 당사자도 AI가 왜 이같이 문제시되는 답을 내놓는지 그 매커니즘을 시원하게 설명할 수 없으니, 해결도 어렵다.

결과적으로 미국을 비롯한 주요국들이 두팔 걷고 나섰다. 통제 불가능한 AI를 막고, 설명·지속 가능한 AI 개발을 촉진하기 위해 각국에 AI안전연구소를 설립하고 정보 및 기술을 공유하는 등 협력 체계를 구축하기로 한 것이다.

11월에 개소되는 한국 AI안전연구소도 데이터 편향성 문제를 중점적으로 다룰 예정이다. 이는 지난 18일 과기정통부가 공개한 ‘AI안전연구소 설립운영계획’에도 잘 드러나 있다. 정부는 주요 설립 배경으로 3 가지를 제시했는데, 가장 처음으로 언급된 것이 바로 ‘AI 기술적 한계’다. 대표적인 AI기술적 한계로는 ‘환각’과 ‘편향성’이 지목됐다.

주요 과제에서도 편향성이 언급된다. 4대 주요 과제 중 하나로 ‘AI안전 연구 기술’을 내세웠는데, 구체적으로는 AI 통제력 상실에 대응하는 정렬기술(Alignment)과 사회적 차별 및 편향 완화‧제거 기술 개발하는 것이 핵심이다. 앞서 예시로 나열된 혐오·편견·환각 문제에 대한 적극적인 대응을 시사한 것으로 풀이된다.

구글 AI 제미나이가 정확한 답변을 하지 못하는 모습 [ⓒ제미나이 답변 갈무리]
구글 AI 제미나이가 정확한 답변을 하지 못하는 모습 [ⓒ제미나이 답변 갈무리]

◆데이터 수집·전처리 중요성 부각…국내 스타트업도 개발 활발

기술적으로 편향성 문제를 완화하는 가장 핵심적인 방법 중 하나는 AI 개발 ‘첫단추’에 해당하는 데이터 수집·전처리 과정에서 AI 학습시킬 균일하고 질 높은 데이터를 확보하는 것이다. 제 아무리 벤치마크가 뛰어난 AI모델을 개발하더라도, 학습 데이터가 엉망일 경우에는 수준 높은 결과물을 도출할 수 없기 때문이다.

이에 국내 스타트업 사이에서도 활발한 데이터 전처리 서비스 연구가 지속되고 있다. 데이터 전처리 중요성이 높아진 만큼, 관련 서비스가 AI 산업 생태계 핵심 축으로 떠오르고 있기 때문이다. 특별한 기술 없이 진행하는 데이터 전처리 업무는 사람이 데이터를 일일이 확인하고 데이터에 대한 정보값을 입력해야 하는 막대한 단순 노동이 될 수도 있다. 정확성이 떨어지는 문제도 있지만, 더 큰 문제는 비용이다. 많은 기업들이 AI를 활용함에 있어 비용 효율화를 위해 데이터 전처리 전문 스타트업을 찾는 이유다.

국내 대표 데이터 수집·전처리 스타트업으로는 먼저 크라우드웍스를 예로 들 수 있다. 크라우드웍스는 전처리 기술 중 하나인 ‘데이터라벨링’을 앞세워 설립 6년만에 코스닥에 상장한 토종 데이터 전처리 전문 기업으로 꼽힌다.

근래에는 ‘신뢰할 수 있는 AI’ 구현 플랫폼을 표방하며 대규모 데이터 처리 플랫폼 ‘워크스테이지’를 선보이기도 했다. 데이터라벨링 기본 작업은 AI가 담당하고, 사람은 데이터를 검증하고 오차를 수정하는 일에 집중하는 방식으로 데이터 전처리 작업 효율을 높였다.

크라우드웍스 관계자는 “AI 모델은 수집된 데이터를 학습해 결과를 도출하기 때문에, 학습된 데이터가 편향돼 있다면 AI 모델 분석결과나 예측이 왜곡될 수 있다”며 “실제로 많은 기업들이 데이터 편향성 제거에 대한 수요가 높으며, 크라우드웍스는 레드티밍 서비스, 데이터 검증 프로젝트를 다수 수행하고 있다”고 말했다.

또 다른 토종 AI 전문기업 업스테이지에서도 최근 문서 데이터 전처리 기능에 특화된 ‘도큐먼트파스(Document Parse)’를 공개했다. 도큐먼트파스는 광학문자인식(OCR) 기술을 활용해 문서 내 텍스트는 물론, 그래프나 표 등 정보를 데이터셋으로 전환할 수 있다.

기존 OCR은 레이아웃이나 표 등 복잡한 형태는 인식하지 못하는 문제가 있었으나, 도큐먼트파스는 문제없이 가능하다는 것이 업스테이지 설명이다. 업스테이지는 도큐먼트파스가 어떤 형식 문서도 HTML과 같은 구조화된 형식으로 전환할 수 있기 때문에 기업이나 기관에서 실제 거대언어모델(LLM) 활용 시 바로 적용할 수 있다고 강조했다.

박찬준 업스테이지 수석은 “모델 편향성은 전적으로 데이터에 달려있다. ‘쓰레기가 들어가면 쓰레기가 나온다’는 유명 격언처럼, 전처리 과정에서 데이터 품질은 모델 학습의 성능을 크게 좌우한다”며 “편향성을 줄이려면 데이터 처리시 주요 정보를 양질있게 추출해내고, 불필요한 소실을 최소화하는 과정이 필수적“이라고 강조했다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널