e비즈*솔루션

[취재수첩] AI시대, GPU 보다 중요한 데이터표준화

오병훈 기자
[ⓒ픽사베이]
[ⓒ픽사베이]

[디지털데일리 오병훈기자] ‘밀키트’는 현대인 식사 문화를 뒤바꾼 핵심 트렌드 중 하나다. 손질이 완료된 재료와 배합이 완료된 소스가 들어있어 소비자는 간단한 조리만으로 수준급 요리를 맛볼 수 있다는 장점이 있다. 그러나 만약 밀키트에 동봉된 재료가 흙조차 제대로 털어내지 않은 상태라면? 소스 배합은 고사하고 원료 그대로 들어있다면 어떻겠는가? 그건 이미 ‘밀키트’라고 할 수 없다.

AI 전문가들은 국내 AI 데이터 생태계 상황이 이와 같다고 입을 모으고 있다. AI 성능을 높이기 위해서는 정제된 대규모 데이터가 필요한 상황인데, 그 속을 들여다보면 정리되지 않은 데이터만 가득 쌓여 있다는 것이다. 성능 좋은 AI를 학습시키기 위해서 대규모 데이터가 필요한 것까지는 이해를 했는데, ‘어떻게’ 데이터를 축적해야 하는 지를 신경 쓰지 않은 결과다.

관리되지 않은 데이터가 쌓이면 어떤 문제가 발생할까? 데이터를 이용하는 기업, 기관마다 쌓여 있는 데이터를 정제하는 작업부터 다시해야 한다. 즉, 대규모 데이터를 축적하는 것 자체가 무의미해질 수 있다. 기술적으로 표현하면, 데이터를 가져오더라도 데이터 표현 형을 바꾸는 ‘컨버전’ 작업부터 다시 수행해야 하는 셈이다. 재료 손질이 전혀 돼 있지 않아 밀키트로써 가치를 잃은 밀키트인 셈이다.

전문가들이 현 상황을 심각하게 보고 있는 이유는 데이터 규모가 커지면 커질수록, 이를 이용하는 기관이 정제 작업에 투자해야 하는 시간과 돈도 비례해서 증가한다는 점이다. 결과적으로 데이터 관리 체계를 갖추는 시간이 늦어지면 늦어질수록 비효율성만 늘어날 뿐 원래 목표였던 ‘대규모 데이터로서 가치’는 흐려지게 된다.

실제로 많은 기업·기관 실무자들이 행정안전부가 운영 중인 공공데이터포털을 두고 고개를 젓는다고 한다. 저 많은 데이터를 언제 다시 정리해야 할 지 엄두가 나지 않는다는 이유다. 해당 데이터를 가져다가 회사 내 자체 인력을 투입해 정제하는 것보다 차라리 데이터 전처리 업무 대행사를 찾아가서 필요한 데이터를 의뢰하는 것이 낫다는 의견도 있다. 결과적으로 데이터를 쌓아둔 의미가 퇴색된 모양새다.

기업 간 협력 과정에서 발생하는 데이터 이동에도 유사한 문제가 발생한다. AI를 활용해 매출을 분석해야 하는 기업 입장에서 카드사 결제 데이터를 받게 되는데, 이때 정제되지 않은 데이터를 처음부터 다시 분석하는 과정을 거쳐야 한다.

이를 타개하기 위해서 산학계 전문가들은 실무자 의견을 모은 민관 전방위 데이터관리 연합 체계를 구축해야 한다고 입을 모은다. 정부부처를 포함, 기업 등 주요 데이터를 축적하는 주체들 간의 데이터 관리 체계를 마련할 필요가 있다는 것이다. 데이터 표준화를 통해 서로 상호호환 가능한 수준으로, 같은 플랫폼 내에서 통용될 수 있도록 관리해 대규모 데이터로서 장점을 강조하는 데 집중해야 한다는 것이다.

물론, 데이터 표준화가 모두에게 이익이 되는 것은 아닐 것이다. 이미 훌륭한 데이터 정제 기술을 가지고 있는 기업 입장에서는 오히려 이같은 전략이 손해가 될 수 있다. 이같은 기업을 위한 보상책 마련도 잊지 말아야 한다.

마지막으로 AI발전에 있어서 그래픽카드(GPU)만큼 중요한 것이 데이터 관리라는 점도 상기하자. 최근 ‘국가 AI 위원회’가 출범하면서 함께 선보인 ‘국가AI전략’은 주로 하드웨어 인프라 구축에 초점이 맞춰졌다. GPU칩 공급을 대폭 늘리고, 슈퍼컴퓨터센터 건설 등 굵직한 사업이 포함됐다. 분명 환영할 만한 일이다. 다만, 아무리 훌륭한 하드웨어를 마련해도, 그 안에 들어가는 데이터가 별볼일 없다면, 수조원대 투자가 의미 없어질 수 있다. 데이터 관리에도 그에 준하는 지원책이 필요하다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널