AI 합성 데이터는 부정확하다고? '모션캡처'로 극복한 기업 '비솔'
[디지털데일리 이건한 기자] 최근 국내외 인공지능(AI) 업계의 고민 중 하나는 '학습 데이터 부족'이다. AI 모델에 좋은 데이터를 많이 학습시킬수록 성능은 수직 상승하지만, 모든 상황에 적합한 데이터를 원하는 대로 구할 수 있는 건 아니기 때문이다. 저작권이나 사용료에 대한 이해관계 충돌로, 때론 원하는 데이터 자체가 희귀한 경우도 있다. 최근 일각에선 초고성능 AI 모델들이 이미 너무 많은 데이터를 학습한 만큼, 수년 뒤엔 데이터 수요보다 공급이 부족할 수 있다는 전망이 나오기도 한다.
이때 '합성데이터'는 문제를 해결할 대안 중 하나로 꼽힌다. 일반적으론 생성형 AI를 사용해 제작하는 인공적인 데이터를 말한다. 가령 고양이 사진 데이터가 부족하다고 치자. AI 모델이 기존에 학습한 고양이 데이터로 새로운 고양이 사진을 생성하도록 하고, 이를 정제하면 다시 학습에 사용 가능한 합성데이터가 된다. 이 방법은 당장 필요한 데이터를 빠르게 수급할 수 있는 점, 실제 데이터를 수집하고 가공하는 작업 대비 비용이 크게 절감되는 장점이 있다.
물론 단점도 있다. 대표적으로 정교함이 떨어지는 점과 부정확성이 꼽힌다. 실제 사물에 대한 이해가 부족한 AI의 한계, 또한 AI 환각(Hallucination)현상 발생으로 학습에 부적절한 데이터가 생성될 가능성도 배제할 수 없다.
비솔(Visol)은 모션캡처 시스템이 이 문제의 일부를 해결할 수 있음을 증명한 기업이다. 지난 2000 년 설립된 비솔은 'Visual+Solution'이 조합된 사명처럼 그간 이미지 분석과 처리, 영상 솔루션 분야에서 다양한 경력을 쌓아왔다.
이 가운데 합성데이터는 그간의 경험과 보유자산을 바탕으로 이제 합성데이터 시장에서 비솔만의 독자적인 경쟁력으로 부상하고, 업계엔 새로운 인사이트를 던진 키워드가 됐다. 이와 관련해 서울 가산동 비솔 사무실에서 백명균 사업개발팀 팀장을 만나 자세한 이야기를 들어봤다.
백 팀장은 모션캡처 기반 합성 데이터의 가장 큰 장점으로 '정밀도 높은 데이터'를 꼽았다. 모션캡처는 반사마커가 부착된 전용 수트(Suit) 를 착용한 사람의 움직임을 공간 내 모션캡처 카메라로 인식하고 3D 좌표값을 수집해, 정밀한 3D 모델링 및 합성 데이터 생성 작업에 사용될 수 있다.
비솔은 오래전부터 사업 일환으로 사내에 직접 모션캡처 스튜디오를 운영 중이다. 이곳에서 사람 등 동적인 움직임이 가미된 3D 모델링 데이터를 정교하게 생성할 수 있다. 이들은 합성데이터를 차량 등 고정된 사물의 이동 데이터인 '스태틱 데이터'와 사람처럼 관절 등을 지녀 복잡한 움직임이 포함된 '다이나믹 데이터'로 구분한다. 비솔이 주목한 건 기존 생성형 방식으로 대응하기 어려운 다이나믹 데이터 영역이다.
백 팀장은 실제 고객사례 중 스크린골프 전문회사인 A사 사례를 들었다. 당시 시장 내 후발주자인 A사는 선두 추격을 위해 AI 영역에서 차별화된 서비스가 필요했으나 스크린골프 학습 데이터가 다소 부족한 상황이었다. 그는 "당시 A사에 약 200만장의 골프 자세 관련 합성데이터를 제공했다. 여기에는 다양한 키, 체형 등이 적용된 60개의 3D 캐릭터와 실내외 3D 배경 3개, 다양한 카메라 위치가 적용됐다 "며 "고객사에서도 꽤 만족할 만한 성과를 거둔 것으로 안다"고 말했다.
A사가 필요로 했던 데이터는 실내외 다양한 환경에서의 골프 스윙 자세였다. 시장에 이런 데이터가 흔치 않을뿐더러, 이를 데이터화 할 때 인간 코치를 두고 일일이 감독하는 과정은 대단히 긴 시간과 비용, 품질의 불균형을 낳는다. 참여자나 코치의 컨디션, 지도 방식에 따라서도 얼마든지 다른 데이터가 만들어질 수 있기 때문이다. 필요한 시나리오도 수십 여개에 달하는 상황이었다.
이에 비솔은 A사가 초빙한 프로급 골퍼, 일반인들이 사내 모션캡처 스튜디오에서 필요한 시나리오 동작을 하도록 하고, 수집된 실수치 기반의 정교한 3D 모델링 합성데이터를 대량 생성했다.
백 팀장은 "오른손잡이인데 왼쪽 타석에서 치는 사람, 애초에 자세가 엉망인 사람, 각기 다른 체형, 카메라 각도에 따라 달라지는 관점 등 변수가 정말 다양하다"며 "무엇보다 이런 데이터는 '가려져 보이지 않는 어깨의 위치' 같은 요소도 명확히 판별할 수 있어야 한다. 기존 방식에선 사진 데이터에 보이지 않는 팔이나 손 위치를 감으로 지정하고 데이터 라벨링(이름표기)했다. 문제는 이 경우 당연히 실제 움직임 과정에서 부정확한 데이터가 만들어진다는 점인데, 3D 모델링 데이터가 활용됨으로써 효과적으로 해결할 수 있었던 것"이라고 설명했다.
이후 비솔은 다양한 분야에서 합성데이터 사업의 확장 가능성을 연구하고 있다. 모션캡처를 활용한 또 다른 활용사례로는 '태권도 품새 심사' 솔루션이 있다. 이 역시 태권도 동작의 정확성 측정과 훈련 효율 향상을 위한 AI 시스템에 유용하게 쓰일 수 있다. 사실상 '행동 기반'의 데이터라면 확장 가능성이 무궁무진하다. 특히 비솔이 생산하는 데이터는 모두 저작권 문제에서 자유로운 만큼, 최근 데이터 출처 문제가 이슈인 AI 시장에서도 또 하나의 사업 경쟁력으로 작용한다.
비솔은 나아가 특수환경에 대한 합성데이터 연구도 지속 중이다. 회사가 장기간 확보한 3D 모델링 환경 구현, 다이나믹 합성데이터 구축 능력을 바탕으로 '재난', '전쟁' 등 특수상황을 가정한 합성데이터 생성 연구가 주된 분야다. 특히 군사 분야는 세계 군사 첨단화 트렌드에 따라 AI 시뮬레이션, AI 훈련 수요가 증가하고 있는 영역이지만 역시 충분한 데이터를 확보하긴 어려운 영역이다. 각종 재난 상황도 마찬가지로, 비솔은 이들 분야에 대한 선제적 연구와 사례 확보를 통해 합성데이터 사업을 계속 확대해 나가겠단 계획이다.
다만 합성데이터가 만능이 아니란 점에는 동감했다. 백 팀장은 "어떤 학습데이터도 현실 데이터와 동일할 수는 없다. 하지만 비솔은 수치 정보 기반의 3D 모델링한 객체들과 고정밀 광학식 모션캡처 시스템을 통해 수집된 고품질 모션데이터를 사용하기 때문에 정확성, 정교함, 다양성, 특수성 다양한 AI 성능 향상 요구사항을 충족할 수 있다"며 "내부 머신러닝(ML) 융합개발팀에도 계속해서 우리가 생성한 데이터를 직접 검증한다. 합성데이터로 단 몇 프로의 성능 향상이라도 이끌어낼 수 있다면 그 자체로 충분한 가치가 있을 것"이라고 말했다.
백 팀장의 말처럼 실제로 다수 연구논문에 따르면 3D 모델링 합성데이터는 ▲게임제작 ▲로보틱스 기반의 제품 조립 ▲동물 움직임 관찰 및 분석 등 다양한 영역에서 이미 가시적인 성과를 거두고 있는 것으로 확인되고 있다.
실제 사업과 매출 측면에서 합성데이터가 미치는 영향은 얼마나 될까? 비솔은 현재 자사 AI 솔루션 공급 중 포함되는 합성데이터, 또는 합성데이터 직접 공급 등으로 관련 매출을 계산한다. 올해 기준 약 20~30억원의 수익이 예상되며 내년에는 80억원을 목표로 사업을 확대할 계획이다.
백 팀장은 "국내에서 합성데이터 활용 사례가 증가하고 있지만 여전히 데이터로서 부족하다는 인식이 대다수인 현실이다. 다행히 정부 차원에서 정책적으로 합성데이터 육성과 장려 움직임이 나타나 다행"이라면서 "그러나 빠르게 발전 중인 AI 산업에서 경쟁력을 강화하기 위해 지금보다 더 적극적이고 다양한 방식으로 합성데이터를 활용하는 방안에 대한 고민도 필요한 시기"라고 강조했다.
대기업 IT서비스 수장들, 변화보다 안정?…연말인사 관전포인트
2024-11-15 12:31:32함영주 하나금융 회장 "글로벌 눈높이 맞는 주주환원 이행”… 홍콩서 해외 IR
2024-11-15 12:28:22[尹정부 ICT점검] 불복소송전에 송무팀 필요성↑…개인정보위 "이르면 연초 전문인력 구성"
2024-11-15 12:27:41수능지문 속 링크 들어가니 '尹퇴진집회' 안내 …"도메인 구입 후 악용"
2024-11-15 11:26:46'최대 실적'에도 웃을 수 없는 케이뱅크… 내년 초 IPO 흥행엔 여전히 의문부호
2024-11-15 11:11:03