[인터뷰] "AI, 이제는 진검승부할 때"…셀렉트스타가 말하는 벤치마크 데이터의 힘
[디지털데일리 김보민 기자] 오픈AI의 챗GPT가 시장을 강타한지 1년이 지났다. 챗GPT는 기술 스타트업 시장에 많은 영감을 제시했으며 본격적으로 AI시장에 직접 뛰어드는 스타트업이 폭증하게 된 계기를 마련하기도 했다.
실제 인공지능(AI) 기업들에게 지난 1년간의 소회를 물으면 늘 돌아오는 답이 있다. "폭풍 같은 한 해였다"는 말이다. 챗GPT 열풍이 불면서 생성형 AI를 도입하려는 고객사가 폭증했고, 국내외 AI 시장의 거시적인 흐름 또한 하루가 다르게 변화한 영향이다.
다만 이제는 새 폭풍에 대비해야 한다는 전망도 나온다. 뛰어난 기능을 구현하는 것을 넘어, 신뢰할 수 있는 AI에 대한 필요성이 커졌기 때문이다. 단순 '기술력'만으로 승패가 갈리던 시대가 저무는 셈이다.
이러한 분위기 속 AI의 가장 기초 재료인 '데이터'로 승부에 나선 기업이 있다. AI 데이터 전문 셀렉트스타(Selectstar)는 벤치마크 데이터 분야에서 경쟁력을 강화하며 새 시대를 맞이할 준비를 하고 있다.
◆ 터닝포인트 맞이한 셀렉트스타, 핵심은 'AI 신뢰성'
올해 설립 6년 차를 맞은 셀렉트스타는 AI 학습 데이터를 위한 올인원 플랫폼을 운영하는 스타트업이다. 특히 일반 이용자들이 데이터 수집에 참여할 수 있는 크라우드소싱 플랫폼 '캐시미션'으로 이름을 알리며, AI 데이터 산업의 주요 플레이어 중 하나로 자리를 잡았다.
김세엽 셀렉트스타 대표는 <디지털데일리>와의 인터뷰에서 크라우드소싱 데이터 수집의 흐름 또한 변하고 있다고 설명했다.
그는 "예전에는 간단하게 '개냐 고양이냐'를 구분하는 게 핵심이었기 때문에, 데이터를 수집하는 과정에 많은 사람들이 참여하는 게 중요했다"라며 "그러나 지금은 소수 정예라도 특정 영역에 전문성을 갖춘 데이터를 모으는 게 중요해진 상황"이라고 말했다. 이어 "AI에 대한 기대가 높아졌다는 의미"라고 강조했다.
현재 셀렉트스타는 데이터 기획 컨설팅으로 사업 분야를 확장하며 경쟁사와 차별화된 행보를 이어가고 있다.
특히 벤치마크 데이터 분야에서 주목을 받고 있다. 벤치마크 데이터셋은 공통된 기준으로 AI 정확도를 평가할 수 있는 기반으로, 신뢰할 수 있는 AI를 구축하는 과정에 꼭 필요하다.
셀렉트스타는 한국어 대표 벤치마크 데이터셋 '클루'(KLUE)와 '코쿼드'(KorQuAD 2.0)' 구축에 참여한 유일한 데이터 기업이다.
김 대표는 "기존 데이터 레이블링 시장은 대동소이하다는 평가를 받았지만 이제는 전문성을 키우는 방향으로 흘러가는 추세"라며 "최근 거대언어모델(LLM) 국가 과제에 셀렉트스타가 참여한 것을 자사 최대 터닝포인트로 보는 이유"라고 강조했다.
현재 셀렉트스타는 한국지능정보사회진흥원(NIA)의 '초거대 언어모델 신뢰성 벤치마크 데이터' 사업의 주관 기관으로 활약하고 있다.
해당 사업에는 스캐터랩이 참여 기업으로, 네이버·SK텔레콤·KT 등이 수요 기업으로 참가하고 있다. 스캐터랩은 AI 모델 검증 작업을, 나머지 수요 기업들은 현업에서 데이터를 쓰려면 어떤 기능들이 필요한지에 대한 의견을 수렴하는 역할을 수행하고 있다. 국내 선도 AI 기업들이 신뢰성 기준을 마련하는 것은 이번이 처음이다.
김 대표는 이번 사업이 추진된 배경 또한 AI 산업의 변화 흐름과 무관하지 않다고 설명했다. 그는 "국내 상황에 맞게 AI 신뢰성에 대한 기준을 정립하고, 이를 평가할 수 있는 셋이 필요하다는 정부와 업계 의견이 꾸준히 제기돼 왔다"라며 "이제는 우리의 가치관을 정하는 게 중요해진 시기"라고 말했다.
셀렉트스타가 주관하는 이번 사업은 LLM 모델 학습과 평가에 필요한 데이터셋을 만드는 게 핵심이다. ▲무해성 ▲정확성 ▲도움 적정성 등 세 가지 기준을 중심으로 AI 모델의 신뢰성을 정략 평가하자는 취지다.
◆ 이상적인 AI 실현하려면? "AI 평가 투트랙으로 가야"
신뢰할 수 있는 동시에 경제적 가치까지 창출하는 AI를 만드는 데 어려움은 없을까. 김 대표는 "있을 가능성이 높다"라고 답했다.
그는 "최근 데이터와 관련해 저작권(라이선스) 이슈가 많이 불거지고 있다"라며 "이전에는 관련 개념이 부족해 크롤링으로 수많은 데이터를 가지고 와 사용하다 보니 데이터에 들어갈 비용이 거의 없었다"라고 말했다.
이어 "그러나 지금은 이러한 데이터 소스를 가지고 있던 여러 회사나 언론사들이 AI 윤리적인 측면에서 문제를 제기하기 시작했다"라며 "마음대로 데이터를 쓸 수 없는 환경이 구축되면서, 결국 AI를 만드는 데 있어 원가 및 투자 비용이 많이 투입될 수밖에 없는 상황"이라고 설명했다.
그러면서 "결국에는 소비자에게 비용을 부담하게 하거나, 적자를 낼 수 밖에 없다는 의미"라며 "때문에 신뢰와 경제적 가치 사이의 중간 조율 방법을 찾는 게 중요하다"라고 강조했다.
김 대표는 데이터, 나아가 벤치마크 데이터가 조율 역할을 해낼 수 있을 것으로 내다봤다. 특히 수요처가 필요로 하는 데이터의 양과 형태에 따라 평가 기준을 구분하는 방식이 구현될 필요가 있다고 밝혔다.
김 대표는 "자사는 AI를 평가하려면 투트랙(two track)으로 접근해야 한다고 보고 있다"라며 "하나는 공통 평가, 다른 하나는 서비스 맞춤 평가"라고 말했다.
이어 "서비스마다 봐야 하는 관점이 다르기 때문"이라며 "어떤 LLM이 거짓말을 하지 않는다는 평가를 할 때 결국 지식 범위가 중요한데, 어떤 기업은 전문가를 겨냥하기 때문에 높은 수준의 지식을 확인하기를 원하고 다른 기업은 소비자기업간거래(B2C)에 집중하기 때문에 그 정도까지 필요하지 않아 할 수 있다"라고 설명했다.
국가 과제로 터닝포인트를 맞이한 셀렉트스타의 향후 목표는 무엇일까. 김 대표는 "필수 연료인 데이터를 중심으로 한국이 AI 주권을 잡을 수 있도록 적극 도울 것"이라고 말했다.
끝으로 "내년은 AI 분야에서 진검승부하는 때"라며 "AI를 하는 데 있어 데이터가 핵심인 것처럼, 데이터 분야에서 셀렉트스타가 핵심으로 기억되도록 노력할 것"이라고 밝히며 인터뷰를 마쳤다.
[2024 IT혁신상품] AI 협업부터 비정형데이터 보호까지…지란지교그룹 '각개약진'
2024-12-19 18:33:01비트코인, 1억5000만원대 유지…RWA NOVA 코인, 비트마트에 신규 상장
2024-12-19 18:06:07'계엄군 점거' 서버 살펴본 선관위 보안자문위…"침입 흔적 없다"
2024-12-19 17:56:25[현장] 티빙·웨이브 합병 두고 CEO별 온도차…"주주 동의 필요 vs 無 관여"
2024-12-19 17:13:57[DD퇴근길] 갈길 먼 AI 기본법…바디프랜드, '가구' 선보인 이유는
2024-12-19 16:52:18