솔루션

LLM 소스코드·데이터셋 모두 공개한 투디지트… ‘기술 초격차’ 자신감?

이종현 기자
ⓒ투디지트
ⓒ투디지트

[디지털데일리 이종현기자] 인공지능(AI) 스타트업 투디지트가 자사가 개발한 대규모언어모델(LLM) ‘녹스-솔라’에 대한 소스코드 및 데이터셋 일체를 오픈소스로 공개했다. 한국어 LLM 리더보드인 ‘Ko-LLM 리더보드’서 1위를 차지한 모델로, 국산 AI의 수준이 한 단계 높아질 것으로 보인다.

투디지트가 공개한 것은 AI 스타트업 업스테이지의 ‘솔라(Solar)’를 기반으로 한다. 솔라는 메타의 LLM인 ‘라마2(Llama2)’를 파운데이션 모델(FM)로 삼아 한국어에 특화되도록 개량한 것이다. 라마2에서 솔라로, 솔라에서 녹스-솔라로 이어졌다.

녹스-솔라는 한국지능정보사회진흥원(NIA)과 업스테이지가 공동으로 운영하는 Ko-LLM 리더보드서 성능을 입증했다. 녹스-솔라의 Ko-LLM 리더보드 평균점수는 67.7점이다. 1주일 전 60.5점으로 1위를 기록한 뒤 1주일새 7.2점이나 점수를 높였다.

엔비디아 그래픽처리장치(GPU)인 ‘A100’이 8개 탑재된 엔비디아 서버 1대로 만들어낸 결과물이라는 점도 주목할 만하다. 많은 컴퓨팅 파워를 동원한다면 더 나은 결과물을 만들 수 있는 특성 탓에 업계 일각에서는 리더보드의 점수를 ‘숫자놀음’이라고 비판한다. 기술이 아니라 자본을 앞세워 높은 순위를 차지하는 것에 대한 비판인데, 투디지트는 1대의 서버만 이용했다.

한 업계 관계자는 “업계에서는 Ko-LLM 리더보드를 기술 수준을 가르는 척도로 보지는 않는다. 진지하게 참여하기 보다는 마케팅 용도로 활용하는 곳들이 대부분”이라면서도 “그렇다 보니 투디지트의 결과물과 선택이 더 신선하게 느껴진다. 1~2점이 아니라 단번에 7점이나 높이는 것은 차별화된 노하우가 없다면 불가능한 일”이라며 녹스-솔라의 성과를 추켜세웠다.

투디지트 박석준 대표는 Ko-LLM 리더보드 참여에 대해 “기술력을 입증하기 위해 2022년 글로벌 AI 대회에 참여해 우수한 성적을 거둔 바 있다. 그런데 최근에는 리더보드에서 성과를 보인 적 없지 않냐, 하는 말을 많이 들어서 구성원을 설득해 한달여간의 준비 끝에 결과물을 선보이게 됐다”고 설명했다.

특히 눈길을 끄는 것은 투디지트가 단순 1위기 그치지 않고 모델의 소스코드와 학습 데이터셋을 모두 공개했다는 점이다. Ko-LLM 리더보드는 모델의 공개를 의무화하지만 소스코드와 데이터셋까지 공개할지는 자율에 맡기고 있다.

이와 관련 그는 바둑기사인 조훈현 9단이 전성기를 지내던 시절 자신의 노하우를 모두 담은 책을 낸 것에 비유했다. 책을 낼 당시 주위에서 노하우를 모두 공개하면 금방 따라잡히는 것 아니냐는 우려를 제기한 데 대해 조 9단이 ‘바둑의 발전을 위해 노하우를 공개했다면서 책을 보더라도 나를 넘기 위해서는 많은 노력을 해야 할 것’이라고 말한 것을 인용하며 “같은 생각”이라고 전했다.

박 대표는 “데이터를 공개하자는 것에 구성원들이 거부감을 나타냈다”며 “우리가 데이터를 공개하면 국내 스타트업 생태계가 한단계 발전할 수 있을 거라고, 또 공개한다고 해도 우리를 넘으려면 더 많은 노력을 해야 한다고 설득했더니 이해해 주더라”고 말했다.

NIA가 운영하는 Ko-LLM 리더보드 상위 순위 모델들. 빨간줄이 투디지트의 LLM, 초록색 박스는 투디지트의 LLM을 기반으로 파인튜닝한 모델이다.
NIA가 운영하는 Ko-LLM 리더보드 상위 순위 모델들. 빨간줄이 투디지트의 LLM, 초록색 박스는 투디지트의 LLM을 기반으로 파인튜닝한 모델이다.

투디지트가 녹스-솔라는 20일 기준 Ko-LLM 리더보드서 2위로 밀려났다. 현재 1위를 차지한 것은 AI 스타트업 T3Q가 녹스-솔라를 파인튜닝한 모델이다. 투디지트로 비롯한 선순환구조가 일찌감치 현실화하는 모습이다.

그러면서도 녹스-솔라가 투디지트가 가진 기술·노하우의 모든 것은 아니라고 선을 그었다. 파운데이션 모델을 기반으로 더 나은 결과물로 만드는 파인튜닝이 투디지트의 진면목인 만큼, 라마 등 여타 모델로 더 우수한 결과물을 만들어 낼 수도 있다고 자신했다.

그는 “한글을 배운다고 해서 문학을 잘 이해한다든지, 글을 잘 쓴다든지 하는 것은 아니지 않나. 특정 분야에 숙달되기 위한 학습, 훈련이 필요하다. AI 역시도 마찬가지”라며 “한글을 만드는 세종대왕이 될 수는 없으니, 구글이나 메타와 같은 기업들이 파운데이션 모델을 공개하면 이걸 잘 활용할 수 있도록 파인튜닝하는 것에 방점을 찍었다”고 강조했다.

한편 투디지트는 2022년 스탠포드대학에서 주최하는 기계독해 대회 ‘스쿼드2.0’에서 7위라는 괄목할 만한 성과를 보였다. 해당 순위는 국내 참여 기업·기관 중 1위로, 구글과 메타, 마이크로소프트(MS) 등을 제친 결과다. 딥마인드와 뉴욕대, 워싱턴대가 공동 주최하는 자연어 평가 대회 ‘글루’에서도 글로벌 14위를 기록했다. 4월부터는 글로벌 LLM 리더보드인 허깅페이스에 등재할 LLM 준비에 착수한다는 계획이다.

이종현 기자
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널