"한국 문화 이해하는 LLM 개발"…업스테이지, '1T 클럽' 발족
[디지털데일리 김보민 기자] 국내 인공지능(AI) 스타트업 업스테이지가 한국어에 능한 거대언어모델(LLM)을 구축한다.
14일 업스테이지는 한국어 데이터 부족 문제를 해결하고 고성능 LLM을 개발하기 위해 '1T(1 Trillion·1조) 토큰 클럽'을 발족한다고 밝혔다.
1T 클럽은 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다.
현재 업스테이지는 20여 개 언론사와 기업, 학계 등 데이터 제공자들과 파트너습을 위한 협의를 진행하고 있다. 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론, 한국어 LLM 발전에 기여할 다양한 분야의 파트너사들과 협업을 추진할 계획이다.
한국어 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 확보된 양은 많지 않다.
외국어 중심으로 학습을 마친 빅테크 LLM들은 한국어 실력은 물론, 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다.
일례로 GPT-3 기준 한국어 데이터 학습량은 약 1억개로, 비중은 0.01697%에 불과하다. 전체 언어 중 28위에 해당하는 수준이다.
업스테이지는 1억 단어를 기준으로 삼은 이유에 대해 "모델 성능을 확보하기 위한 규모"라고 설명했다.
업스테이지는 1T 클럽에 참여하는 파트너사에게 ▲데이터 제공량에 비례해 API 사용료를 할인하고 ▲LLM의 API 사업으로 창출될 수익을 공유하는 등 혜택을 제공할 계획이다.
데이터의 보안과 개인정보보호에도 심혈을 기울일 방침이다.
업스테이지는 파트너사들이 제공한 데이터를 모델의 한글 프리트레이닝 학습 용도로만 사용하고, 원문 추출은 불가능하도록 운영할 예정이다. 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론, 자체적인 탈옥방지(Jailbreak Check) 기술을 통해 원문 유출을 차단할 계획이다.
김성훈 업스테이지 대표는 "LLM은 오늘날 생성형 AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능 프라이빗 LLM을 활용할 수 있도록 생태계를 만드는 것이 중요하다"라며 "우리는 1T 클럽을 통해 데이터 제공자들의 권익을 지키고, 한국 문화 정서를 담아낼 수 있는 LLM을 개발해 국내 기업이 AI 발전의 수혜를 볼 수 있도록 최선을 다할 것"이라고 말했다.
한편 1T클럽에 관심이 있는 기관은 업스테이지 공식 홈페이지 또는 링크를 통해 신청서를 제출하면 된다.
[인터뷰] 돈 되는 렌탈 데이터?...신상용 프리핀스 대표 “렌탈 창업부터 금융 솔루션까지 함께할 플랫폼”
2024-11-23 12:05:50행안부, 클라우드 네이티브 제도개선 착수…“공공SW 전반 변화해야”
2024-11-23 09:39:29주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52