AI

1위 오라클과 다른 길?...LLM 개발 뛰어드는 DB업계

이안나 기자
[ⓒ 픽사베이]
[ⓒ 픽사베이]

[디지털데일리 이안나기자] 생성형AI 시대 도래로 다양한 기업들이 거대언어모델(LLM)을 바탕으로 한 혁신에 매진하고 있다. 방대한 데이터를 학습해 언어를 이해·생성한다는 점에서 LLM은 데이터베이스(DB)와도 밀접하게 연관된다. 이에 글로벌 DB업체들은 각사 현황에 맞춰 LLM 기술을 활용하고 있다.

2일 업계에 따르면 LLM은 국내외 IT시장을 선도하는 기술로 떠올랐다. LLM은 DB업계에서도 주목하고 있는 기술이다. DB는 LLM 학습을 위한 데이터를 효율적으로 저장하고 관리하는 데 사용된다. 최신 데이터를 지속적으로 DB에 추가하고 이를 LLM 학습에 활용한다. 즉 DB가 정제되고 효율적으로 관리될수록 LLM 성능도 향상된다.

그간 DB는 복잡한 쿼리 언어를 사용해 실행됐는데, LLM을 적용하면 사용자가 자연어로 질문을 해도 이를 이해하고 적절한 결과를 제공할 수 있다. 비정형 데이터를 수치화해 빠르게 탐색하는 벡터DB를 함께 적용하면 문맥 의미를 파악해 결과를 주는 시멘틱 검색도 가능하다. 전문가가 아니더라도 DB를 활용할 수 있게 된 셈이다.

글로벌 DB업체들은 LLM 모델을 적용하는 데 있어 서로 다른 방법을 취하고 있다. 전세계 DB 1위 사업자인 오라클은 하나의 DB에서 여러 특화된 용도 DB 기능을 이용할 수 있는 ‘융합형DB’를 강조한다. 융합형DB에선 LLM을 적극 활용하되, LLM을 직접 개발하진 않는다는 입장이다. 오픈소스나 독립적 LLM 기업과 협업한다는 전략이다.

‘DB의 아버지’로 불리는 오라클 앤디 멘델손 DB서버 기술개발사업부 총괄부사장은 최근 국내 기자간담회에서 “LLM 개발엔 굉장히 많은 비용이 든다”며 “이미 잘 만들어져 있는 것을 쓸 수 있는데 굳이 만들 필요가 있을까 싶다”고 언급했다.

실제 LLM 개발은 매우 전문적이고 많은 시간과 자원을 요구한다. 실제 오라클은 라마나 코히어 등 기존 성공적인 LLM을 이용할 수 있도록 제공하는데, 그만큼 회사는 LLM 개발에 소요되는 비용·시간을 절약할 수 있다. 회사 자원을 핵심 사업 분야에 더 집중할 수 있다는 점에서 장점이 된다.

반면 데이터브릭스, 스노우플레이크 같은 DB업체들은 자체 LLM을 개발했다. 데이터브릭스는 지난 3월 오픈소스 LLM ‘DBRX’를 출시했고, 스노우플레이크 역시 지난달 오픈소스 LLM ‘아크틱’을 선보였다. 오픈AI GPT와 구글 제미나이 같은 LLM은 광범위한 분야 질문에 대응할 수 있도록 설계된 반면, DBRX나 아크틱은 주로 데이터분석과 처리·관리에 중점을 두고 기업용 대상으로 개발됐다.

이들이 DB분야에 특화된 LLM을 선보인 건 기존 제품들과 호환성을 높여 1위 업체인 오라클과는 차별화된 서비스를 제공하기 위한 시도다. DBRX와 아크틱은 넓게 보면 DB 분석과 관리에 특화된 LLM이라는 공통점을 갖지만, 각 모델이 해결하려는 문제나 목적에 따라 세밀한 기능은 차이가 있을 수 있다.

가령 DBRX는 데이터브릭스 플랫폼의 대규모 데이터 처리 및 분석에 초점을 맞추고, 아크틱은 스노우프렐이크 데이터웨어하우스 효율성에 특화돼있을 수 있다. 기존에 있던 자체 서비스들과 호환성과 최적화를 노리는 전략이다.

물론 LLM 개발에 높은 전문성이 요구되는 만큼 이들이 제공하는 LLM은 다른 생성형AI 모델에서 발생하는 환각(요청에 잘못 응답하는 것) 현상이 발생할 수 있다. 외신에선 가장 최근 출시된 아크틱을 두고 스노우플레이크 고객 외 다른 고객을 확보할 수 있을지를 과제로 꼽았다.

테크크런치는 “모든 목적에 맞게 미세조정(파인튜닝) 할 수 있는 오픈소스 LLM 모델이 대세인 환경에서 아크틱 LLM은 눈에 띄지 않는다”며 “해당 아키텍처는 다른 옵션 대비 효율성을 높일 순 있지만 이미 GPT4 등 유명한 비즈니스 친화적 LLM에서 기업들이 이탈할 정도로 극적일 것이라곤 볼 수 없다”고 전했다.

이안나 기자
anna@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널