LLM에겐 '대답'이 아닌 '정답'을 들어야 한다...어떻게?
[디지털데일리 이건한 기자] "LLM(거대언어모델) 도입 전략이란 결국 '정답'을 답변하도록 하는 전략이다." 박영진 크라우드웍스 AI 전략실 실장은 18일 여의도 콘래드 호텔에서 열린 '크라우드웍스 AI 컨퍼런스 2024'에서 기업 맞춤형 LLM 전략 강연 중 이렇게 말했다.
전 산업에 뜨거운 AI 열풍, 그중에서도 LLM은 마치 모든 문제를 해결하는 도깨비 방망이처럼 이야기되는 시대다. 하지만 이런 기대는 오히려 기업의 올바른 LLM 접근법과 도입 전략에 혼선을 주고 있다. 이 점에서 LLM이 구조적으로 '대답'은 잘 하지만 '정답'을 잘 맞히는 건 별개의 문제이며, 그 답은 양질의 '학습 데이터'에 있다는 것이 박 실장의 설명이다.
박 실장은 이날 크라우드웍스가 경험한 실전 고객사례를 중심으로 많은 기업이 LLM 도입에 필수적인 데이터에 관한 이해가 부족한 현실을 지적했다.
예컨대 대기업 A사는 "우리에게 데이터가 수십만개나 있으니 이것으로 사내 챗봇을 구축하고 싶다."고 주문했다. 하지만 그들의 데이터는 동일한 파일명이 많았고, 어떤 데이터가 최신 혹은 최종 버전인지 알기 어려운 상태였다. 심지어 동일 프로젝트 내 파일의 묶음 범위도 모호했다.
또다른 대기업 계열 연구소인 B사는 "아무 데이터가 없는 상황이지만, 특수분야에서 활용 가능한 전문번역 기능이 필요하다"고 주문했다. 이들의 주문은 구글번역이나 파파고 같은 범용 번역 서비스로는 해결이 불가능한 상황이었다. 두 서비스가 B사에서 요구하는 전문분야 키워드를 학습하지 못했기 때문이다.
위 문제 중 해결에 성공한 과제는 무엇일까? 의외로 데이터가 전혀 없다던 B사였다. 비록 자체 보유한 데이터는 없었으나, 조사 결과 해당 분야에서 통용되는 전문용어집 데이터가 발견된 덕분이다. B사의 문제는 해당 용어집 데이터를 학습한 LLM 도입으로 해결될 수 있었다.
반면 A사 프로젝트는 수십만건의 데이터를 갖고도 무산됐다. AI 학습에 활용 불가능한 수준으로 정제되지 않은 데이터는 아무리 많아도 무의미했고, 심지어 A사가 "우리는 LLM이나 RAG(검색증강생성)으로 그 문제를 해결하려고 했던 것"이라 답했기 때문이다. 무엇보다 데이터를 정제할 의지조차 없었다. 수익이 클 대기업의 의뢰였지만 크라우드웍스가 해당 건을 정중히 거절한 까닭이다.
이 2가지 사례가 전하는 메시지는 명확하다. 기업이 LLM에서 단순 대답이 아닌 정답을 기대한다면 '정리된 데이터'의 준비가 최우선임을 알아야 한다는 것. 박 실장은 "누구도 알지 못하는 파일 묶음은 데이터가 아니"라며 LLM 도입 전략을 대학의 '오픈북 시험'에 비유하기도 했다. 학생들이 오픈북 시험을 앞두고 전공서적에서 미리 필요한 자료를 찾고, 중요한 부분을 표시하고, 요약자료를 만드는 것처럼 LLM을 도입하고자 한다면 자사 데이터를 동일한 관점으로 봐야 한다는 것이다.
LLM과 더불어 최근 또다른 도깨비 방망이로 주목받는 RAG도 마찬가지다. LLM이 참고 가능한 전문분야 데이터셋을 함께 제공함으로써 범용 LLM을 전문분야에서도 활용 가능하게 하는 RAG는 최근 LLM을 더 많은 분야로 빠르게 확대 적용하기 위한 열쇠로 여겨진다.
하지만 박 실장에 따르면 RAG 역시 '메타데이터' 레벨에서의 치밀한 준비가 이뤄지지 않으면 성능에 큰 영향을 받게 된다. 보통 기업에서 소량의 데이터로 RAG를 테스트한 후 성능이 좋으면 곧장 시도하는 경우가 있는데, 데이터 규모가 커지면 얘기가 달라진다는 설명이다. RAG 또한 데이터 규모가 커질수록 LLM이 데이터셋에서 정답과 일치하는 데이터를 찾는 난이도는 그만큼 증가하기 때문이다.
결국 LLM 도입을 단순한 기대만으로 시작할 경우 실패할 가능성이 높아진다. 무엇보다 회사 차원에서 먼저 LLM 도입 목적과 기대 효과를 명확히 하고, 필요한 데이터를 준비하는 과정이 반드시 선행되어야 한다.
AI 데이터 전문기업에서 올해 LLM 비즈니스 기업으로 본격적인 변모를 진행 중인 크라우드웍스는 효과적인 LLM 도입 전략 슬로건으로 '고객의 업무를 이해하는 것'을 제시하고 크게 3단계 전략을 제시했다.
첫째는 '기업 맞춤형 컨설팅 단계'다. 이 단계에선 우선 LLM 도입으로 해결하고자 하는 비즈니스 문제를 정의하고 적합한 기술을 선정 후 PoC(개념증명) 단계에서 검증 및 로드맵을 확정한다.
두번째는 '크라우드웍스 데이터 플랫폼'을 활용해 데이터를 주무르는 단계다. 내부 데이터 검토를 통해 필요한 데이터셋을 설계하고 활용이 용이한 형태로 가공하는 단계다. 이 과정이 끝나야 비로소 '크라우드웍스 LLM 플랫폼'으로 모델을 미세조정하며 목표 성능을 검증하고 실제 고객사 서비스와 연동이 가능해진다.
박 실장은 강연 말미 "LLM 준비와 데이터 준비는 동시에 필요한 것"이라며 "매일 쏟아지는 최신 LLM 기술에 현혹되지 말고 우선 회사에 어떤 데이터가 있는지, 이를 어떻게 활용할지 고민해야 LLM 시대에 길을 잃지 않을 수 있다. 어떤 모델도 데이터 없이는 '정답'을 말할 수 없음을 기억해야 한다"고 재차 강조했다.
한편, 이날 행사에는 이진우 크라우드웍스 NLP 팀 리더가 LLM 서비스 신뢰성 검증 평가를, 박창용·조은종 KB국민카드 데이터서비스부 과장과 김효준 우리은행 AI Banker PO 차장이 금융권에서는 LLM이 어떻게 도입, 연구되고 있는지 사례 중심의 상세한 강연을 진행했다. 행사장에는 200여명의 금융권 중심 AI 업계 실무 관계자들이 참석해 강연을 듣고 연사들과 질의응답을 주고받았다.
지난해 방송사업 매출 내리막…제작비 증가·광고수익 감소 영향
2024-12-25 12:00:00[부고] 강용모(오늘경제 부사장 겸 편집국장)씨 모친상
2024-12-25 11:22:59고려아연 "조건부 집중투표청구는 합법·적법”… 영풍·MBK측 문제 제기에 반박
2024-12-24 22:57:31민주당, 한덕수 권한대행 탄핵안 발의 계획 수정…"26일까지 기다린다"
2024-12-24 18:16:54