일반

구글도 고개 숙인 'LLM 신뢰성 검증'의 중요성 [real! AI Pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 전세계 기술산업 시장의 리더인 구글은 생성형 AI 시대에 접어든 이후 유독 공개적으로 체면을 구긴 일이 많았습니다. 챗GPT 대항마로 꺼내든 AI 모델이 공식 발표현장에서 제임스 웹 우주망원경에 대한 질문의 오답을 정답인 것처럼 출력한 일은 시작에 불과했죠. 이후 구글 검색엔진에 적용된 AI가 미국 오바마 대통령이 무슬림 대통령이란 답변을 내놓거나, 백인을 유색인종으로 그리는 일 등 크고 작은 사건이 이어졌죠.

2024년 8월 기준 제미나이에게 더이상 오바마 전 대통령에 대한 이야기를 들을 수 없는 상태다. LLM 서비스의 답변 신뢰도를 완벽하게 제어할 수 없는 상황에서 더이상의 불필요한 논란 발생을 막기 위한 임시방편으로 풀이된다. [ⓒ 제미나이]

구글은 앞서 딥러닝 AI 시대부터 어떤 기업보다 압도적인 기술력을 자랑했습니다. 오픈AI의 GPT를 비롯, 현재 모든 생성형 AI 모델의 뿌리로 여겨지는 '트랜스포머' 모델도 사실 구글의 기술이고요. 하지만 그런 구글도 언제 어디로 어떻게 튈지 모르는 생성형 AI를 완전히 제어하는 일은 결코 쉽지 않았단 사실이 앞서 언급된 사례들에서 잘 드러납니다. 또한 구글 AI의 실수가 운 나쁘게 매스컴을 많이 탔을 분, 잘못된 정보를 진실처럼 출력하는 할루시네이션(Hallucination, AI 환각현상) 문제는 다른 모든 생성형 AI에서 나타나는 공통된 숙제이기도 했습니다.

결국 우리의 시선은 단순히 "우와, 구글이 또 창피를 당했대!"가 아니라 AI 산업의 선두인 구글조차 왜 그런 망신을 당할 수밖에 없었는지 문제의 본질로 향할 필요가 있는데요. 바로 이 점에서 대두된 시사점이 생성형 AI의 단짝인 거대언어모델(LLM) 신뢰성 검증 및 평가의 중요성입니다.

현재 LLM 신뢰성 검증 주제를 가장 전문적으로 다루는 건 LLM '학습데이터'를 다루는 기업들이며, 본 주제는 국내 AI 데이터 전문 스타트업 셀렉트스타의 김세엽 대표의 이야기를 2편에 걸쳐 들어볼 예정입니다. 김 대표는 카이스트 전기 및 전자공학부 졸업 후 2018년 셀렉트스타를 창업한 젊은 AI 기업인입니다. 특히 셀렉트스타를 AI 개발을 위한 데이터 설계부터 LLM 검증까지 AI 종합 솔루션 기업으로 단기에 성장시키며 AI 시장의 주목을 받고 있습니다.

ⓒ 디지털데일리

'정답'보다 '그럴싸'를 좋아하는 생성형 AI

안녕하세요, 김세엽입니다. LLM 신뢰성 검증이란 단어 그대로 LLM이 내놓는 답변의 ▲신뢰성 ▲정확성 ▲안전성을 확인하기 위한 다각적인 평가 방법론을 뜻합니다. 앞선 구글의 이야기처럼 최근 AI 산업에서 굉장히 중요하게 다뤄지는 문제인데요. 일반적인 개발 규칙이나 가이드라인을 세우는 일처럼 단순한 방법으로 해결하기 어려운 숙제이기도 합니다.

이는 지금의 생성형 AI가 그 이름처럼 주어진 명령에 적합한 답변을 최대한 그럴싸하게 만드는 데 중점을 두는 AI이지, 답변의 정답 유무를 스스로의 자각으로 판단할 수 있는 AI는 아니기 때문입니다. 한마디로, 잘 모르는 질문을 받아도 정답 같은 답변을 만들기 위해 의도치 않은 거짓도 불사하는 것이 생성형 AI의 한계란 의미입니다. 물론 이 같은 할루시네이션 발생 가능성은 모델 설계 노하우에 따라서도 달라지지만, 실제 사용자들이 사용하기 전에 의도한 대로 신뢰할 수 있고 안전하게 사용 가능한 모델이 만들어졌는지 확인하는 일도 대단히 중요합니다.

현재 업계에선 LLM 신뢰성 검증의 범주를 답변의 '품질(quality)'과 '안전성(Safety)' 두 가지로 나누어 정의하고 있습니다. 품질은 LLM이 생성한 결과물이 사실인지, 관련성이 명확한지, 일관적인 답변이 생성되는지, 사람이 보기에 유창한 수준인지를 주로 살핍니다. 안전성 측면에선 LLM이 생성한 결과물에 사회적 편견이 담겼는지, 제공된 정보의 윤리와 유해성 등을 살피게 됩니다.

LLM 신뢰성 검증을 위한 기본 절차. [ⓒ 셀렉트스타]

AI 신뢰성 검증, 비즈니스와도 밀접한 사이

앞서 구글이 멘 '총대'가 좋은 본보기였던 걸까요? 요즘 LLM 도입 기업들도 신뢰성 검증에 상당한 관심을 보입니다. 단순 이슈를 넘어 신뢰성이 곧 '돈이 되는 AI 비즈니스' 구현에도 직접적인 영향을 미치고 있거든요. 예컨대 상품 추천 챗봇을 만드는 A사 프로젝트의 경우 본연의 역할인 정확한 상품 추천 역량이 가장 중요한 검증 요소였습니다. 사용자 요청에 맞지 않는 상품을 추천할 경우 오히려 사용자에게 금전적 손해를 줄 수 있기 때문인데, 이는 회사의 비즈니스 경쟁력 약화와도 직결되는 문제죠.

이런 각각의 LLM 검증 절차를 만들 때 중요한 건 세분화입니다. 하나의 신뢰성 검증 기준을 모든 도메인(분야)의 LLM에 공통 적용할 수 없다는 이야기입니다. 또다른 예로 의료 LLM이라면 결과물의 '정확성'이 최우선 검증 요소가 되어야 합니다. 반면 아동 교육용 LLM이라면? 아이 정서에 유해한 답변을 생성하는지에 대한 검증이 핵심이 됩니다.

각 도메인에 최적화된 신뢰성 평가가 이뤄지지 않을 경우, LLM은 'AI 혁신'을 통한 생산성 및 매출 증대를 노렸던 기업에게 오히려 독이 되어 돌아옵니다. 특히 사고 발생 시 주가를 비롯한 기업가치와 신뢰도 하락은 뼈아프죠. 쉽게 회복할 수 없는 문제이기도 합니다.

이에 셀렉트스타가 정립한 LLM 신뢰성 검증 절차도 크게 두 가지로 구분됩니다. 자세한 방법론은 후속편에서 다루겠지만, 우선 개념적인 측면에서의 방법론과 방향성을 설명 드릴게요.

첫째, 대상 도메인의 핵심 검증 영역을 정의하고 필요한 평가 기준을 수립합니다. 이어 평가용 데이터를 구축합니다. 둘째, 레드팀(Read Team, 적군의 입장으로 공격하는 모의상황)을 수행해 엣지 케이스(Edge case, 극단적 사례)를 확인합니다.

이때 주의할 점은 평가 기준의 객관화입니다. LLM의 답변을 사람이 점수화해 평가하면 주관이 많이 삽입될 수밖에 없는데요. 이를 최소화하기 위해 평가 기준을 세부적으로 나눈 후, 각 기준에 대해 2가지 선택지만 주어지는 '바이너리 평가'를 활용합니다. 궁극적으론 주요 도메인별 공통의 평가 기준을 개발하고, 이를 바탕으로 다양한 산업군에 적용 가능한 평가 프레임워크를 구축하는 것이 중요하다고 생각됩니다.

LLM 신뢰성 검증을 위한 레드티밍 예시. [ⓒ 셀렉트스타]

신뢰할 수 있는 AI 구현…적절한 '규범'도 필요

서두에 LLM 신뢰성 검증 여부에 기업이 특히 민감할 수밖에 없다는 얘기를 드렸습니다. 하지만 이 주제는 최근 학계와 연구기관들도 많은 관심을 나타내고 있는데요. 요즘의 트렌드는 주로 데이터를 통해 모델의 안전성을 제어할 수 있는 기술 및 모델 검증 방법론과 지표 연구로 보입니다. 이는 이제 AI 연구자들도 단순 모델의 성능 향상뿐 아니라, 모델 기반의 서비스 출시 전 충분한 검증의 중요성에 공감대를 형성한 것으로 볼 수 있는 대목입니다.

이처럼 LLM 신뢰성 검증이 AI를 다루는 산업계, 학계에 주요한 이슈로 떠오르고 있지만 대중의 인식은 아직 그에 미치지 못하는 측면도 있습니다. 사실 지금은 특정 기업의 AI가 사고를 쳐야 사회적으로 비판이 쏟아지고, 이를 수정하는 '소 잃고 외양간 고치기' 식 대응이 주를 이루는데요. 그전에 AI를 사용하는 대중들도 자신이 사용하고자 하는 AI 서비스가 충분한 신뢰성 검증이 이뤄졌는지 여부를 중요하게 생각하는 사회적 인식의 마련도 중요해 보입니다. 그래야 기업도 LLM 신뢰성 검증을 선택이 아닌 필수의 영역으로 인지하게 될 것이며, 검증에 더욱 만전을 기함으로써 사용자도 더 안전한 AI를 사용하게 되는 선순환이 이뤄질 테니까요.

저는 이를 위한 정부의 역할도 기대합니다. AI에 대한 대중의 인식 수준을 끌어올리려면 'AI의 올바른 사용법' 격인 'AI 리터러시(literacy)' 교육도 충분히 선행되어야 하기 때문입니다. 더불어 AI 신뢰성 준수를 유도하는 합리적인 규제 법안과 공통 규율 마련도 중요합니다. 이는 다양한 AI 응용산업에서 일관되게 적용할 수 있는 표준화된 평가 지표 마련, 이를 통한 안전한 AI 서비스 상용화의 최소 기준선 설정을 뜻합니다. 모든 위험을 막을 수 없다면 적어도 '극단적인 피해' 발생은 막아야 하니까요. 물론 기업의 내부적인 AI 거버넌스 제정과 전담조직 마련도 중요하지만, 그보다 앞서 구속력을 부여하는 정부의 제도적 뒷받침 또한 필수적입니다.

챗GPT는 우리 편이 아냐…'AI 주권' 지키려면

끝으로, AI 신뢰성 검증의 중요성은 최근 AI 산업의 또다른 이슈인 '소버린 AI'와도 긴밀하게 연결됩니다. 소버린 AI는 각국의 역사 및 문화 학습에 특화된 AI를 말하는데요. AI 시대에 각 나라가 AI 주권을 잃지 않도록 방어하기 위해 필수로 갖춰야 할 요소입니다.

실제 사례로 오픈AI가 개발한 챗GPT에 '다케시마'를 검색하면 '한국과 일본 간의 영토 분쟁지역'이란 설명이 나오는데요. 독도는 명확히 대한민국의 영토임에도 다케시마로 검색하면 편향된 답변을 내놓고 있는 거죠. 이는 미국에서 만들어진 LLM이 특정 지역의 역사를 제대로 이해하지 못해 발생한 문제입니다.

반면 한국의 소버린 AI로 분류할 수 있는 네이버 '하이퍼클로바X'에서는 다케시마를 물어볼 때 명확하게 '대한민국의 영토로서 사실이 명백하다'고 답합니다. 이런 문제만 놓고 봐도 향후 우리가 사용할 여러 LLM 서비스가 얼마나 대한민국의 정체성을 잘 반영하고 있는지 검증하는 것도 중요한 문제가 될 텐데요.

'다케시마'에 대한 챗GPT의 답변.

'다케시마'에 대한 네이버 하이퍼클로바의 답변

그만큼 범용 LLM 평가 체계와 다르게 소버린 AI에 대한 신뢰성 검증은 각 나라의 고유한 문화적, 윤리적 기준 준수를 가장 중요한 평가 요소로 반영해야 합니다. 또한 민감한 역사적 이슈나 사회적 규범과 충돌하지 않도록 평가 지표를 구성해야 하며, 이 또한 정부가 명확한 표준을 제시하는 정책적 지원에 적극적으로 나설 필요가 있어 보입니다. 나아가 우리 사회, 문화적 맥락을 AI가 높은 수준으로 이해할 수 있도록 더 나은 공동 데이터를 구축에도 힘쓰길 기대해 봅니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널