일반

[딜라이트닷넷] "우리 LLM 좋아요..." 입증 가능한 벤치마크는 무엇?

이건한 기자

[디지털데일리 이건한 기자] 오픈AI의 챗GPT가 쏘아 올린 전세계 AI 붐 밑단에는 '엔진' 격인 대형언어모델(LLM)이 있다. 이후 지금까지 구글, 메타 등 전세계 경쟁사들도 다양한 종류의 LLM 경쟁 모델을 쏟아내고 있는 가운데, 신모델이 등장할 때마다 주목되는 건 벤치마크(Benchmark) 점수다.

벤치마크는 특정 시스템의 성능이나 품질을 측정하기 위해 설정된 기준점을 말한다. 이때 표준화된 벤치마크는 사용자의 '체감'만으로 설명하기 어려운 세밀한 영역의 성능 수치 가시화를 돕는다. 이는 현재 AI 산업처럼 AI 성능의 상향평준화가 이뤄지는 시점에도 각 모델의 경쟁 우위를 가릴 수 있는 중요한 척도가 된다. 특히 글로벌 AI 빅테크들은 신모델 발표 시점에 주요 벤치마크 테스크 점수를 경쟁사 모델과 비교해 공개함으로써 자신들의 우위를 과시하곤 한다.

하지만 하나의 벤치마크가 모든 영역을 구체적으로 평가할 수 없고, LLM의 범용성을 고려해 이 영역에선 특히 다양한 종류의 벤치마크가 널리 쓰이고 있다. 만약 AI에 관심이 있고 각사의 LLM이 어떤 영역에서 특화된 성능을 나타내고, 어떤 영역에서 약한지 이해하려면 주요 벤치마크의 특징을 알아두는 것이 좋다.

일례로 아래는 LLM 기술 선두주자인 오픈AI가 지난해 5월 GPT-4o를 발표하며 공개한 벤치마크 지표다. 이 표에서도 MMLU, MATH 등 보편적인 벤치마크 테스트 점수들이 확인된다.

GPT-4o 주요 벤치마크 비교 [ⓒ 오픈AI]
GPT-4o 주요 벤치마크 비교 [ⓒ 오픈AI]

MMLU (Massive Multitask Language Understanding)

가장 보편적으로 쓰이는 MMLU는 AI 모델의 다중작업 학습 능력을 평가한다. 60여개의 주제와 4개 난이도로 분류된 약 1만6000개의 질문으로 이뤄져 있다. 주제는 역사, 지리, 수학, 의학, 법률 등 다양하며 그만큼 모델 범용성 측정에 적합하다. 질문 난이도는 고등학교 수준부터 대학원 수준까지 다양하다. 여기서 결과물 단위인 %는 측정 모델이 해당 벤치마크가 제시한 문제에 대한 정답률을 의미한다. 당연히 높을수록 고성능이다.

GPQA (Generalized Pre-trained Question Answering)

GPQA는 물리학, 화학, 생물학 분야 등의 전문지식 추론 능력을 측정한다. 일반 대화식 질의응답, 일반 상식을 기반으로 복잡한 추론 문제가 포함되는 특징이 있다. 448개의 객관식 문제가 출제되며 구글 검색으로도 쉽게 답을 찾을 수 없는 박사급 이상의 고난도 문제들로 구성되어 있다.

MATH

수학(Math)란 이름에 걸맞게 AI 모델의 수학적 문제 해결 능력을 평가한다. 중학교에서 대학교 수준에 이르는 다양한 난이도의 문제로 구성되며, 모델이 복잡한 수학적 추론과 계산을 얼마나 잘 수행하는지 확인하는 것에 초점이 맞춰져 있다. 단답형 외에도 단계별 풀이가 필요한 문제도 포함된다.

HumanEval

코드 생성 및 프로그래밍 능력 평가가 핵심인 벤치마크다. 코드 구현 문제가 주어지며, 모델은 파이썬 코드를 이용해 문제를 해결해야 한다. 그중에도 주어진 함수 설명에 따라 정확히 작동하는 코딩 능력이 중요하게 평가된다. 문제 해결 능력을 위한 논리적 접근 방식도 평가 요소다.

MGSM (Multistep Grade School Math)

MATH와 유사하게 수학 문제풀이 능력을 평가하지만, 이 벤치마크는 다단계 연산이 필요한 초등학교 수준의 다국어 문제가 제시된다. 기본적인 수학 연산 역량 및 논리적 순서 이해 능력을 확인할 수 있다. 또한 초등학교 수준이지만 상당히 복잡한 추론 능력 또한 요구되는 것이 특징이다.

DROP (Discrete Reasoning Over Paragraphs)

AI 모델의 독해와 추론 능력을 평가하는 벤치마크다. 질문은 문서 내의 여러 단락을 AI가 참고하며 답을 유추할 수 있도록 구성된다. 이 평가는 단순히 사실을 찾는 수준에서 나아가, 주어진 여러 텍스트 정보를 조합해 답을 찾아내는 고차원적 추론 역량이 중요하다. 순차적으로 찾아낸 근거, 찾아낸 근거를 논리적으로 연결하는 능력 등이 점수에 반영된다.

한국어 특화 'Open-Ko-LLM, KMMLU'

이밖에 한국어 처리 능력이 중요한 벤치마크도 존재한다. 이는 전세계 AI 모델 상당수가 영어 데이터를 중심으로 개발되는 만큼, 상대적으로 저자원 언어 데이터인 한국어 질의처리 능력이 상대적으로 떨어질 수 있기 때문에 꼭 필요하다. 대표적으로 MMLU를 한국어 조건에 맞춰 조정된 'KMMLU'가 있으며, LLM의 ▲추론 ▲언어 이해 ▲일반상식 ▲환각 방지 능력 등을 평가하는 Open-Ko-LLM도 널리 쓰인다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널