‘인텔 가우디2’ 엔비디아 H100 성능우위…”벤치마크 보면 안다”

PC/프린팅/디바이스

디지털데일리 발행일 2024-03-29 13:12:57

김문기 기자

팻 겔싱어 인텔 CEO는 미국 캘리포니아주 새너제이(San Jose)에서 열린 연례 개발자 행사 인텔 이노베이션 2023에 기조연설자로 나서 인텔 가우디2 하드웨어 가속기 기반으로 스태빌리티AI(StabilityAI)를 위해 구축한 대규모 AI 슈퍼컴퓨터를 공개했다

[디지털데일리 김문기기자] 인텔이 AI 가속기 가우디2에 대해 경쟁사인 엔비디아 H100에 견줘 성능 우위에 있으며, 그에 따른 객관적 벤치마크 결과를 공개할 수 있는 유일한 기업이라고 자신했다.

28일(현지시간) ML커먼스(MLCommons)가 업계 표준 추론(inference) 벤치마크 ‘MLPerf v4.0’ 결과를 발표한 보고서에 따르면 인텔 AMX가 포함된 5세대 인텔 제온 스케일러블 프로세서와 인텔 가우디 2 가속기에 대한 벤치마크 결과 성능에 있어 엔비디아 H100 대비 우위에 있음이 확인됐다. 이번 결과는 그간 베일에 가려져 있던 MLPerf 결과가 공개됐기에 눈길을 끈다.

제인 볼 인텔 DCAI 제품 관리 총괄 부사장은 “인텔은 가속기 및 CPU 제품 전반에 걸쳐 업계 표준 벤치마크 결과 AI 성능을 지속적으로 개선하고 있다”라며 “이번 결과는 인텔이 고객의 역동적이고 광범위한 AI 요구 사항을 충족하는 AI 솔루션을 제공하고 있음을 보여주고 있다. 인텔 가우디 및 제온 제품 모두 고객에게 즉시 제공가능한 옵션과 강력한 가격 대비 성능상의 이점을 제공한다”고 밝혔다.

인텔 가우디 소프트웨어 제품군은 널리 사용되는 LLM(대규모 언어 모델) 및 멀티모달(multimodal) 모델의 모델 적용 범위를 지속적으로 확대하고 있다. MLPerf 인퍼런스 v4.0의 경우 인텔은 최첨단 모델 스테이블 디퓨전 XL(Stable Diffusion XL) 및 Llama v2-70B에 대한 가우디 2 가속기 결과를 제출했다.

텍스트 생성 추론에 대한 높은 고객 요구로 가우디의 Llama 결과에서는 연속 일괄 처리 및 텐서 병렬 처리를 지원하는 TGI 툴킷을 사용하여 실제 LLM 확장의 효율성을 향상시켰다. Llama v2-70B의 경우 가우디 2는 각각 오프라인 및 초당 서버 토큰에 대해 8035.0 및 6287.5를 제공했다.

또한 스테이블 디퓨전 XL에서 가우디 2는 초당 오프라인 샘플 및 초당 서버 쿼리에 대해 각각 6.26 및 6.25를 제공했다.

인텔 5세대 제온 테스트 결과는 MLPerf 인퍼런스 v3.1에서 4세대 인텔 제온 프로세서 대비 기하 평균이 1.42배 향상됐다. 예를 들어 연속 일괄 처리를 포함한 소프트웨어 최적화를 갖춘 GPT-J의 경우 5세대 제온은 v3.1에 비해 약 1.8배의 성능 향상을 보였다. 마찬가지로 DLRMv2는 인텔 AMX를 활용하는 MergedEmbeddingBag 및 기타 최적화를 통해 약 1.8배의 성능 향상과 99.9의 정확도를 보였다.

김문기 기자

moon@ddaily.co.kr

기자의 전체기사 보기