반도체

[어드밴싱AI24] 베일 벗은 AMD 차세대 AI 가속기…'MI355X' 첫 등판에 '술렁'

샌프란시스코=고성현 기자
리사 수 AMD CEO가 10일(현지시간) 샌프란시스코에서 열린 '어드밴싱 AI 2024'에서 신규 AMD 인스팅트 제품 'MI325X'를 선보이고 있다 [ⓒ공동취재기자단]
리사 수 AMD CEO가 10일(현지시간) 샌프란시스코에서 열린 '어드밴싱 AI 2024'에서 신규 AMD 인스팅트 제품 'MI325X'를 선보이고 있다 [ⓒ공동취재기자단]

[디지털데일리 고성현 기자] AMD가 데이터센터용 인공지능(AI) 가속기 신제품을 공개하고 엔비디아와의 AI 데이터센터 시장 경쟁에 불을 붙였다.

AMD는 10일(현지시간) 미국 캘리포니아주 샌프란시스코 모스콘 센터에서 '어드밴싱 AI 2024(Advancing AI 2024)를 개최하고 신규 AMD 인스팅트(Instinct) 라인업인 'MI325X', 'MI350X', 'MI355X'를 공개했다.

AMD가 출시하는 인스팅트 제품은 자체 AI 연산용 그래픽 아키텍처인 'CNDA'를 기반으로 한 AI가속기 라인업이다. AMD는 지난해 MI300X을 출시한 이래 올해 말과 내년 중 MI325X, MI350X를 순차적으로 출시하겠다는 계획을 밝힌 바 있다.

올해 말 출시될 MI325X는 CDNA 3 아키텍처 기반의 GPGPU다. 5세대 고대역폭메모리(HBM)인 256GB HBM3E를 탑재해 전작(MI300X) 대비 메모리 용량이 64GB 증가하고, 대역폭도 초당 5.3TB 6TB로 늘었다. 연산 성능으로는 FP8 기준 2.6페타플롭스(PFLOPS)·FP16 기준 1.3PFLOPS를 갖췄다. MI325X를 8개 칩으로 연결한 플랫폼에서는 2TB의 메모리 용량과 48TB/s의 대역폭을 지원하며, FP8 기준 20.8PF(페타플롭스), FP16 기준 10.4PF를 제공한다.

MI325X 플랫폼은 경쟁사인 엔비디아의 H200 HGX와 비교해 메모리 용량과 대역폭이 각각 1.8배, 1.3배 높으며, FP16·FP8 기준으로 1.3배 높은 성능을 발휘한다. 특히 추론 분야에서는 H200 HGX 대비 라마(LLama) 3.1 405B 모델을 1.4배 빠르게 처리하며, 이보다 매개변수가 적은 라마 3.1 70B 모델에서도 1.2배 앞선다. 훈련 성능도 강화돼 라마2 70B 모델을 경쟁작과 같은 수준의 성능으로 처리할 수 있다.

2025년 출시 예정인 차세대 제품인 인스팅트 MI350X 시리즈에 대한 주요 정보도 공개됐다. MI350X 시리즈는 3나노미터(㎚) 공정 기반의 CDNA4 아키텍처가 채택됐으며, 288GB HBM3E와 FP4 및 FP6 연산을 새롭게 지원한다. 8개 칩을 연결한 플랫폼 구성에서는 최대 2.3TB 용량과 64TB/s의 대역폭을 갖췄으며, 이를 통해 ▲FP16 18.5PFLOPS ▲FP8 37PFLOPS ▲FP6 및 FP4 74PFLOPS의 성능을 지원한다.

9일(현지시간) 진행된 '어드밴싱 AI 2024' 사전 브리핑에서 공개된 MI355X 플랫폼에 대한 스펙. MI350X의 후속 버전으로, 사진의 내용은 칩 8개를 연결한 플랫폼 구성 기준 성능 지표
9일(현지시간) 진행된 '어드밴싱 AI 2024' 사전 브리핑에서 공개된 MI355X 플랫폼에 대한 스펙. MI350X의 후속 버전으로, 사진의 내용은 칩 8개를 연결한 플랫폼 구성 기준 성능 지표

또 MI350X의 세부 라인업인 MI355X도 첫 공개했다. MI355X는 H200과 비교해도 1.3배 높은 FP16 및 FP8 성능과 1.8배 높은 메모리 용량, 1.3배 높은 메모리 대역폭을 지원한다. 추론 성능은 H200 HGX 시스템과 비교해 라마 3.1 405B 모델을 1.4배 더 빨리 처리하며, 라마 3.1 70B 모델은 1.2배 빨리 처리한다. 훈련 기능도 크게 강화돼 엔비디아 H200과 인스팅트 MI325X를 단일 비교했을 때 라마 2 7B 모델을 1.1배, 8개 구성에서는 라마 2 70B 모델과 동등한 수준의 성능을 갖췄다.

브래드 맥크레디(Brad McCredie) AMD 데이터센터 엔지니어링 담당 부사장은 "AMD는 지난해 MI300X에 액세스할 수 있는 OEM, ODM 및 대형 서비스 제공업체 목록을 빠르게 늘려왔다"며 "빠르게 변화하는 업계의 속도에 맞춰 (기술 발전 속도를) 빠르게 유지 중이며, 이러한 소프트웨어를 통해 성과를 얻고 있다"고 강조했다.

아울러 그는 "또 주요 오픈소스 플랫폼인 파이토치와 텐서플로우, 트리톤 등 포트에도 내장돼 있다"며 "이러한 오픈소스에 대한 플랫폼에 가장 많은 시간을 할애하고 있으며, 최근 인수한 사일로를 통해 많은 숙련된 팀원들이 이를 돕고 있다"고 덧붙였다.

AMD의 개발 생태계를 확대하기 위한 플랫폼인 'ROCm'의 성과도 공개했다. AMD ROCm 6.2 버전은 6.0 대비 초거대언어모델(LLM) 처리 성능을 최소 1.9배에서 2.8배까지 끌어올렸고, 학습 성능도 평균 1.8배 향상시켰다. AMD는 ROCm 호환성 향상을 위해 올해 7월 인수한 AI 스타트업 사일로AI를 투입, 유럽 언어 기반의 LLM을 AMD 인스팅트 가속기에 호환되는 작업과 200여 개의 AI 모델 고객을 지원하는 작업을 진행하는 식으로 ROCm을 업그레이드했다.

AMD는 올해 4분기 중 인스팅트 MI325X 생산을 시작해 내년 1분기 중 델, 에비덴, 기가바이트, HPE 등 주요 파트너사로의 판매를 시작할 계획이다. 그러는 한편 차기작인 MI350X 시리즈를 내년 중 출시하고, 오는 2026년 MI400 시리즈를 공개해 AI 데이터센터 시장 내 입지를 확고히 할 방침이다.

샌프란시스코=고성현 기자
naretss@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널