AI

“AI·HPC 구축에 GPU는 필수”…HPE, 워크로드 최적화된 솔루션 제공

백지영
[디지털데일리 백지영기자] 머신러닝과 딥러닝 등 인공지능(AI) 및 고성능컴퓨팅(HPC) 인프라 구축에 있어 그래픽처리장치(GPU)를 빼놓고는 얘기하기 어려운 시대가 됐다.

GPU는 다양한 연산을 병렬 처리할 수 있는 특성 때문에 기존 목적인 그래픽 처리 이외에 AI 트레이닝(학습)·추론, 슈퍼컴퓨터, 가상화 데스크톱(VDI) 등 다양한 워크로드에서 활용되고 있다. 하지만 이같은 워크로드를 서비스하기 위해서는 서버를 비롯한 스토리지, 네트워크, 소프트웨어와 관리 솔루션, 지원서비스가 밑바탕이 돼야 한다.

한국HPE 엄현필 부장(테크니컬 아키텍트)는 21일 디지털데일리 DD튜브에서 열린 ‘GPU를 활용한 HPE AI 및 HPC 전략’ 웨비나에서 “현재 AI, HPC 영역에서 사용되는 700개 이상 애플리케이션은 워크로드와 업무에 따라 적용되고 있다”며 “각 애플리케이션마다 제공해야 되는 아키텍처가 다를 수 있어 워크로드에 맞는 시스템과 인프라를 제공하는 것이 중요하다”고 강조했다.

실제 서비스 기업들은 음성인식과 번역, 지도서비스, 빅데이터 분석 등 실생활과 밀접하게 연관된 서비스 제공에 GPU를 활용 중이며, 생명과학분야에선 코로나19 백신과 치료제 개발을 위해 GPU가 장착된 슈퍼컴퓨터를 사용하고 있다. 통신·미디어 분야에서도 통화음질, 실시간 스트리밍 서비스 등에 GPU를 활용 중이다.

이밖에도 국가 보안이나 범죄 예방과 같은 공공분야, 자율주행, 스마트 팩토리, 스마트 팜 등 제조분야와 금융권의 부정거래 방지, 챗봇, 콜센터 업무, 상품 추천 및 분석 등의 워크로드에 GPU를 활용해 시스템을 구성하고 있다.

엄 부장은 “워크로드에 따라 GPU 뿐 아니라 CPU와 메모리, 네트워크 대역폭, 스토리지 등도 고려해야 한다”며 “현재 가장 많이 사용하고 있는 엔비디아 GPU인 앰피어 제품군을 예로 들면, 대용량 데이터 분석 및 학습을 위해선 GPU를 매시 형태로 만들 수 있는 HGX 타입이 적용된 HPE 아폴로 6500 젠10(10세대) 플러스에 A100 GPU를 사용할 수 있다”고 말했다.

그는 “특히 앰피어 GPU의 경우, 슬라이스로 분할해 GPU의 활용을 최대한으로 만들 수 있는 멀티 인스턴스 GPU 기술인 MIG를 사용할 수 있다”며 “이러한 기술을 사용해 하나의 GPU를 여러 컨테이너나 가상머신(VM)에 할당할 수 있는데, 앰피어 GPU는 최대 7개 GPU로 분할할 수 있다”고 설명했다.

HPE는 이같은 각 요소별 특성을 워크로드에 맞게 공급할 수 있도록 AI 및 HPC를 위한 가장 광범위한 서버 포트폴리오를 제공하고 있다. 가장 많은 집적도의 GPU를 제공할 수 있는 HPE 아폴로 6500 젠10과 젠10 플러스 제품이 대표적이다.

아폴로 6500 젠10 플러스장비의 경우, SXM4 타입의 A100 GPU를 8개, PCIe 더블와이드 타입의 A100이나 A40 GPU를 10개, PCIe 싱글와이드 타입의 A10이나 T4 GPU를 16개까지 장착할 수 있는 것이 특징이다. 엄 부장은 “집적도를 높인 범용 제품 가운데선 독보적인 제품”이라고 강조했다.

이같은 대량의 GPU를 활용해 AI 트레이닝을 하거나 VM웨어, KVM등을 사용한 가상화 서비스, 더 나아가 이러한 가상화를 활용한 클라우드 서비스에 현재 적용되고 있다.

또, DL380 젠10 플러스와 같은 제품은 소규모 데이터를 활용한 트레이닝과 추론 등의 워크로드에 사용하고 있으며, 엣지단에서의 추론과 트레이닝을 위해 엣지라인 서버 EL8000, EL4000, EL1000 시스템이 제공된다.

여기에 더해 HPE는 지난 6월 AI 스타트업인 ‘디터민드AI(Determined AI)’를 인수해 HPE HPC 기술과 디터민드 AI의 기술을 결합해 머신러닝 모델의 고속화를 목표로 하고 있다. 디터민드 AI는 버클리 대학 AI 연구팀으로 구성된 회사다. 오픈소스 머신러닝 플랫폼을 통해 AI 모델을 빠르게 학습시켜주는 소프트웨어를 제공해 AI 가속화에 강점을 갖고 있다.

엄 부장은 “실제 디터민드 AI는 제약사가 신약 개발에 필요한 연산 시간을 3일에서 3시간으로 단축시켰으며, 머신러닝 모델을 빠르게 구축해 AI 사업을 재빨리 시작할 수 있게 할 수 있게 한다”고 강조했다.

현재 이같은 HPE의 제품 및 솔루션은 HPC 영역에서부터 그래픽 처리, 엣지 등에 적용돼 있다. 지난 6월 전세계 톱500 슈퍼컴퓨터 5위에 오른 미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 AI 슈퍼컴퓨터 펄머터의 경우, 6159개의 엔비디아 A100 텐서코어 GPU가 탑재된 HPE 시스템으로 구축됐다.

펄머터는 7000명 이상의 NERSC 연구자들에게 약 4엑사플롭스의 AI 성능을 제공한다. 24개 이상의 애플리케이션이 펄머터에서 바로 사용될 예정이며, 천체물리학, 기후, 양자물리학, 재료과학, 생물학 등 과학 연구 가속화에 활용된다.

가장 최근에 구축한 호주에 포지 슈퍼컴퓨터 센터에 구축한 클러스터 역시 AMD 밀란 CPU와 향후 출시 예정인 768개의 AMD MI200을 미리 장착해 구성됐다.

그래픽 처리 분야에선 웨타디지털이 HPE 아폴로 서버를 사용해 렌더링했다. 웨타디지털은 반지의제왕 시리즈 3부작과 호빗 시리즈 3부작 등을 렌더링한 회사다. 이 회사는 RTX GPU를 사용해 ‘레이 트레이싱’과 딥러닝 슈퍼 샘플링 기술을 활용해 렌더링 시 좀 더 사람의 눈으로 실제 보는 것과 같은 기술을 적용했다.

이밖에 HPE 역시 GPU 기반의 AI 시스템를 통해 스마트 팩토리를 운영하고 있다. 엄 부장은 “공장에서 서버, 스토리지 등 시스템을 조립할 때 문제가 없는지 학습된 데이터에 기반해 AI를 적용, 문제를 찾아냐 불량률을 줄이고 생산성을 높이고 있다”며 “엣지 컴퓨팅·AI와 결합된 고해상도 카메라를 사용해 제품의 합격·불합격 판단 시간을 21초에서 1초로 단축했다”고 설명했다.

그는 이어 “HPE는 엔비디아와 협력이 가장 잘 되는 회사로, AI가 비즈니스 전 방위에 활용될 수 있도록 지원하고 있다”고 강조했다.
백지영
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널