e비즈*솔루션

인피니밴드? 이더넷? AI 시대 필요한 네트워크 인프라는 무엇?

권하영 기자
하진철 에스넷시스템 전무가 25일 서울 서초구 양재동 엘타워에서 개최된 ‘클라우드 빅 테크(Cloud Big Tech) 2024’에서 기조강연을 하고 있다. [Ⓒ 디지털데일리]
하진철 에스넷시스템 전무가 25일 서울 서초구 양재동 엘타워에서 개최된 ‘클라우드 빅 테크(Cloud Big Tech) 2024’에서 기조강연을 하고 있다. [Ⓒ 디지털데일리]

[디지털데일리 권하영기자] 인공지능(AI) 인프라를 구축할 때 고민되는 것 중 하나가 ‘네트워크’다. AI가 발전하면서 다수의 그래픽처리장치(GPU)간 병렬연산을 빠르게 수행하기 위해 다양한 부하분산 기술이 필요해지는데, 네트워크 기술이 그중 하나다.

이 분야 대표 기술로는 ‘인피니밴드’와 ‘이더넷’이 있다. 과거엔 인피니밴드가 이더넷의 대역폭을 월등히 앞서다보니 고성능컴퓨팅(HPC) 분야에서 주로 인피니밴드를 활용해 왔는데, 최근엔 범용성과 비용 측면에서 이더넷을 고민하는 경우도 적지 않다.

이런 가운데 에스넷시스템은 25일 서울 서초구 양재동 엘타워에서 개최된 ‘클라우드 빅 테크(Cloud Big Tech) 2024’에서 기조강연을 통해, AI 네트워크 관점에서 비교분석하는 효율적인 AI 인프라 구성방안을 제언했다.

하진철 에스넷시스템 전무는 “AI에 필요한 GPU 성능이 향상됨에 따라 매우 높은 네트워크 대역폭이 요구되고 있다”며 “IDC 조사에 따르면 2027년 국내 AI 시장의 절반은 인프라이고 그중 20%가 네트워크 분야로 예측된다”고 지적했다.

실제로 AI 열풍과 함께 수요가 폭증한 엔비디아의 최신 GPU ‘H100’의 경우 400Gbps 이상 속도의 고대역 네트워크 사양이 요구되는데, 이는 이전 모델인 V100(100Gbps)이나 A100(200Gbps)을 봐도 매우 빠르게 증가하는 수준이다.

자연히 고대역폭의 인피니밴드가 주로 사용돼 왔지만, 최근엔 데이터 처리 속도를 높이는 RDMA(Remote Direct Memory Access)를 이더넷에서 제공하는 ‘RoCE(RDMA over Converged Ethernet)’ 기술로 이더넷도 직접적 경쟁이 가능해진 상태다.

실제 서버기업인 슈퍼마이크로 보고서에 따르면, 인피니밴드와 이더넷간 성능 차이는 있지만, 인피니밴드와 RoCE간 성능 차이는 없는 것으로 나타난다. 테스트 결과 8MB 기점으로 데이터 크기가 클수록 RoCEv2(버전2)에서 지연 시간과 성능에서 우수했는데, 멀티모달 GPT4 환경에선 데이터 크기가 커지기 때문에 이더넷 기반 RoCEv2가 상대 우위가 있는 것으로 예측된다.

이에 하 전무는 이날 생성형 AI 검색 서비스 ‘퍼플렉시티’를 통해 인피니밴드와 RoCEv2를 비교분석하도록 한 결과를 발표하며 각각의 장단점에 따른 선택기준을 제시했다.

이에 의하면 인피니밴드는 매우 낮은 지연 시간을 제공하는 초저지연성과 높은 대역폭 지원, RDMA 지원 등이 가능하지만 반대로 이더넷 장비보다 비싼 장비 비용, 인피니밴드용 특수 하드웨어가 필요하다는 점이 단점으로 꼽혔다.

반면 RoCEv2는 기존 이더넷 인프라를 활용할 수 있어 구축이 용이하다는 범용성이 인정되고, 일반적으로 인피니밴드보다 저렴한데다 RDMA 지원으로 과거 이더넷과 달리 고성능을 제공할 수 있다. 다만 최고 수준 성능에선 인피니밴드에 비해 약간 뒤질 수 있으며, RoCEv2 설정 자체가 인피니밴드보다 복잡할 수 있다.

이에 따라 네트워크 인프라를 고민 중인 기업이라면 ▲극도로 높은 성능이 필요한지 ▲예산이 제한적인지 ▲기존 인프라는 무엇인지 ▲향후 확장 계획이 있는지 등에 따라 최적의 선택이 달라질 수 있다는 조언이다.

하 전무는 “에스넷시스템은 AI 인프라를 구성하고 환경을 제공하면서 인피니밴드와 이더넷 등 여러 환경에 맞게 사용하는 게 중요하다고 보고 있다”며 “인피니밴드와 RoCE를 활용하는 건 각자에 맞게 선택해야 할 옵션”이라고 말했다.

권하영 기자
kwonhy@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널