e비즈*솔루션

[스마트엔터프라이즈2024]“AI산업 하드웨어 뒷받침 되려면…수랭식 냉각은 선택 아닌 필수”

오병훈 기자
윤용수 NHN클라우드 데이터센터엔지니어링실 이사는 13일 서울 강남구 포스코타워 역삼 이벤트홀에서 열린 디지털데일리 주관 스마트 엔터프라이즈 2024에서 ‘국가 AI 데이터센터 및 AI를 위한 데이터센터의 준비’를 주제로 발표에 나섰다.
윤용수 NHN클라우드 데이터센터엔지니어링실 이사는 13일 서울 강남구 포스코타워 역삼 이벤트홀에서 열린 디지털데일리 주관 스마트 엔터프라이즈 2024에서 ‘국가 AI 데이터센터 및 AI를 위한 데이터센터의 준비’를 주제로 발표에 나섰다.

[디지털데일리 오병훈기자] “액체로 그래픽카드(GPU) 발열 문제를 해결하는 수랭식 냉각 시스템으로의 변화는 이제 피할 수 없는 흐름이다. 받아들여야 한다.”

윤용수 NHN클라우드 데이터센터엔지니어링실 이사는 13일 서울 역삼동 포스코타워에서 <디지털데일리>가 개최한 ‘스마트 엔터프라이즈 2024’ 컨퍼런스에서 ‘국가AI데이터센터 및 AI를 위한 데이터센터 준비’를 주제로 발표하며 이같이 강조했다.

그는 먼저 전세계적으로 골머리를 앓고 있는 데이터센터 내 GPU 발열 문제 원인에 대해 짚었다. GPU 발열 정도를 나타내는 수치로는 열 설계전력(TDP)이 있다. 윤 이사는 이 TDP 수치가 지난 2020년을 기점으로 지수함수적으로 급증하고 있다고 설명했다.

윤 이사는 “2020년 이전까지는 중앙처리장치(CPU)와 GPU TDP 수치가 직선을 그리며 나란히 증가하다가 2020년 기점으로 GPU TDP가 홀로 곡선을 그리며 급하게 상승하고 있다”며 “전 세계 데이터센터 관계자들이 모두 충격을 받을 정도로 빠른 속도로 발열 정도가 심해졌다”고 말했다.

비슷한 시기 정부와 협력해 광주에 국가AI데이터센터 설계를 시작한 NHN클라우드 입장에서도 이같은 변화에 대한 적절한 대응책이 필요했다. 이에 따라 NHN은 전통적인 데이터센터 설계 방식 대신, 냉각 효율을 극대화할 수 있는 새로운 설계방식을 택하게 됐다.

그는 “기존 이중마루 방식 대신 측면 토출 방식으로 냉각 공기 흐름을 강화하고, 열 토출 능력을 높이는데 집중했다”며 “높은 층고로 대용량 열처리 공간 확보함과 동시에 열복도 차폐방식으로 공기흐름 간섭 최소화하는 것이 핵심이었다”고 설명했다.

이러한 발전된 공랭식 냉각시스템도 결국에는 수랭식 냉각시스템으로 변화를 막을 수 없다는 것인 윤 이사 생각이다. 국가AI데이터센터에 도입된 GPU는 대부분 엔비디아 H100으로, 발열 정도가 아직까지는 공랭식을 통해 해결할 수 있다. 하지만 최근 엔비디아에서 AI 전용 칩으로 내세운 GB200 칩부터는 공랭식 냉각시스템만으로 열 문제를 해결할 수 없는 정도에 이를 것이라는 설명이다.

윤 이사는 “발열 문제가 데이터센터 시장 최우선 해결책으로 떠오르면서 미국 내 유수 학회에서는 다양한 환경에 따른 액체냉각 가이드라인 연구를 마치고 발표한 바 있다”며 “데이터센터 설계 연구 자체가 액체 냉각 설비로 변화를 기본 흐름으로 전제하는 분위기”라고 전했다.

그는 ‘냉각수분배장치(DLC)’와 같이 AI칩 위로 방열판을 설치하고 그 방열판에 액체를 흘려보내는 방법이 대세 수랭식 냉각시스템이 될 것이라고 내다봤다. 데이터센터 자체를 저수에 담그는 ‘액침냉각(Immersion Cooling)’보다는 더 경제적이란 생각이다.

다만, 수랭식 냉각이 대세가 된다고 해서 공랭식 시스템이 사라지는 것은 아니라고 선을 그었다. AI 반도체칩 자체에 대한 냉각은 수랭식이 더 뛰어난 성능을 보이지만, 반도체 칩 외 부속 장비에 대한 냉각에는 공랭식 시스템을 적용하는 것이 경제적이라는 분석이다.

그는 “공랭식 냉각 시스템은 비용 효율을 높이는 방향으로 발전해야 한다”며 “더 큰 풍량, 더 적은 전력으로 수랭식과 공랭식이 결합한 냉각시스템에 대한 연구가 지속되고 있다”고 전했다.

아울러 윤 이사는 데이터센터 설계 및 연구 주도권이 점차 데이터센터 사업자에서 반도체 독점권을 가지고 있는 엔비디아 쪽으로 기울어지고 있다고 봤다. 독점적인 반도체 설계를 바탕으로 데이터센터가 엔비디아 칩 발열 관리에 맞춰 데이터센터 설계를 진행하는 것이 요즘 흐름이라는 설명이다.

마지막으로 그는 효율적인 데이터센터 생태계를 구축하기 위해서는 용도별로 데이터센터를 설계하는 것이 중요하다고 봤다. 예컨대 ‘학습용 반도체가 주를 이루는 데이터센터’와 ‘추론+학습 반도체가 주를 이루는 데이터센터’를 구분해서 짓는 것이 트렌드가 될 것이라는 분석이다.

그는 “데이터센터 용도를 구분해야 한다. 추론, 학습, 범용에 모두 특화된 데이터센터를 짓는 것은 비용적으로 굉장히 부담이 될 수 있다”며 “AI 서비스 확산될수록 서비스 제공 비용은 늘어나기 마련이고, 더 합리적인 가격을 찾는 AI서비스 채널들이 증가할 것”이라고 강조했다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널