클라우드뉴스

[2021 AI 엔터프라이즈] "AI 환경에 맞는 IT인프라 운영전략 필수"…NVIDIA

이상일

[디지털데일리 이상일기자] 최근 기업의 인공지능(AI)을 활용하기 위한 인프라 구축이 본격화되고 있는 가운데 기존 시스템 구축 아키텍처와 달리 AI의 특성에 맞는 시스템 구축 방법론이 중요해지고 있다.

4일, 디지털데일리의 'DD튜브'를 통해 진행된 ‘AI 엔터프라이즈 버추얼 컨퍼런스’에서 ‘최적화된 AI 인프라 도입 전략–NVIDIA 레퍼런스 아키텍처’를 주제로 발표한 유클릭 김성태 이사는 “효율적인 AI인프라 구성을 위해선 하드웨어와 애플리케이션을 하나로 도입하는 턴키 방식을 고려해야 한다”고 강조해 참석자들의 주목을 끌었다.

김 이사는 “하나의 단일 플랫폼을 통해 분석과 학습 추론에 사용됐던 자원들을 데이터의 사이즈, 작업에 상관없이 언제든지 분석할 수 있도록 하는 것이 단일 시스템 플랫폼의 장점”이라고 밝혔다.

유클릭에 따르면, 올해 대구, 울산, 부산, 광주시 등 지방자치단체가 AI 프로젝트와 그린 뉴딜 정책을 추진하기 위해 많은 준비를 하고 있다.

기업의 연구소에서는 AI 뇌를 학습시킬 수 있는 새로운 기술을 개발하고 AI로 사람의 건강을 체크할 수 있는 기술도 개발되고 있다. 또 금감원에서는 여러 불법 사기나 불완전 판매 등 사기 적발에도 AI를 사용하고 있다.

김 이사는 “지방자치단체. 공공기관뿐만 아니라 엔터테인먼트 업체 그리고 연구소 그리고 헬스케어, 금융, 첨단산업까지 AI가 적용되지 않는 시장은 없고 대부분의 업계가 AI에 발맞춰 갈 수 밖에 없는 상황” 이라며 “기업의 AI인프라 구축이 속도를 내고 있지만 구축 방법론에는 다양한 고민이 필요하다”고 지적했다.

예를 들어 AI 인프라를 어디에 구축하는 것이 좋을지에 대한 고민도 계속되고 있다. 클라우드 인프라를 택할 수도 있고 온프레미스 형태로 구축도 가능하다.

클라우드 구축의 경우 실험을 위한 작은 데이터 셋을 클라우드에 적용해놓고 그 데이터를 이용하는 방식이다. 직접 수많은 데이터 실험을 하는 것보다는 제한되어 있는 데이터를 기반으로 실험을 할 수밖에 없다. 그리고 클라우드는 자원을 사용하는 만큼 과금하는 것이기 때문에 그 비용을 절감하기 위해서라도 많은 수의 실험을 하기 어렵다. 때문에 비용절감을 위해 사전에 많은 준비를 해야 하는 데이터 과학자들의 고민이 나올 수 있다.

온레미스의 경우 데이터 셋이 온프레미스에 구축돼 있기 때문에 더 많은 데이터들을 저장해서 AI 프로젝트를 수행할 수 있다. 물론 초기 도입 인프라 비용이 클라우드에 비해서는 고가라는 점이 단점이다.

정리하자면 클라우드는 초기 분석단계 및 연구에 유리하고 온프레미스는 엔터프라이즈급 딥 러닝이 필요할 때 유리하다는 것이다. 김성태 이사는 “데이터를 어디에 두고 학습할 것인지 여부가 가장 중요하다”고 강조했다.

컴퓨팅 자원의 운용에도 고민이 필요하다. 예를 들어 AI 컴퓨팅을 위해서 5페타플롭스 단위의 성능을 낼 수 있는 인프라를 구축하기 위해서 X86 서버 수천 대의 노드가 필요하다. 여기에 냉각시스템 그리고 서버 설치를 위한 공간들이 필요하다. 하지만 엔비디아 디지엑스(NVIDIA DGX))1의 경우 위와 같은 성능을 내기 위해 5개 노드면 충분한다.

김 이사는 “상면공간과 전력 사용량으로 봤을 때도 상당히 차이 크다. 디지엑스 1은 상면은 0.04% 정도밖에 사용을 안 하고 그에 비해서 전력 당 처리할 수 있는 처리량은 약 29배 정도가 향상되어 있다”고 밝혔다. 이후 출시된 ‘DGX A100’의 경우 수천대의 서버노드를 1개 노드로 대체하고 DGX1에 비해 상면과 전력 당 처리량을 고려했을 때 단일 플랫폼으로 그린 컴퓨팅을 가능하게 할 수 있게 했다.

한편 AI 인프라 구축에 있어 스토리지 계층화는 절대 효과적이지 않다는 설명도 나왔다. 통상 기업이 IT인프라를 구성할 때 가치가 있거나 자주 사용하는 데이터는 플래시나 메모리에 올리고 그렇지 않은 것은 하드디스크에 올리는 경우가 많은데 AI에서는 이것이 통용되지 않는 다는 것이다.

예를 들어 우리가 잘 알고 있는 자율주행이라는 AI 인프라를 구축하기 위해서는 각각 도로에 나와 있는 표지판, 사람, 각 상황 아래서의 사진, 동영상 자료를 가지고 트레이닝을 해야 한다. 또 각각 이미지와 영상에 라벨링을 해줘야 한다. 이러한 이미지와 동영상이 수억 혹은 수십억개의 데이터에 달한다고 한다면 이들 각각의 데이터의 가치는 동등하다. AI가 학습하는 데 있어서 동등한 위치와 가치를 갖고 있다.

김 이사는 “그래서 특정 데이터를 하드디스크 특정 영역에 저장하고 캐시에 두고 사용하는 방식은 AI와 어울리지 않는다. AI 인프라는 모든 데이터를 동등하게 보고 있다. 그렇기 때문에 어떤 데이터도 가장 최적의 성능을 낼 수 있는 영역에 저장되어 있어야만 한다. 그래서 스토리지 계층화는 AI인프라에서는 적절하지 않은 인프라 구조로 심할 경우에는 AI 애플리케이션 환경은 약 50배의 성능 저하가 발생할 수 있다”고 강조했다.

한편 김 이사는 “일반적으로 AI인프라 구축 프로젝트는 사전 필요 작업과 실제 인프라를 구매하는 작업 등 총 3달 정도가 소요된다”며 “중간에 요구사항이 변경되면 최적화를 다시 해야 해 중간작업이 길어진다. 엔비디아 아키텍처를 사용하면 설명서에 있는 대로 구성해 성능 수준을 정확하게 제공받을 수 있다”고 설명했다.

한편 유클릭은 국내에 몇 안 되는 엔비디아(NVIDIA)의 엘리트 파트너로 AI 전문 솔루션 공급업체다. 엔비디아 엘리트 파트너는 단순한 하드웨어 인프라뿐만 아니라 관리 프레모까지 공급하고 서비스할 수 있는 프로바이더에게 주어지는 파트너 레벨이다.

<이상일 기자>2401@ddaily.co.kr
이상일
2401@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널