인텔 멀티코어 전략 고수…CPU·GPU 못지않은 ‘NPU4’ [컴퓨텍스 2024]

PC/프린팅/디바이스

디지털데일리 발행일 2024-06-04 12:13:17

타이베이(대만)=김문기 기자

대런 크루스 인텔 수석 엔지니어겸 NPU 수석 아키텍트는 지난 5월 30일(현지시간) 대만 타이베이 르 메르디앙 호텔에서 열린 제3회 인텔 테크투어 대만 행사의 ‘루나레이크 : AI 하드웨어 가속기’ 세션에서 인텔의 2세대 코어 울트라 프로세서 ‘루나레이크’의 향상된 클럭속도와 효율성을 위해 NPU4 아키텍처를 개선했다고 밝혔다.

[디지털데일리 김문기 기자] 대런 크루스 인텔 수석 엔지니어겸 NPU 수석 아키텍트는 지난 5월 30일(현지시간) 대만 타이베이 르 메르디앙 호텔에서 열린 제3회 인텔 테크투어 대만 행사의 ‘루나레이크 : AI 하드웨어 가속기’ 세션에서 인텔의 2세대 코어 울트라 프로세서 ‘루나레이크’의 향상된 클럭속도와 효율성을 위해 NPU4 아키텍처를 개선했다고 밝혔다.

이날 크루스 수석 아키텍트는 신규 NPU 4 아키텍처가 어떻게 AI PC 범주를 주도하고 더 나은 성능과 최종 사용자 경험을 제공할 수 있는지에 대해 설명했다.

그에 앞서 그는 인텔의 멀티코어 전략을 설명했다. 그는 “지난해 실시한 설문조사에 따르면 애플리케이션 중 25%가 NPU를 사용하고 40%가 GPU를, 35% CPU를 사용하고 있으나 내년 CPU는 30%로 줄어들고 NPU가 5% 가량 늘어날 것으로 전망된다”라며, “5% 이외에 거의 동일한 비중을 보인다는 것은 다양한 유형의 엔진이 있고, 또 업무의 종류도 워크로드도 다양하다는 데 있다”고 언급했다.

이어, “매우 가볍고 빠르게 실행되기를 원한다면 CPU를, 많은 생성과 인식이 필요할 때는 GPU를, 전력효율이 매우 높은 작업이 필요할 때는 NPU가 동작할 것”이라며, “인텔은 이 과정에서 한쪽으로 치우치지 않고 생성형 AI 시대를 위한 효율적인 방향을 추진할 것”이라고 덧붙였다.

그에 따르면 NPU는 클라이언트 AI 컴퓨팅의 세 가지 성장 추세를 해결하는 데 중요한 역할을 해준다. AI 워크로드의 다양성 증가, 앱과 OS 통합의 증가, AI PC 다중 모드 전환을 말한다. AI에 대한 컴퓨팅 요구 사항이 폭발적으로 증가함에 따라 컴퓨팅과 장치의 전력 효율성을 일치시키는 것이 중요하다는 설명이다.

이에 따라 인텔은 NPU 4를 검증된 기반과 이전 3세대를 기반으로 재구축했다. 점점 늘어나는 사용 사례를 지원하기 위해 더 높은 컴퓨팅 용량을 제공하기로 했다. 하루 종일 배터리 수명을 지원하기 위해 향상된 효율성을 제공한다고 자신했다.

이전 세대에 비해 NPU 4는 엔진 수를 늘리고, 더 나은 클럭 속도를 제공한다. 파이프라인은 더 높은 주파수에 맞게 최적화되었으며 NPU 4는 ML/AI 기술을 사용한다. 이를 통해 성능과 효율성을 향상시키는 데 도움이 되는 여러 가지 아키텍처 개선을 이뤘다.

이를테면, 파이프라인 최적화, 목표 V/F 최적화, ML/AI 기술 사용을 통해 주파수 및 전압 곡선이 크게 개선됐다. 프로세스 및 설계를 넘어 최대 20%의 전력 감소를 달성한다. 이전 세대인 NPU 3은 11.5 TOPS를 지원했지만 NPU 4.0은 최대 48 TOPS를 지원한다.

NPU 4의 향상된 아키텍처 덕분에 다양한 사용사례에 대한 품질 향상을 기대할 수 있다. 특히 LLM의 경우 향상된 네트워크 성능을 위해 DMA 대역폭을 두 배로 늘렸다. 특수 매트릭스 및 벡터 엔진, MAC 어레이가 포함된 추론 파이프라인, 고정 기능 블록, 프로그래밍이 가능한 DSPs 등이다. 자동 데이터 유형 변환, 양자화된 네트워크에 대한 융합 연산 등을 추가로 지원할 수 있다.

아울러 NPU 4는 4배의 벡터 컴퓨팅과 12배의 전체 벡터 성능을 위해 SHAVE DSP를 업그레이드했다. AI 워크로드에 더 많은 벡터 컴퓨팅이 필요하기에 변환기 및 LLM 성능도 향상된다. 이를 통해 NPU 4는 AI 운영자를 대상으로 하는 벡터 계산에 초점을 맞춘 특수 프로세서를 제공할 수 있다.

NPU 4의 추론 파이프라인은 효율적이고 유연한 행렬 곱셈, 가중치 및 활성화 희소성 지원, 2048 MAC/사이클/엔진으로 설계됐다. 융합된 파이프라인을 사용하면 데이터 이동을 줄여 전력 효율성을 높일 수 있다.

MAC 어레이의 특징으로 행렬 곱셈 및 컨볼루션, 2048 MAC/주기, INT8 및 FP16 데이터 유형, 효율성 1.5배, 와트당 성능 향상을 꼽을 수 있다.

크루스 수석 아키텍트 “우리는 생성형 AI를 위한 가속 변화기를 목표로 세 가지 다른 엔진을 가지고 있다. 이 플랫폼 전체에서 120 TOPS를 기록했다”라며, “왜 우리가 세 개의 엔진을 가지고 있는지 멀티코어 전략을 추진하는지에 대해 알 수 있을 것”이라고 마무리했다.

타이베이(대만)=김문기 기자

moon@ddaily.co.kr

기자의 전체기사 보기

이 기사와 관련된 기사

당신이 좋아할 만한 뉴스

연재기사

실시간 추천 뉴스

MBK, 지오영 인수후 2746억 유상감자 실시… 왜 논란인가
2025-04-14 18:46:22
이정헌 의원, 대선 앞두고 현장 소통…"과학기술인은 국정운영 동반자"
2025-04-14 18:28:20
넷플릭스, 韓 매출 9000억원 육박, 티빙·웨이브는 '먹구름'
2025-04-14 18:12:20
쏘카, 신차장기렌트 플랜 출시…"위약금·약정 주행거리 부담 없앤다"
2025-04-14 18:01:36
금융당국 "애플 앱스토어에 등록된 미신고 외국 가상자산업자 앱 14개, 국내 접속 차단"
2025-04-14 17:49:54

회사명: ㈜디지털데일리｜제호: 디지털데일리｜등록번호 : 서울아00039｜등록발행연월일: 2005년 9월 6일｜사업자 등록번호: 101-86-13419
주소: (04057)서울특별시 마포구 신촌로14길 24(노고산동 54-46)｜대표전화: 02-334-7781｜Fax: 02-334-7782
대표자: 양경진｜편집국장: 채수웅｜개인정보·청소년보호책임자: 오주엽

뉴스

뉴스

기획/특집

부가서비스

PC/프린팅/디바이스

일반

생활경제

게임

뉴스

통신*방송

플랫폼

플랫폼

뉴스

뉴스

PC/프린팅/디바이스

일반

생활경제

게임

뉴스

통신*방송

플랫폼

플랫폼

이 기사와 관련된 기사

당신이 좋아할 만한 뉴스

많이 본 기사

연재기사

실시간 추천 뉴스