‘로봇에 진심’ 젠슨 황…엔비디아 ’휴머노이드 로봇 파운데이션 모델’ 개방
[디지털데일리 김문기 기자] “일반적인 작업을 수행하는 로봇 기술의 시대가 도래했다.”
지난해 로봇 기술이 AI의 새로운 시대를 열 것이라 선언했던 젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO가 전세계 개발자들을 위한 휴머노이드 로봇 파운데이션 모델을 개방했다. 이를 통해 휴머노이드 로봇 개발이 가속화될 전망이다.
엔비디아(CEO 젠슨 황)는 18일(현지시간) 미국 새너제이에서 열린 GTC 2025에서 엔비디아 아이작 GR00T N1(NVIDIA Isaac GR00T N1)을 비롯해 휴머노이드 로봇 개발을 가속할 기술 포트폴리오를 발표했다. 엔비디아 아이작 GR00T N1은 일반화된 휴머노이드 추론과 기술을 위한 세계 최초 완전 맞춤형 개방형 파운데이션 모델이라고 소개했다.
이 밖에도 합성 데이터 생성을 위한 엔비디아 아이작 GR00T 블루프린트(Isaac GR00T Blueprint)와 같은 시뮬레이션 프레임워크와 블루프린트, 로봇 개발을 위해 특별히 설계된 오픈소스 물리 엔진인 뉴턴(Newton)을 발표했다. 엔비디아는 구글 딥마인드(Google DeepMind), 디즈니 리서치(Disney Research)와 함께 뉴턴을 개발 중이다.
현재 사용 가능한 GR00T N1은 엔비디아가 사전 훈련하고 전 세계 로봇 개발자들에게 배포하게 되는 맞춤형 모델 제품군 중 첫번째 모델이다.
젠슨 황 CEO는 “엔비디아 아이작 GR00T N1과 새로운 데이터 생성과 로봇 학습 프레임워크를 통해 전 세계 로봇 개발자들은 AI 시대의 새로운 지평을 열게 될 것”이라고 말했다.
GR00T N1 파운데이션 모델은 인간 인지 원리에서 착안한 이중 시스템 아키텍처를 특징으로 한다. ‘시스템 1(System 1)’은 인간의 반사 신경이나 직관을 반영한 신속한 사고 행동 모델이다. ‘시스템 2(System 2)’는 신중하고 체계적인 의사결정을 위한 느린 사고 모델이다.
비전 언어 모델을 기반으로 하는 시스템 2는 주변 환경과 수신된 지시에 대해 추론하고 행동을 계획한다. 그런 다음 시스템 1은 이러한 계획을 정확하고 지속적인 로봇 움직임으로 변환시킨다. 시스템 1은 인간의 데모 데이터와 엔비디아 옴니버스™(Omniverse™) 플랫폼에서 생성된 방대한 양의 합성 데이터로 훈련된다.
GR00T N1은 물체를 잡거나, 한쪽 또는 양쪽 팔로 물체를 이동시키거나, 한 팔에서 다른 팔로 물건을 옮기는 등의 일상 작업을 쉽게 일반화할 수 있다. 또한 긴 맥락과 일반적인 기술의 조합이 필요한 다단계 작업도 수행할 수 있다.
개발자와 연구자들은 특정 휴머노이드 로봇과 작업에 맞춰 실제 또는 합성 데이터를 사용해 GR00T N1을 사후 훈련시킬 수 있다.
젠슨 황 CEO는 무대에서 1X 테크놀로지스(1X Technologies)의 휴머노이드 로봇이 GR00T N1을 기반으로 사후 훈련된 알고리즘을 사용해 자율적으로 집안 일을 정리하는 모습을 시연했다. 이 로봇의 자율 기능은 1X와 엔비디아의 AI 훈련 협업을 통해 개발됐다.
베른트 뵈르니히(Bernt Børnich) 1X 테크놀로지스 CEO는 “엔비디아의 GR00T N1 모델은 로봇의 추론과 기술 개발을 위한 획기적인 돌파구를 제공한다"라며, "이 모델을 통해 우리는 최소한의 사후 훈련 데이터만으로도 네오 감마(NEO Gamma) 로봇을 실제 환경에서 사용 가능하도록 완벽하게 준비시킬 수 있었다. 이제 로봇을 단순히 도구가 아니라 의미 있고 수많은 방식으로 인간을 돕는 동반자로 만든다는 우리의 사명을 더욱 발전시킬 수 있었다”고 말했다.
엔비디아가 밝힌 GR00T N1을 미리 이용할 수 있는 주요 휴머노이드 개발사로는 어질리티 로보틱스(Agility Robotics), 보스턴 다이내믹스(Boston Dynamics), 멘티 로보틱스(Mentee Robotics), 뉴라 로보틱스(NEURA Robotics) 등이 있다.
엔비디아는 구글 딥마인드와 디즈니 리서치와 협력해 로봇이 복잡한 작업을 정밀하게 처리하는 방법을 학습할 수 있도록 하는 새로운 소스 물리 엔진인 뉴턴을 개발한다고 발표했다.
엔비디아 워프(Warp) 프레임워크를 기반으로 구축된 뉴턴은 로봇 학습에 최적화돼 있으며, 구글 딥마인드의 무조코(MuJoCo)와 엔비디아 아이작 랩(NVIDIA Isaac Lab)과 같은 시뮬레이션 프레임워크와 호환된다. 이 세 기업은 뉴턴이 디즈니의 물리 엔진을 활용할 수 있도록 지원할 계획이다.
구글 딥마인드와 엔비디아는 로보틱스 머신 러닝 작업을 70배 이상 가속화할 것으로 기대되는 무조코- 워프를 개발하기 위해 협력 중이다. 개발자들은 구글 딥마인드의 MJX 오픈소스 라이브러리와 뉴턴을 통해 이를 이용할 수 있다.
카일 라플린(Kyle Laughlin) 월트 디즈니 이미지니어링 R&D(Walt Disney Imagineering Research & Development) 수석 부사장은 “BDX 드로이드는 시작에 불과하다. 우리는 예전에 볼 수 없던 방식으로 더 많은 로봇 캐릭터를 생동감 있게 만드는 데 최선을 다하고 있으며, 디즈니 리서치, 엔비디아, 구글 딥마인드와의 협업은 이러한 비전의 핵심적인 부분이다. 이번 협업을 통해 그 어느 때보다 표현력이 풍부하고 매력적인 차세대 로봇 캐릭터를 제작하고 디즈니만의 독창적인 방법으로 고객과 소통할 수 있게 될 것”이라고 말했다.
엔비디아와 디즈니 리서치는 인트린직(Intrinsic)과 함께 로봇 데이터 워크플로우를 위한 오픈USD(OpenUSD) 파이프라인과 모범 사례를 구축하기 위한 추가 협력을 발표했다.
로봇 개발에는 대규모의 다양한 고품질 데이터 세트가 필수적이지만 이를 수집하는 데는 높은 비용이 든다. 휴머노이드 로봇 훈련에 필요한 데이터에 비해, 실제 사람이 시연해 보일 수 있는 데이터는 24시간이라는 시간적 제약으로 인해 한계가 있다.
합성 조작 모션 생성을 위해 엔비디아가 개발한 아이작 GR00T 블루프린트는 옴니버스와 엔비디아 코스모스 트랜스퍼(Cosmos Transfer)라는 월드 파운데이션 모델을 기반으로 구축됐다. 개발자가 소수의 인간 시연을 통해 얻은 데이터를 바탕으로 다양한 조작 작업을 수행하는 데 필요한 합성 모션 데이터를 기하급수적으로 많이 생성할 수 있도록 지원한다.
블루프린트의 초기 구성 요소를 사용해 사람이 6500시간 즉 9개월 동안 시연할 수 있는 데이터에 해당하는 78만 개의 합성 경로를 단 11시간 만에 생성했다는 게 엔비디아의 설명이다. 합성 데이터를 실제 데이터와 결합해 실제 데이터만 사용한 경우보다 GR00T N1의 성능을 40% 향상시킬 수 있다고 덧붙였다.
개발자 커뮤니티에 유용한 훈련 데이터를 제공하기 위해 엔비디아는 GR00T N1 데이터 세트를 대규모 오픈 소스 물리 AI 데이터 세트의 일부로 출시한다. 이번 GTC에서 발표된 이 데이터 세트는 현재 허깅 페이스(Hugging Face)에서 사용 가능하다.
허깅 페이스와 깃허브(GitHub)에서 엔비디아 GR00T N1 훈련 데이터와 작업 평가 시나리오를 다운로드할 수 있다. 합성 조작 모션 생성을 위한 엔비디아 아이작 GR00T 블루프린트도 체험형 데모로 사용할 수 있으며 깃허브에서도 다운로드가 가능하다.
[IT클로즈업] AI 태운 IPTV 셋톱박스, 실익은?...“NPU 장착, 빠르고 선명하게”
2025-03-20 06:15:00‘6G 첫발’ 3GPP 워크숍, 어떤 이야기 오갔나 [IT클로즈업]
2025-03-19 18:53:05“의사정족수 3인 방통위법 거부, 합의제기구 성격 무시한 결정”
2025-03-19 18:52:04우리투자증권, 종합증권사 도약 기반 마련… 금융위, '투자매매업' 본인가
2025-03-19 18:03:15삼성생명, 결국 삼성화재를 자회사로 편입… 금융위, 편입안건 의결
2025-03-19 17:28:03