e비즈*솔루션

"글·사진·음성·영상 다 인식하는 만능 AI" 구글, 신모델 '제미나이' 공개

김보민 기자

구글 제미나이는 멀티모달 기반 AI 모델로 텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 인식해 답변을 생성할 수 있다. 사진은 파란색 오리 고무인형을 인식하는 제미나이의 모습. [ⓒ 구글 영상 캡처]

[디지털데일리 김보민 기자] 종이 위에 끄적인 그림 한 장 만으로 은하계를 설명해 내는 인공지능(AI)이 있다면 어떨까. 어설프게 그린 기타 그림을 인식해 자동으로 음악을 생성하는 AI가 있다면 또 어떨까.

구글은 이러한 동작을 모두 수행할 수 있는 AI 거대언어모델(LLM) '제미나이(Gemini)'를 공개했다. 제미나이는 시각, 청각 등을 활용해 텍스트뿐만 아니라 이미지, 음성, 영상 등으로 상호작용할 수 있는 멀티모달 AI다.

업계에서는 구글이 예상보다 일찍 제미나이를 선보인 것에 대해 놀라움을 표하는 분위기다. 생성형 AI의 판도를 뒤집은 GPT-4보다 성능이 뛰어난 것으로 알려지면서, 제미나이가 '무엇'을 해낼 수 있을지 관심이 주목된다.

◆ 속성 꿰뚫고 뜨개질 추천까지 척척…'사람 같은' 제미나이

6일(현지시간) 구글은 향후 AI 서비스의 기반이 될 LLM 제미나이를 공개했다. 내년 중 공식 발표가 나올 것이라는 업계 예상보다 일찍 제미나이가 베일을 벗을 것이다.

제미나이는 기계학습(머신러닝)의 규모에 따라 ▲울트라(방대한 작업) ▲프로(범용 작업) ▲나노(온디바이스 작업) 등 3개 모델로 출시된다. 프로의 경우 이날부터 구글 AI 챗봇 '바드'에 탑재됐고, 울트라는 안전성 검증을 추가로 거쳐 내년 초 출시될 예정이다.

구글은 "제미나이는 회사가 지금까지 만든 모델 중 가장 유연한 모델"이라며 "데이터센터부터 모바일 기기까지 모든 환경에서 범용적으로 유연하게 활용될 수 있어 앞으로 개발자들과 기업은 AI를 활용해 제품을 구축하고 확장하는 방식을 개선할 수 있게 될 것"이라고 자신했다.

이날 구글은 별도 영상을 통해 멀티모달 기반의 제미나이가 무엇을 해낼 수 있을지를 소개했다. 특히 실시간 시야 인식 능력을 기반으로 사람과 같은 인지 및 판단 능력을 보여주는 데 집중했다.

구글이 제미나이의 역량을 입증하기 위한 준비물은 종이와 펜뿐이었다. 먼저 종이 위에 오리를 그리자 제미나이는 해당 그림이 '새(bird)'라는 점을 인식했고, 오리 옆에 물결을 그리자 '오리'라고 종류를 특정했다. 이후 색연필로 오리를 파란색으로 칠하자 '흔하지 않은 색이네요, 파란 오리도 있군요'라며 새로운 정보를 학습하는 모습도 보였다. 마지막으로 그림 앞으로 실제 파란색 오리 고무인형을 내밀자, '그림과 똑같은 인형'이라는 점을 인식하는 모습을 보였다.

단순 종류뿐만 아니라 제품의 속성도 인식하는 모습을 보였다. 오리 고무인형을 손가락으로 누르자 제미나이는 '꽥 하는 소리가 나는 것을 보니 물 위에 뜨겠군요'라며 '고무 재질은 물보다 밀도가 적습니다'라고 분석해냈다.

마치 취미를 함께하는 친구 같은 모습도 보였다. 일례로 초록색과 분홍색의 실 뭉치를 보여주자 제미나이는 '용과'와 '알록달록한 케이크' 모양의 뜨개질을 해보는 것이 어떠냐고 추천했다. 손으로 주먹, 가위, 보 모양을 차례로 만들어 보여주자 '가위바위보 게임을 하자는 것이죠?'라고 묻기도 했다. 종이를 구겨 세 개의 컵 중 하나에 숨기자 '무슨 게임을 하자고 하는지 알겠어요'라며 사용자의 의도를 파악하기도 했다.

이 밖에도 기타를 그리면 기타로 연주한 곡을, 드럼과 베이스를 그리면 밴드 곡을 연주하기도 했다. 사람이 뒤로 넘어지는 듯한 유명한 동작을 보이자 '매트릭스에서 나온 총알 피하기 장면'이라는 점을 인식해 내기도 했다.

구글 제미나이는 기타, 드럼 등 다양한 그림을 인식해 각 악기에 맞는 곡을 생성할 수 있다. 아울러 옆에 야자수 그림을 추가로 보여주자 휴양지 느낌으로 곡을 편곡하기도 했다. [ⓒ 구글 영상 캡처]

◆ GPT-4보다 뛰어나다고? 구글 'AI 게임체인저' 자신

구글은 제미나이가 GPT-4 모델보다 성능 측면에서 뛰어나다고 자신했다. GPT는 오픈AI 챗GPT의 기반이 되는 모델로, 현재 생성형 AI 분야에서 사실상 독점 체제를 이어가고 있다.

제미나이는 수학 문제를 풀고 데이터를 분석하는 '추론 능력'도 갖추고 있어 AI 시장의 판도를 새롭게 뒤집을 수 있을 것이라는 기대감이 나온다. 제미나이 울트라의 경우 거대 다중 작업 언어이해(MMLU)에서 90%의 정답률을 기록했다.

MMLU는 수학, 역사, 의학, 물리학 등 50여개의 주제에서 문제 해결 능력의 척도를 판단하는 시험이다. 구글은 "인간 전문가 점수인 89.8%를 뛰어넘은 최초의 모델"이라며 "GPT-4의 경우 86.4%을 기록했다"라고 말했다.

구글은 기존 서비스에 제미나이를 일부 적용하고, 추후 다양한 서비스에서도 만나볼 수 있을 것이라고 예고했다.

제미나이 프로가 적용된 바드의 경우 170개 이상 국가와 지역에서 영어로 제공되고 있다. 향후 새로운 지역과 언어도 지원할 예정이다. 제미나이 나노의 경우 구글이 지난 10월 공개한 최신 스마트폰 '픽셀8 프로'에 적용된다. 제미나이 울트라는 내년 초 '바드 어드밴스드'라는 이름으로 구글 챗봇에 탑재된다.

순다르 피차이 구글 최고경영자(CEO)는 "모든 기술 변화는 과학적 발견을 발전시키고 인류의 발전을 가속화하면서 우리의 삶을 개선해왔다"라며 "지금 우리가 보고 있는 AI 전환은 앞서 나온 모바일이나 웹으로의 전환보다 훨씬 더 큰 변화를 이끌 것"이라고 말했다.

김보민 기자
kimbm@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널