일반

메타 부사장 "AI는 근본기술, 투자 불가피..." 수익보단 '미래' 본다

이건한 기자

[디지털데일리 이건한 기자] "메타의 관점에서 인공지능(AI)은 '근본 기술(fundamental technology)'에 해당한다. 수십년 이상의 투자가 필요한 만큼 단기적 연구 성과도 중요하지만 보다 장기적인 미래도 봐야 한다. 무엇보다 메타는 이미 근본기술 연구로 시작해 제품으로 확장하고, 수익화까지 성공한 여러 사례가 있다."

마노하 팔루리 메타 생성AI 담당 부사장이 '메타 AI 미디어 브리핑' 키노트를 진행하는 모습.
마노하 팔루리 메타 생성AI 담당 부사장이 '메타 AI 미디어 브리핑' 키노트를 진행하는 모습.

최근 AI 업계의 시선이 막대한 AI 투자비용 회수 가능성에 집중되고 있는 가운데, 마노하 팔루리 메타 생성형AI 담당 부사장은 오히려 장기투자의 필요성을 강조했다. 아직 AI 모델로 수익성을 논할 단계는 아니지만, 메타의 개방형 파운데이션 AI 모델 '라마(lLama)' 또한 미래엔 메타의 수익화 가능한 제품 기반이 될 것이란 의미다. 또한 이미 매년 수십억 달러를 AI 포함 연구개발에 쏟아붓고 있는 메타는 '미래 투자' 명목으로 당분간 더 출혈을 감수하겠다는 의지로 풀이된다.

팔루리 부사장은 10일 강남 센터필드 메타 오피스에서 진행된 '메타 AI 미디어 브리핑'에서 메타의 개방형 AI 생태계 전략과 방향성을 소개했다. 메타는 현재 오픈AI의 'GPT'의 강력한 대항마인 라마를 개방형 파운데이션 모델로 배포하며 전세계 AI 산업 내 영향력을 빠르게 키우고 있다.

파운데이션 모델은 방대한 분야의 데이터를 사전학습하여 자체적으로도 강력한 성능을 갖고 있지만, 필요에 따라 미세조정을 통해 전문성을 한층 강화한 AI 개발의 바탕이 될 수 있는 모델을 말한다. 파운데이션 모델 개발에는 방대한 데이터와 학습에 필요한 컴퓨팅 인프라가 필요해 천문학적인 비용이 필요한 것으로 알려져 있다.

메타는 이 중 파운데이션 모델을 오픈소스로 공개한 개방형 진형의 선두주자다. 지난 9월말에는 최신 버전인 라마 3.2를 공개했고, 지금까지 공개한 여러 크고작은 라마 모델은 글로벌 AI 모델 공개 플랫폼 '허깅페이스'에서 총 다운로드 수 4억건을 넘을 만큼 널리 쓰이고 있다. 누구나 쓸 수 있는 개방형 모델인 만큼, 이미 라마 기반의 파생모델 수도 6만5000여개에 달한다.

라마 3.2는 강력해진 멀티모달 성능과 저렴해진 사용료 등으로 공개 후 널리 환영받고 있다.
라마 3.2는 강력해진 멀티모달 성능과 저렴해진 사용료 등으로 공개 후 널리 환영받고 있다.

특히 라이벌 오픈AI가 GPT를 철저히 폐쇄형(Closed) 모델로 운영하며 API(프로그램 연결고리) 사용료에 기반한 수익을 창출하고 있는 반면, 라마는 상업적 이용까지 무료 정책을 고수하고 있다. 이는 라마에 대한 진입 장벽을 낮춤으로써 과거 리눅스나 안드로이드처럼 전세계 많은 기업과 연구자들이 라마 중심으로 AI 개발 생태계를 만드는 데 기여하고 있다. 일례로 지난 라마 3.2 버전 공개 당시에도 첫날부터 30개에 달하는 글로벌 AI 인프라, 서비스, 하드웨어 기업 등이 라마를 손쉽게 활용할 수 있도록 다양한 지원에 나선 바 있다.

또한 라마 사용자들이 모델 운영에 필요한 AI 인프라 비용도 라마의 경량화 및 고성능화 등 지속적 개선에 따라 줄어드는 추세다. 팔루리 부사장은 "지난 2년 사이 필요 비용은 거의 절반으로 줄었다"고 말했다.

이 가운데 메타는 우선 현재 AI 산업의 이슈인 신뢰성과 안전성 개선과 사용자 요구사항 충족에 집중한다는 방침이다. 이를 위해 위험 입출력 필터인 라마 가드(Guard)를 비롯해 AI 개발 전체 과정과 배포 이후에도 안전성을 보장하기 위한 노력들을 기울이고 있다. 이날 브리핑에 참여한 AI 안전 솔루션 기업 유상윤 에임인텔리전스 대표도 라마의 안전성을 높이 평가하며 "개방형 모델이 폐쇄형 모델보다 나은 점은 폐쇄형 모델은 안전 위협에 소수가 대응할 뿐이란 점"이라며 "이는 개방형 모델과 달리 모두가 다같이 안전에 기여할 기회가 사라지는 것"이라고 말했다.

이날 팔루리 부사장은 궁극적인 라마의 비전 또한 '개방적이며 책임감 있고, 저렴한 비용으로 혁신을 제공하는 것'이라고 밝혔다. 이를 위해 다음 세대 라마는 더 긴 컨텍스트(입력 및 출력) 길이 제공, 텍스트와 이미지, 영상 데이터의 상호작용 등이 가능한 크로스 모달리티(cross-modality) 제공, 더 다양한 서드파티 통합을 제공하겠다는 계획도 소개했다.

개방형 모델이라고 기능이 제한적인 것도 아니다. 오히려 메타는 라마를 기반으로 텍스트를 넘어 멀티모달의 영역인 비디오, 오디오 데이터의 생성과 편집까지 AI로 손쉽게 가능하도록 만들고 있다.

실제로 이날 현장에서는 메타 인공지능 연구소 FAIR(Fundamental AI Research) 연구진들도 참여해 영상 생성 및 편집 AI툴 '무비 젠', 영상 내 오브젝트 추출 도구 '샘(SAM)2', 음성 및 효과음 전반을 자유자재로 생성하고 편집할 수 있는 '오디오 박스', 실시간 다국어 번역을 지원하는 '심리스(Seamless)' 등 메타의 다양한 AI 생산성 플랫폼들을 시연해 눈길을 끌었다.

실사 수준의 영상 생성 및 자연어 프롬프트 편집이 가능한 '무비 젠' 시연 中
실사 수준의 영상 생성 및 자연어 프롬프트 편집이 가능한 '무비 젠' 시연 中

특히 무비젠은 텍스트 입력만으로 실제적인 영상과 오디오를 동시에 생성하고, 부분 편집까지 가능한 강력한 생산성이 특징이다. 샘2는 이미지뿐 아니라 이제 영상에서도 원하는 오브젝트(사물)를 자유자재로 추출할 수 있는 도구로 소개됐다. 이는 AI가 세상을 단어 기반으로 이해하는 워드모델(Word model)에서 모든 사물과 움직임의 상관관계까지 지각하는 월드모델(World model)로 나아가기 위한 기반 기술로써 기여할 전망이다.

이젠 영상에서도 자연스러운 객체 트래킹 및 추출이 가능해진 메타의 '샘2' 시연 中
이젠 영상에서도 자연스러운 객체 트래킹 및 추출이 가능해진 메타의 '샘2' 시연 中

또한 오디오박스의 경우 자연어 기반으로 다양한 음성을 생성 및 합성이 가능하며 무엇보다 '효과음'이나 '배경음'까지 자유롭게 제어할 수 있어 놀라움을 산다. 가령 밋밋했던 기본 음성에 "속삭이듯 말하라"는 감정과 톤을 주입하고, "대성당에서 말하는 것처럼"이란 프롬프트를 추가할 시 자연스러운 울림을 추가되는 식이다.

또다른 예제에서는 기존 배경소음이었던 새 소리를 개 짖는 소리로 바꾸는 것까지 가능했다. 이는 사실상 사람이 구별할 수 없는 수준으로, 후안 피노 FAIR 연구원은 "사람은 들을 수 없는 소리를 오디오박스 생성물에 삽입하는 워터마크 기술로 생성 여부를 가려낼 수 있도록 했다"며 안전장치를 설명했다.

이와 함께 심리스 번역 시스템의 경우 36개 이상의 음성을 지원하며, 영어와 스페인어는 이미 상당한 수준의 동시통역이 가능했다. 동시통역은 기존 AI와 달리 상대의 발화가 끝나지 않아도 문장 내 의미 파악이 이뤄지면 곧장 통역을 제공하는 형태다. 더불어 AI 음성의 발화 음성과 스타일 보정도 정밀한 제어가 가능했다.

메타 퀘스트를 이용해 테스트 중인 심리스 기술 기반 동시통역 기능을 체험해봤다.
메타 퀘스트를 이용해 테스트 중인 심리스 기술 기반 동시통역 기능을 체험해봤다.

실제로 이날 브리핑 종료 후 별도로 체험한 심리스 체험 현장에선 메타의 가상현실(VR) 기기 '메타 퀘스트'를 착용하면 입력된 음성에 대한 실시간 텍스트화, 톤 조절, 통역, 언어 전환 등이 디스플레이를 통해 눈앞에 펼쳐지는 것을 확인할 수 있었다. 향후 안경 형태로 사용이 가능해질 경우 해외 현지에서도 유용하게 쓰일 것으로 기대됐다.

이처럼 메타는 당분간 글로벌 개방형 AI 생태계 조성 및 기술 선점에 집중할 전망이다. 팔루리 부사장은 "오픈소스 분야에서 오랜 역사를 만든 메타는 계속해서 개방형 생태계 확장을 위해 다양한 이해관계자들과 협업하고 있다"며 "앞으로도 책임감 있는 AI 연구와 오픈소스 접근 방식을 통해 전세계 모두가 최첨단 기술의 혜택을 누릴 수 있도록 노력할 것"이라고 말했다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널