“AI에게 컴퓨터를 맡겨도 될까?”...CUA 상용화 ‘성큼’

실시간
뉴스

e비즈*솔루션

“AI에게 컴퓨터를 맡겨도 될까?”...CUA 상용화 ‘성큼’

디지털데일리 발행일 2025-01-26 08:20:00

오병훈 기자

URL복사

[디지털데일리 오병훈기자] 오픈AI가 ‘컴퓨터사용에이전트(Computer-Using-Agent, 이하 CUA)’ 모델을 기반으로 구동되는 ‘오퍼레이터’를 이용자들에게 최초로 공개했다. CUA는 AI가 이용자의 명령에 따라 직접 컴퓨터를 조작해 작업을 수행하는 모델이다. AI의 활동 범위가 단순히 웹페이지나 소프트웨어 범위를 넘어 이용자 컴퓨터 전체까지 늘어날 수 있다는 의미다.

충분한 성능의 CUA가 상용화된다면, 이제 이용자는 단순히 명령어(프롬프트)를 통한 작업 뿐 아니라 컴퓨터를 통해 달성 가능한 대부분의 목표를 CUA를 통해 가능하게 된다. 예컨대, “쇼핑몰에서 내일 먹을 저녁 재료를 구하고 싶다”고 명령하면, CUA가 직접 마우스 커서를 움직여 쇼핑몰에 접속하고, 주문까지 자동으로 해주는 식이다.

CUA는 시장에서 ‘그래픽사용자인터페이스(GUI)에이전트’와 유사한 의미로 사용되기도 한다. 두 단어 모두 이용자 컴퓨터 인터페이스, 화면을 보고 조작할 수 있는 AI를 일컫는 말로 사용된다.

일각에서는 개인정보보호 및 예측 불가능한 AI의 작업 등으로 인한 위험은 더욱 커질 수 있다는 우려도 제기된다. 생성형 AI의 작동 원리나 방식도 아직 모두 규명되지 못한 상황 속에서, AI에게 이용자 컴퓨터를 조작할 수 있는 권한을 넘기는 것은 위험한 도박이 될 수 있다는 지적이다.

◆오픈AI ‘오퍼레이터’ 공개 소식에 앤스로픽 ‘컴퓨터유즈’도 재조명

오픈AI는 지난 23일 개발 중인 오퍼레이터를 일부 이용자에게 공개하기로 했다. 공개 대상은 미국 지역 내 오픈AI 구독모델 중 가장 비싼 ‘챗GPT-프로(Pro)’ 플랜을 이용하는 구독자들이다. 개발자 및 연구자들을 대상으로 출시한 플랜인 만큼, 이들에게 각종 피드백을 받아 개선 작업을 수행하기 위한 전략으로 풀이된다.

오퍼레이터 기반이 되는 CUA는 챗GPT의 대표 모델 ‘챗지피티-포오(ChatGPT-4o)’ 모델의 비전 기능과 각종 고급 추론 모델이 결합한 형태로 제작됐다. CUA 특성상 사용자의 PC 화면을 읽고 맥락을 이해할 수 있어야 하는 만큼, 오픈AI가 보유 중인 비전, 맥락 이해, 추론 등 모델 다수가 동원 된 셈이다.

오픈AI는 공식 홈페이지를 통해 오퍼레이터에 대해 설명하며 “CUA는 픽셀 데이터를 처리해 화면에서 무슨 일이 일어나고 있는지 이해하고, 가상 마우스와 키보드를 사용하여 작업을 완료한다”며 “여러 단계의 작업을 탐색하고, 오류를 처리하고, 예상치 못한 변경 사항에 적응할 수도 있다”고 말했다. 또, “이를 통해 CUA는 다양한 디지털 환경에서 작동해 특수 응용프로그램인터페이스(API) 없이 양식 작성 및 웹사이트 탐색과 같은 작업을 수행할 수 있다”고 말했다.

오픈AI는 오퍼레이터가 사용자 컴퓨터를 조작해 ‘문법 퀴즈’를 풀거나, 소프트웨어 라이선스를 갱신하는 과정을 직접 보여주며 여러 상황에 대처할 수 있다는 점을 강조해 소개했다. 오픈AI가 공개한 이미지에 따르면, 오퍼레이터는 웹브라우저 화면을 캡처하고 이를 이해한 뒤, 적절한 항목을 클릭하고, 필요한 텍스트를 입력하는 등 마치 누군가 원격으로 PC를 조작하고 있는 것처럼 컴퓨터를 조작할 수 있다.

글로벌 AI 기업들 사이에서 오퍼레이터와 같이 AI가 컴퓨터를 직접 조작해 이용자 명령을 수행하도록 하는 시도는 지난해부터 활발하게 이어지고 있다. 앤스로픽에서도 지난해 10월 오퍼레이터와 같은 형태의 ‘컴퓨터유즈(Computer Use)’를 선보인 바 있다. 컴퓨터유즈는 오픈AI 오퍼레이터와 마찬가지로 이용자의 컴퓨터 화면을 직접 조작하고 움직일 수 있는 AI 모델이다.

이후 앤스로픽은 컴퓨터유즈를 공개 베타로 배포했다. 아사나·캔바·코그니션·도어대시·리플릿 등 앤스로픽과 협력 중인 다수 기업들이 컴퓨터유즈 활용 방법 연구를 시작했다는 것이 회사 측 설명이다.

◆AI에이전트 임박 증거?...각종 우려는 ‘숙제’

AI가 직접 앱과 웹을 오가며 컴퓨터 리소스를 사용할 수 있다는 것은 현재 통상적으로 사용되는 AI 서비스들보다 훨씬 더 다양한 작업이 가능해진다는 것을 의미한다. 시각적으로 이용자에게 강한 인상을 남길 수 있다는 점도 사업 전략 측면에서 의미가 클 수 있다.

더 나가 오퍼레이터나 컴퓨터유즈 같은 기능을 두고 시장에서는 ‘AI에이전트’, ‘범용인공지능(AGI)’에 한걸음 더 다가가는 계기가 될 것이라는 분석도 내놓고 있다. 아직까지 AI에이전트나 AGI 모두 정확한 정의가 내려진 바는 없으나, 통상적으로 인간 수준의 사고와 추론을 바탕으로 작업을 수행할 수 있다는 의미를 내포하고 있다.

물론, 아직 넘어야 할 산도 많다. AI의 활동 범위가 단순히 일정 웹이나 데이터에 국한되지 않고 이용자 PC 전체로 확장되면서 우려 요소나 리스크도 더 커질 수 있다는 분석이다. 예컨대, AI가 이용자의 의도와 다르게 컴퓨터를 조작했을 때 문제를 어떻게 해결할 것인지, 책임 소재는 어디에 있는지 등 다양한 논의들이 선행될 필요가 있다는 지적이다.

현재도 세계 석학들이 통제불가능한 AI의 위험성을 강조하고 있는 상황이며, AI의 작동 원리를 정확하게 규명하지 못하는 ‘블랙박스 문제’도 여전히 남아 있다. 이를 제대로 해결하지 못한 상태에서 AI에게 PC 조작 권한을 넘기는 것은 위험한 시도라는 지적이 이어지는 이유다.

물론, 개발사에서도 이와 관련 다양한 위험 방지책 마련을 고심 중이다. 단계적인 배포, 개발자 커뮤니티와의 소통 강화로 예측 가능한 모델 개발에 집중하겠다는 입장이다. 특히, 안전 테스트에 만전을 기하고, 단계적 배포 정책을 적용해 만일의 사태에 대비한다.

오픈AI는 공식 홈페이지 게시물을 통해 “(오퍼레이터와 관련해) 해결해야 할 새로운 위험과 과제가 있다. 오퍼레이터 배포를 준비하면서 광범위한 안전 테스트를 수행하고 오용, 모델 실수, 프런티어 위험이라는 세 가지 주요 안전 위험에 대한 완화책을 구현했다”며 “안전에 계층적 접근 방식을 취하는 것이 중요하다고 생각하므로 CUA 모델 자체, 오퍼레이터 시스템, 배포 후 프로세스 등 단계별로 보호책을 구현했고, 각 계층이 위험 사항을 점진적으로 줄이는 완화책을 밟겠다”고 설명했다.