딜라이트닷넷

[딜라이트닷넷] 인간의 감정을 AI가 판단할 수 있을까

백지영
[디지털데일리 IT전문 블로그 미디어 = 딜라이트닷넷]

<사진출처: 청와대 페이스북>

지난 5월 26일 오후 문재인 대통령과 북한의 김정은 국무위원장이 판문점 북측지역 통일각에서 극비리에 깜짝 번개를 가졌다. 4월 27일 남북의 역사적인 판문점 회동 이후 두 번째 정상회담이다.

이후 27일 오전 문 대통령은 청와대에서 두번째 남북정상회담에 대해 직접 브리핑하는 자리를 갖고 “6.12 북미정상회담을 앞둔 준비 과정에서 약간의 어려운 사정들이 있었다. 그런 사정들을 불식시키고, 북미정상회담 성공을 기원하는 것, 그리고 또 4.27 판문점선언의 신속한 이행을 함께 해나가는 것이 매우 중요한 시점이라고 보았다”고 만남의 의의를 밝혔다.

이후 청와대가 공개한 사진을 보면, 두 정상 모두 대체로 밝게 웃는 모습을 보이고 있다. 실제 속마음은 어떨지 모르겠지만 겉으로 보기엔 그렇다. 특히 김정은 위원장은 문재인 대통령과 스위스식 3번 포옹을 하며 활짝 웃었다.

그는 어떤 생각을 하고 있었을까. 혹시 인공지능(AI)은 얼굴 표정만 보고 인간의 생각과 감정을 알아차릴 수 있을까.

최근 마이크로소프트(MS), 구글 등 글로벌 IT기업들은 자사의 클라우드 서비스 기반으로 사진이나 동영상 속에 등장한 사람의 얼굴을 분석하는 AI 서비스를 제공하고 있다. 이미 일부 언론에서 지난해 3월 박근혜 전 대통령이 검찰에 출석할 때 표정을 MS의 이모션 API를 이용해 분석하기도 했다.

MS에선 인물사진을 올리면 사람들의 얼굴 표정을 보고 감정을 판별해주는 서비스를 제공하고 있다. 서비스의 정식 명칭은 ‘MS 애저 코그너티브 서비스 이모션 API’다.

이모션 API는 사진과 동영상 등에서 얼굴 표정을 분석해 분노(anger), 멸시(Contempt), 혐오(disgust), 공포(fear), 행복(Happiness), 중립(Neutral), 슬픔(Sadness), 놀람(Surprise) 등 8가지 감정으로 분류한다. 8가지 감정을 0점에서부터 최대 1점으로 표현해 소수점 다섯자리까지 수치화시킨 결과를 도출한다.

실제 양 정상이 두 번째 회담을 위해 마주 앉았을 때 청와대가 공개한 김정은 위원장 사진을 이모션 API로 분석하니 ‘행복’의 감정이 0.94110으로 가장 높게 나타났다. 문 대통령과 얘기할 때 그는 행복한 감정을 느낀 것일까.

또 김정은 위원장이 문재인 대통령과 작별하면서 끌어안을 때의 표정은 웃고 있었지만 이모션 API는 이를 중립, 평상시 표정으로 인식했다. 기자가 볼 땐 마냥 행복해보였는데, 행복 수치는 중립보다 낮은 0.22894였다.

현재 이모션 API 서비스는 월별 최대 3만개 이미지까지는 무료로 이용할 수 있다. 그 이상의 서비스는 1000개당 120원의 서비스 이용료를 내고 사용할 수 있다. MS에 따르면 이모션 API는 페이스(Face) API로 통합된다. 페이스 API에 이모션 API의 감정인식기능이 포함될 예정이기 때문이다.

MS 뿐만 아니라 구글도 ‘비전 API’라는 AI 감정분석 서비스를 제공하고 있다. 정식 명칭은 ‘구글 클라우드 비전 API’다. 비전 API는 수천가지 카테고리(‘사자’, ‘에펠탑’ 등)로 빠르게 이미지를 분류하고, 이미지 안의 개별 객체와 얼굴을 감지한다. 이미지에 인쇄된 단어를 찾아서 판독할 수도 있다.

비전 API는 기쁨(joy), 슬픔(sorrow), 분노(anger), 놀람(surprise), 노출된(exposed), 모호한(blurred), 모자를 쓰고 있는(headwear) 등으로 표정을 묘사한다. 녹색 네모로 가능성을 표시하는데, 만약 기쁨의 표정이 크다면, 기쁠 가능성이 ‘매우 높다(very likely)’ 등으로 표현한다.

지난 22일 미국 워싱턴 백악관에서 열린 문재인 대통령과 도널드 트럼프 미국 대통령의 네번째 한미정상회담에서의 표정을 비전 API를 통해 분석하면 별다른 감정이 느껴지질 않는다. 다만 흥미로운 것은 트럼프 대통령 표정 분석 시 대부분의 감정에 녹색 네모가 하나씩만 있었는데, 모자를 쓴(headwear) 항목에 네모가 두 개 표시되며 다른 감정보다 높게 나타났다(^^). 동일한 사진을 MS 이모션 API로 분석하자, 중립(0.37430), 슬픔(0.25966) 등이 높게 나타났다.

백악관에서 찍힌 인상적인 사진 중 하나는 강경화 외교부 장관이 회담 막간을 이용해 존 볼튼 안보보좌관, 정의용 안보실장, 조윤제 주미대사, 윤영찬 국민소통수석, 마이크 폼페이오 국무장관 등과 대화를 나누는 는 장면이다.

볼튼 보좌관을 바라보며 마치 '쎈언니' 처럼 "그래, 무슨 말이든 해봐"와 같은 표정으로 앉아있는 사진이 재미있다. 이 '걸크러쉬' 사진은 장하성 정책실장이 찍은 것이라고 한다. MS 이모션 API 분석에 의하면 강경화 장관은 중립의 표정이다.

흥미로운 것은 구글 비전 API에선 얼굴 표정 뿐만 아니라, 다양한 것을 분석해낸다는 점이다. 이를테면 뉴스 검색 등을 통해 사진에 찍힌 사람들의 이름이나 지위 등을 높은 정확도로 맞춘다. 사진 속에 등장한 인물 뿐만 아니라 한국, 미국, 문재인, 한국 대통령 등의 키워드도 나타낸다.

행위과학자들의 연구에 따르면 대화에서 전달하는 메시지의 55%는 얼굴 표정으로 전달된다고 한다. 결국 미래에 인류와 공존할 기계가 인간의 의도를 잘 헤아리려면 음성과 표정 등으로 감정을 인식할 수 있어야 한다.

안면 근육들의 활동에 따라 눈썹, 눈과 입, 뺨의 움직임 등 관찰 가능한 동작을 추출하고, 이를 조합해 감정 상태를 예측, 판단한다. 이미 감정인식 AI는 광고를 보는 소비자의 감정을 분석해 효과를 측정하고, 고객을 상대하는 로봇은 이를 바탕으로 인간과 상호작용하는데 활용된다.

[백지영 기자 블로그=백지영 기자의 데이터센터 트랜스포머]

백지영
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널