인터뷰

[나는 개발자다] 요기요 리뷰 모니터링팀 철칙 “지금은 맞고 그때는 틀리다”

이안나
- 요기요 AI 리뷰 모니터링 전담 ML스쿼드 안기호 리더 인터뷰
- 배달앱 특화 포토리뷰 분류 모델 개발…2차 검수 CS리뷰 전담팀 효율↑
- “시대 따라 어뷰징 기준 지속 개선하는 게 과업”

[디지털데일리 이안나 기자] 배달앱 시장이 꾸준히 성장하면서 소비자가 작성하는 리뷰 개수 역시 크게 증가하고 있다. 요기요는 과거 일 평균 3만 건 리뷰가 현재는 8만 건에 달할 정도로 앱 내 리뷰 수가 3배 가까이 늘었다. 이제 소비자들이 남기는 리뷰는 가게 운영 매출을 좌우하는 큰 요소 중 하나로 자리잡았다. 그만큼 리뷰 신뢰도가 중요해진 셈이다.

다만 소비자가 등록한 리뷰 속엔 ‘어뷰징’도 일부 섞여 있다. 단순히 포인트 보상을 얻기 위해 주문과 관련 없는 내용을 남기거나 욕설·비방, 유해·음란, 개인정보가 담긴 리뷰까지 적절치 않은 리뷰가 눈에 띄게 된 것. 특히 ‘포토리뷰’가 대세가 된 지금 ‘음식이 아닌 사진’으로 리뷰하는 사례가 생기자, 요기요는 지난해부터 자체 딥러닝 기술로 어뷰징 포토리뷰를 분류하기 시작했다.

특히 올해는 인공지능(AI) 리뷰 모니터링 강화를 위해 새롭게 팀을 꾸렸다. R&D센터 ‘이미지&텍스트 머신러닝 스쿼드(이하 ML스쿼드)’가 그 주인공이다. 총 4명의 데이터 사이언티스트로 구성된 이 팀은 AI를 활용해 포토리뷰를 분류하는 고도화 모델을 자체 구축했다. 즉 요기요 앱 내 모든 리뷰는 ML스쿼드가 구축한 모델을 통해 1차 분류되고, 2차로 고객서비스(CS) 리뷰 전담 부서에서 최종 검수를 진행한다.

안기호 ML스쿼드 리더<사진>은 요기요 리뷰 모니터링에 대한 강점이자 과업으로 “끊임없이 새롭게 발생하는 리뷰 사례를 찾고 그에 따른 기준을 다시 세워 처리하는 것”이라고 강조했다. 새로운 어뷰징 사례들이 계속 생기다 보니 가짜 음식 사진에 대한 기준 설계를 지속 업데이트해야 한다는 의미다. 2020년 3월 데이터 사이언티스트로 입사한 그는 현재까지 요기요 앱 내 AI 리뷰 분류를 담당하고 있다.

소비자들은 주로 포인트 보상을 얻기 위해 포토리뷰를 작성한다. 이 과정에선 과거 어뷰징으로 분류돼 블라인드 처리됐던 내용이 이젠 정상 리뷰로 분류되는 사례도 있다. 안 리더는 대표적 사례로 ‘스크린샷(캡처)’을 꼽았다. 이전엔 앱 주문내역 스크린을 포토리뷰로 올리면 정말 주문을 완료했는지 추가 검수가 필요했다.

하지만 최근 요기요 앱 내 ‘사전예약’ 카테고리가 생기면서 검수 기준이 달라졌다. 케이크·아이스크림 등 사전예약 상품은 결제를 해도 현물이 없기 때문에 주문 내역 스크린샷을 포토리뷰에 활용해도 정상 처리된다. 비닐봉지 사진 역시 과거엔 어뷰징 처리 됐지만 요기요 ‘편의점·마트’ 서비스가 활성화되면서 정상 처리로 기준이 변경됐다.

안 리더는 “ML스쿼드에선 항상 분류 정책이 바뀔 수 있다는 걸 염두에 두고, 모델 자체에서 직접적으로 어뷰징 여부를 판단하기 보단 먼저 어뷰징 리뷰 특징을 뽑고 이에 따라 분류하는 작업을 진행한다”며 “시대에 따라 어뷰징 리뷰 기준이 달라진다고 볼 수 있다”고 했다.
요기요 리뷰 모니터링이 특별한 이유는 데이터 사이언티스트들이 가짜 음식 사진에 대한 기준을 자체 설계했다는 점이다. 특히 ‘배달앱’ 포토리뷰에 특화한 프로세스 모델을 직접 구축했다. 자체 모델 개발을 처음부터 착수했던 것은 아니다. 안 리더에 따르면 요기요가 현재 어뷰징 포토리뷰 분류 모델을 갖추기까지 총 3단계를 거쳤다.

2019년 AI 포토리뷰 분류 프로세스 도입 초기 요기요는 구글 API를 활용했다. 하지만 구글에서 사용하는 전체 이미지 분류 모델이 아닌, 다양한 음식 메뉴와 포장 상태 등 여러 변수를 고려한 ‘배달 음식 특화 모델’ 필요성을 절감한 게 자체 모델 개발 배경이다.

요기요는 2020년부터 음식에 적합한 새로운 모델을 내재화, 구글 API와 함께 사용하다 지난해부터 배달앱에 최적화된 전체 모델을 직접 설계해 운영하고 있다. 안 리더는 “현재는 그동안 축적된 어뷰징 사례를 다양하게 학습하고 데이터 인식 수준을 고도화해 어뷰징 의심 리뷰를 96% 수준까지 분류할 수 있도록 정확도를 높였다”고 내세웠다.

데이터 사이언티스트는 방대한 양의 데이터를 다뤄 새로운 가치를 만들어내는 일을 한다. 이들이 모여 건전한 리뷰 문화를 조성할 수 있는 서비스를 만들어낸 셈이다. 안 리더는 “앱 리뷰에 쓰이는 이미지와 텍스트는 비정형 데이터라 컴퓨터가 스스로 처리하지 못하는 자료”라며 “이 자료를 데이터 사이언티스트들이 하나하나 확인하고, 어떻게 처리하고 분석할지 정의해 AI가 학습할 수 있도록 도와주는게 우리 일”이라고 덧붙였다.

물론 처음 포토리뷰를 보고 분류하는 작업을 하다보니 정제되지 않은 여러 사진을 봐야하는 어려움도 있었다. 이 과정을 거치며 ML스쿼드는 음란·혐오물과 같은 어뷰징 사진 검수 시 AI학습을 통해 미리보기 이미지를 흐리게 처리하는 시스템도 구축하게 됐다.

덕분에 2차 모니터링 부서인 CS 리뷰 전담팀 업무 효율성도 높아졌다. 현업에서 마주하기 어려운 사진을 사전 걸러낼 뿐 아니라, 사진을 구분하는 세부 라벨들을 정확하게 구축·분류해 대용량 사진을 검수하기 훨씬 용이해졌기 때문이다.

안 리더는 “실제로 내부 피드백을 확인한 결과 CS 운영 인력 추가 업무량이 약 74%에서 23% 수준으로 감소하기도 했다”며 “AI가 다양하게 학습할 수 있도록 비슷한 유형 사진을 찾아보고 지속해서 봐야 하는 어려움이 있지만, 현업의 직접적인 수고를 크게 줄일 수 있어 뿌듯함도 크다”고 말했다.

AI 분류 프로세스 목적은 어떤 의도가 없더라도 시스템상 문제가 되는 리뷰를 걸러내며 깨끗한 리뷰 시스템을 만드는 것이다. 악의적인 리뷰가 아니더라도 개인정보가 기재된 영수증 사진을 올리거나, 타인에게 불쾌함을 주는 사진을 올릴 수 있다는 뜻이다.

요기요는 소비자 리뷰 작성 권리를 보호하는 동시에 어뷰징 리뷰로 다른 소비자 혹은 사장님들의 매장 운영에 피해를 입지 않도록 모니터링 시스템을 운영한다는 방침이다.

안 리더는 “올해 ML스쿼드가 새롭게 만들어진 만큼 이전보다 리뷰를 똑똑하게 검수할 수 있는 시스템 구축을 위해 노력하고 있다”며 “소비자가 남겨준 소중한 리뷰들이 자산이 돼 고도화된 시스템을 구축, 신뢰도 높은 양질 리뷰가 늘어나 자영업자들과 건강한 소통 기능이 강화되도록 최선을 다할 계획”이라고 전했다.
이안나
anna@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널