플랫폼

네이버, 어려운 '영한 자동번역'에 도전…구글보다 나을까?

심재석

[디지털데일리 심재석기자] 봉준호 감독의 2013년 영화 <설국열차>에서 꼬리칸 지도자 ‘커티스(크리스 에반스 분)’와 기차의 보안설계자인 ‘남궁민수(송강호 분)’는 서로 사용하는 언어가 영어와 한국어로 다르다. 하지만 영화 속에서 두 등장인물은 손바닥 크기의 기계를 사이에 두고 다른 언어로 대화를 할 수 있다. 바로 자동동시통역기다.

물론 이는 SF영화에 등장하는 흔한 상상의 산물이다. 그렇다고 해서 전혀 실현가능성이 없는 막연한 상상만은 아니다. 배우 송강호의 영어가 어색해서 동시통역기라는 설정을 한 것이 아니냐는 질문에 대해 봉준호 감독은 “이미 (통역) 스마트폰 어플리케이션에 존재한다”고 상상의 배경에 대해 설명했다.

자동통역은 자연언어처리(NLP) 학계 및 산업계의 오랜 숙제 중 하나다. 바벨탑을 쌓는 것으로 비유되는 이 기술은 세계의 불균형한 정보 장벽을 무너뜨릴 수 있는 기술로 평가받는다. 그러나 아직 이 기술은 일상생활에서 사용될 될 정도로 성숙되지는 않았다. 인간의 언어능력이라는 것이 그렇게 간단하지 않기 때문이다.

자동통역은 음성인식-자동번역-음성합성의 과정을 거쳐 진행된다. 상대의 말을 인식해 이를 텍스트로 바꾸고, 텍스트를 기반으로 번역을 한 다음, 번역된 문자를 음성으로 합성하는 과정이다.

이 중 음성인식과 음성합성 기술은 어느 정도 수준에 올랐다고 평가받을 수 있다. 현재도 스마트폰 상에서 검색이나 문자메시지를 입력을 음성으로 할 수 있으며, 시각장애인들은 컴퓨터 상의 텍스트를 음성으로 변환시켜 들을 수 있다.

문제는 자동 번역이다. 한 언어를 다른 언어로 바꿔주는 이 기술은 아직 일정 수준 이상 올라왔다고 말하기 힘들다. 특히 한국어와 영어처럼 전혀 다른 어순을 가진 언어의 경우 자동번역의 품질은 더욱 떨어진다.

이 가운데 최근 네이버가 영어-한국어, 한국어-영어 자동 번역 서비스를 출시해 눈길을 끌고 있다. 네이버는 지난 9일 는 네이버사전에서 영어 번역서비스 사용할 수 있는 모바일 번역기의 베타 서비스를 시작한다고 밝혔다.

네이버는 지금까지 일본어-한국어, 한국어-일본어나 스페인어-영어, 영어-스페인어처럼 문법과 어순이 유사한 언어를 중심으로 자동번역 서비스를 제공해왔다. 이처럼 같은 어순의 언어를 번역하는 것이 상대적으로 쉽고, 번역 품질도 좋기 때문이다.

이런 점에서 네이버의 영한, 한영 자동 번역 서비스는 새로운 도전이다. 세계 최고의 자동번역기술을 보유했다고 평가받는 구글의 영-한, 한-영 번역 서비스도 만족스럽지 못한 실정이다. 과연 네이버가 구글의 한-영, 영-한 번역의 품질을 넘어서 일상생활에서 사용할 만한 수준의 자동번역기를 개발했을지 주목되는 이유다.

네이버랩스 김준석 부장
네이버랩스 김준석 부장
이에 대해 네이버에서 자동번역을 총괄하고 있는 네이버랩스 김준석 부장은 “아직은 부족하다”고 인정했다. 서비스에 ‘베타’라는 딱지를 붙이고 있는 이유다. 김 부장은 그러나 “시간이 지날수록 품질이 향상될 것”이라고 자신했다.

네이버는 지난해부터 자동번역 기술을 직접 개발해왔다. 그 전까지는 외부의 번역기술을 구매해 서비스 했었는데, 2년 전 방침을 자체 개발로 바꾼 것이다.

한-일, 일-한 번역까지는 그런대로 수월했다. 한국어와 일본어는 어순이 같기 때문에 구(Phrase) 기반으로 통계를 내면 어느 정도 품질이 확보했다. 그러나 영-한,한-영 번역은 이 방식으로는 품질을 높이기가 어려웠다고 김 부장은 설명했다. 구글도 유사한 방식으로 접근하고 있는 것으로 보이는데, 구글의 영한-한영 번역의 품질이 높지 않은 것도 이같은 이유인 것으로 추측된다.

김 부장에 따르면, 이런 문제를 해결하기 위해 네이버는 새로운 방법론을 도입했다. 주목할 점은 영한 번역에 접근하는 방법론과 한영 번역 방법론을 다르게 가져갔다는 점이다.

우선 영한 번역을 위해 네이버는 사전재배열(Pre-reordering)이라는 기법을 사용했다. 이는 번역에 앞서 영어의 구문을 분석해, 한국어 어순에 맞게 영어를 재배열 한 다음 통계기반 번역을 하는 방식이다. 최근 자동번역 분야의 대세는 통계 기반 번역인데, 통계 방식뿐 아니라 언어학적 접근까지 결합한 것이다.

예를 들어 ‘I ate an apple’이라는 문장이 입력되면 주어(I) 술어(ate) 목적어(an apple)을 분석하고, 이를 한국어 순서에 맞게 ‘I an apple ate’라고 순서를 재배치한 뒤 통계 기반 번역 알고리듬을 실행하는 것이다.

김 부장은 “(통계분석의 기반이 되는) 영어-한국어 번역문이 부족해 아직 품질이 높지 않지만 예문이 늘어날수록 품질도 높아질 것”이라고 말했다.

하지만 사전재배열 기법을 한영 번역에도 적용하기는 문제가 많았다. 사전재배열을 위해서는 구문분석을 해야 하는데, 한국어는 너무 어순이 자유롭고, 생략되는 표현도 많아 구문분석의 정확성이 떨어지기 때문이다.

이 때문에 한영 번역에는 사전재배열 방식 대신 ‘계층적 구 기반’ 접근을 취했다. 이는 일-한,한-일 번역에 도입된 구 기반 접근을 보완한 것으로, 변수 개념을 포함하고 있다. 예를 들어 맛있는 사과, 동그란 사과, 빨간 사과 등 사과 앞에 다양한 수식어가 올 수 있다는 ‘x 사과’라는 규칙을 컴퓨터가 학습하도록 하는 것이다. 김 부장은 이렇게 되면 “변수 개념이 들어가면 학습하지 못한 구문도 번역될 수 있다”고 설명했다.

그렇다면 현재 네이버 영-한,한-영 번역의 품질을 구글과 비교하면 어떨까?

김 부장은 “자체적으로 평가했을 때 영한 번역은 구글 수준과 비슷하고, 한영 번역은 네이버가 조금 더 낫다고 본다”면서 “하지만 아직은 만족할 수준은 아니다”고 말했다.

김 부장은 “한-일, 일-한 번역도 처음에는 품질 때문에 욕을 좀 먹었지만 1년 정도 서비스 하면서 많은 피드백을 받아 개선한 결과 지금은 구글보다 낫다고 자신한다”면서 “영어 번역 서비스도 내부적으로는 지금 오픈하는 것이 맞느냐는 논란이 있었지만, 한일 번역의 경험상 일단 오픈하고 피드백을 받아 개선하는 것이 훨씬 효율적이라고 판단했다”고 덧붙였다.

김 부장은 아울러 “네이버가 자체 통번역 기술에 뛰어든 것은 불과 2년”이라면서 “앞으로 1년 후면 일상생활에서 편리하게 사용할 수 있는 수준까지 올라갈 것”이라고 자신했다.

<심재석 기자>sjs@ddaily.co.kr

심재석
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널