뉴스

네이버, 웹검색 기술 강화…가두리 비판 벗어날까

심재석

[디지털데일리 심재석기자] 네이버가 웹검색을 강화한다. 네이버는 최근 웹검색 기술을 대대적으로 개선하고, 통합검색에 반영할 예정이다. 네이버 웹검색이란 블로그, 뉴스, 카페, 지식iN 등 네이버 안에 있는 문서가 아닌 네이버 외부의 일반 웹사이트의 문서검색을 말한다. 네이버는 국내 검색시장 부동의 1위이지만, 외부 웹검색 검색이 미진해 일각에서 ‘가두리 양식장’이라는 비판을 받기도 했는데 이같은 기술 개선이 이런 문제를 해결할 수 있을지 주목된다.

이번에 네이버가 개선한 웹검색 기술은 수집, 랭킹, 인프라 플랫폼 등 전방위적이다.

우선 수집 시스템은 사용자 선호 변화에 따라 지능적인 수집제어 기능을 도입한 것이 가장 큰 특징이다. 수집할 ‘좋은 문서’의 선택을 이용자 행동 기반으로 하겠다는 것이다. 원성재 문서수집랩장은 “사용자 관점에서 양질의 웹문서가 선순환 될 수 있도록 좋은 문서를 수집하기 위한 기술적 고도화 작업을 지속적으로 추진해오고 있다”고 말했다.

특히 만들어진 문서를 잘 수집하는 기술을 개발하는 수준을 넘어 네이버 외부에서 양질의 문서가 많이 만들어지도록 각종 지원책을 만든 것도 눈길을 끈다. 네이버는 검색 잘되는 웹문서 가이드라인을 공개하고, 이 가이드라인에 따라 웹페이지를 개발할 수 있도록 웹마스터 도구를 제공한다. 또 신디케이션 API(애플리케이션 프로그래밍 인터페이스)를 통해 네이버가 수집하기 전에 웹사이트에서 네이버에 웹문서를 제공할 수 있는 체계도 만들었다.

검색어에 맞는 결과를 우선 보여주기 위한 랭킹 시스템도 개선했다. 네이버는 ‘타우린 프로젝트’라는 이름으로 새로운 랭킹 시스템을 개발해왔다. 새로운 랭킹 시스템은 웹페이지 및 웹공간을 분석해 우선순위를 매긴다. 또 네이버 지식iN 등의 앵커 텍스트 웹검색의 랭킹에 이용하기도 한다.

네이버 측에 따르면, 새로운 랭킹 시스템을 적용한 결과 사용자들이 네이버에서 검색한 이후 더 다양한 사이트로 이동하는 것으로 나타났다. 개편이전에는 이용자가 웹문서 영역에서 상위 20개 사이트로 이동하는 비율이 44%에 달했던데 비해 개편 후에는 상위 20개 사이트의 클릭 비율이 16%로 축소됐다는 것이다. 또 웹문서 영역을 통해 100회 이상 클릭된 사이트 수도 30% 가량 증가했으며, 정부기관 및 대학교 웹페이지의 클릭 비율은 80%, 위키피디아 같은 외부 백과사전의 경우 140% 늘었다고 네이버 측은 설명했다.

타우린 프로젝트를 이끌어온 네이버 검색연구센터의 김상범 박사는 “웹페이지 분석 기술을 고도화하는 한편, 앵커 텍스트를 활용해 좋은 웹문서들의 노출 비중을 늘리는 방향으로 알고리즘을 발전시켜 나가고 있다”고 말했다.

검색 인프라 플랫폼도 바뀌었다. 네이버는 2011년부터 ‘빅브루’라는 이름으로 검색 플랫폼을 개선해 오고 있었다. 이는 문서가 급증해 처리할 데이터의 양이 늘어도 검색 속도에 영향을 미치지 않도록 하는 것이 목적이다.

네이버 측에 따르면, 저장-색인-서빙의 3단계를 분산저장소, 동적 증분 색인, 동적 증분 서빙으로 바꾸었다. 분산저장소는 하둡과 Hbase 등 오픈소스를 활용했다. 증분 색인은 문서가 변경되는 것을 자동으로 감지하고 변경된 문서와 이에 영향을 받는 문서들에 대한 색인 프로세스를 자동으로 구동시키는 기술이다. 동적 증분 서빙은 서빙 시스템이 사용자 요청을 처리하는 도중에 문서가 변경될 경우 실시간으로 변경 사항을 검색에 반영한다.

곽용재 검색시스템센터장은 “검색 알고리듬이 복잡해질수록 이를 지탱할 수 있는 빠른 연산 메커니즘을 제공하기 위해 끊임없는 연구를 거듭하고 있다”면서 “기술 혁신을 통해 실시간, 자동으로 구동되는 검색 시스템을 구축해 비용을 최소화하고 더 좋은 서비스를 제공하는 데 집중할 수 있도록 플랫폼이 뒤를 든든히 받칠 것”이라고 말했다.

네이버 이윤식 검색본부장은 “네이버 검색은 좋은 문서가 네이버 자체 서비스인지 외부의 서비스인지 그 출처는 중요치 않으며 웹 상에 존재하는 좋은 문서들을 빠르고 정확하게 찾아주는 것을 목표로 하고 있다”면서 “이용자들이 좀 더 신뢰할만한 문서들을 보다 쉽게 찾을 수 있도록 웹문서 영역을 포함한 검색 기술 고도화 작업을 지속적으로 추진할 계획”이라고 말했다.

<심재석 기자>sjs@ddaily.co.kr

심재석
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널