“웹검색 정말 어렵다” 네이버 고민 들어보니
- 대부분 검색서비스가 구글에 밀리거나 따라잡혀
- 네이버 내외부 정보 구분없이 잘 보여주는 검색 고도화 진행
[디지털데일리 이대호기자] 네이버(대표 한성숙)가 지난 7일 역삼동 파트너스퀘어에서 개최한 검색 기술 공유 행사 ‘웹커넥트 데이’를 통해 현실적인 고민들을 꺼내놨다.
이날 네이버 웹검색을 이끄는 김상범 리더의 발표가 눈길을 끌었다. 김 리더는 행사에서 “의미있는 검색서비스가 7개 남았다”며 그 중 하나로 네이버를 언급했다.
현재 중국 바이두, 러시아 얀덱스 등 일부를 제외하면 전 세계 검색서비스가 구글에 밀리거나 따라잡힌 상황이다. 최근 얀덱스 상황도 좋지 못하다. 지난 2년간 구글과의 점유율 차이가 8% 수준으로 좁혀졌다. 구글이 퇴출당한 중국은 특수한 경우로 논외 대상이다. 이를 감안하면 구글과 경쟁하면서 유의미한 검색 점유율 격차를 보이는 한국이 유일한 셈이다.
김 리더는 “웹검색이 정말 어렵다. 순수하게 웹검색만 놓고보면 (구글과) 격차가 있다”며 솔직한 심정을 전하기도 했다.
발표에 따르면 웹검색의 품질은 이용자가 원하는 페이지가 나올 수 있도록 학습용 데이터셋을 잘 만드는 것과 크게 연관된다. 이를 위해 내부 공유 중인 가이드라인 책자가 상당히 두껍다. 원하는 URL이 바로 나오면 5점, 거의 모든 정보를 얻을 수 있으면 4점 등의 여러 상황에서 임의의 점수를 매기는 내용이 담겼다.
검색 순위를 결정하기 위한 랭킹 시그널도 서비스 품질에 큰 영향을 미친다. 엔지니어들의 몫이 바로 좋은 시그널을 발굴하는 것이다.
예를 들면 제목 안에 사용자 질의어(쿼리)가 있는가, 스팸인가 아닌가 등으로 0과 1로 정의하는 것인데, 이 부분은 영업기밀로 구글 등 여러 회사들이 공개하지 않고 있다. 일부라도 공개되면 검색 순위 조작을 위한 어뷰징이 늘어나 서비스 품질이 하락할 수 있기 때문이다.
네이버는 광고 등의 내용을 담은 스팸(spam)을 걸러내는 기술도 소개했다. 강성구 웹스팸 엔지니어는 “전체 문서의 25~30% 정도가 스팸으로 추정된다”며 “스팸은 생물이다. 검색엔진이 고도화될수록 함께 고도화되고 있다”고 검색 결과에서 스팸을 배제하는 것이 쉽지 않음을 토로했다.
올해 네이버가 중점을 둔 스팸처리 기술은 웹문서가 가진 정보량을 측정하는 것이다. 가격, 호텔이름 등 정보를 나타내는 관련 단어를 뽑아내 정보량을 측정한 뒤 정보가 없다면 스팸처리, 정보가 많다면 좋은 품질의 문서로 판단하는 것이다.
이 기술은 알고리즘 기반의 뉴스 편집에도 활용될 수 있다. 현재 이슈와 상관없는 기사들도 스팸처리 기술을 활용해 검색 결과에서 걸러낼 수 있을 전망이다
네이버는 이날 웹문서검색 고도화의 일환으로 진행한 웹사이트와 웹문서 영역 통합 사실도 알렸다. 모바일 환경에선 사이트보다 정답형 정보나 하나의 웹페이지를 통해 정보를 확인하는 추세가 증가하는 것을 반영한 변화다. 당분간 기존 검색 결과도 볼 수 있다.
이와 함께 네이버 내부 채널이 아닌 외부 정보들을 잘 보여주기 위한 준비도 진행 중이다. 검색 랭킹 시그널에서도 내외부 서비스를 구분하지 않고 있다.
김 리더는 “새로 바뀐 영역에서 지향하는 것은 사용자가 입력한 쿼리가 네이버 밖의 문서 중에서 있다면 어떤 식으로든 찾아서 보여주겠다는 것”이라며 “원래는 그 역할을 못했는데 뚜렷히 하겠다”고 힘줘 말했다.
외부 전문자료도 네이버에서 찾을 수 있도록 웹검색을 개선한다. PDF 분석 솔루션을 만들어 더 나은 검색 결과를 보여주겠다는 것이다. 김 리더는 1년 내 변화를 예고했다.
<이대호 기자>ldhdd@ddaily.co.kr
어르고 달래면 내부 소스코드도 술술 부는 AI..."방어 기술, 여전히 부족"
2024-11-19 19:40:58코딩 안해도 API 뚝딱…AI 시대 주목받는 ‘iPaaS’
2024-11-19 19:40:29"콘텐츠 해외 진출서 FAST 등 K-플랫폼의 역할 중요"
2024-11-19 19:14:42유상임 과기정통부 장관, 80여개 학회와 '100분 토론' 연다
2024-11-19 17:59:26