날짜: 2008년 7월 18일 금요일

지난번 우디 만버(Udi Manber) 부사장이 검색결과의 랭킹 업무를 담당하고 있는 구글 검색 품질(search quality) 팀에 대해 소개한 적이 있습니다. 만버 부사장은 핵심 랭킹(Core Ranking), 인터내셔널 검색(International Search), 사용자 인터페이스(User Interfaces) 그리고 그 외의 팀들을 포함한 ‘퀄러티(Quality)’ (검색 품질을 담당하는 팀을 줄여서 주로 “퀄러티” 라고 부르고 있습니다) 내의 다양한 팀에 대해 소개 했습니다. 저는 이번 시간에 이 중 한 팀에 대해 보다 자세히 설명 드리고자 합니다. 이는 바로 핵심 랭킹(Core Ranking) 팀입니다.

먼저 제 소개를 드리겠습니다. 제 이름은 아미트 싱할(Amit Singhal)이며, 현재 구글 랭킹 팀에 소속되어 있습니다. 1990년 대학원에서 컴퓨터 과학을 전공하며 처음 검색을 접한 이래로 지난 18년 간 검색분야에서 일해 왔습니다. 학계에서는 검색 분야를 정보검색(IR, Information Retrieval) 이라고 합니다. IR 연구원으로 10년을 일한 뒤 2000년도에 구글에 입사했으며 그 후 지금까지 구글 랭킹업무를 담당하고 있습니다.

구글 랭킹은 사용자의 검색어에 대한 가장 적합한 결과를 찾기 위한 알고리듬의 집합입니다. 구글은 매일 수 억 개의 검색어와 함께 수 십 억 개에 해당하는 웹 페이지 집합을 기반으로 이 같은 작업을 수행하고 있습니다. 이러한 알고리듬은 구글의 검색 서비스로 유입되는 모든 검색어에 적용됩니다. 가장 많이 알려진 구글 웹 검색에 사용되는 알고리듬은 이미지나 뉴스, 유튜브, 구글맵스, 제품 검색, 북서치 등과 같은 다른 검색 서비스에도 새롭게 적용되고 있습니다.

구글 랭킹과 관련해 제가 가장 많이 받는 질문은 “어떻게 랭킹 작업을 하는가?”에 관한 것입니다. 물론 구글과 같은 최신식의 랭킹 시스템을 구축하기 위해서는 많은 작업이 필요합니다. 이전에 블로그를 통해 이 같은 시스템을 가능하게 하는 기술에 대해 분석해 드린바 있습니다. 오늘은 구글 랭킹의 기본이 되는 철학에 대해 간단하게 설명드리고자 합니다.

1) 지역적 적합성을 가장 잘 반영한 결과를 전세계로 전달
2) 간단명료한 구성
3) 수작업의 배제

첫번째 철학은 이해하시기 쉬울 것입니다. 구글은 검색에 대한 열정을 다해 모든 사용자들의 검색이 가장 적합한 결과를 얻기를 원하고 있습니다. 국가나 언어, 검색어의 종류를 막론하고 이상적인 결과를 얻지 못했을 경우에는 이로부터 교훈을 얻어 향후 감색결과에 반영될 수 있도록 노력합니다(검색은 쉽게 풀리는 문제가 아니기 때문에 이 같은 일은 물론 일어나지요).

두 번째 철학 역시 이해하시기 쉽습니다. 모든 시스템 개발자들의 바람이 바로 시스템을 ‘간단명료’하게 하는 일 아니겠어요? 다양한 언어와 광범위한 분야의 검색어에 대한 결과 제공을 위해 더 복잡한 구조의 시스템으로 증가하는 검색어를 커버할 수도 있습니다. 하지만 구글은 검색결과의 품질을 떨어트리지 않으면서 구글의 시스템을 간단명료하게 유지시키는 일에 주력하고 있습니다. 이 같은 노력은 매우 가치 있는 것이기 때문에 계속적으로 진행하고 있습니다. 저희는 매주 10회 가량 랭킹을 변화시키고 있는데 이 같은 변화를 감행함에 있어 간단함은 매우 중요한 고려사항입니다. 구글 엔지니어들은 주어진 검색어에 대해 왜 이 같은 방식으로 페이지가 랭킹되는지에 대해 정확히 이해하고 있습니다. 이처럼 간단하고 이해하기 쉬운 시스템을 통해 구글은 보다 빠른 속도로 혁신을 단행하고 있으며 이는 결과로 나타납니다. 구글의 ‘간단 명료한 구성’ 에 관한 철학은 구글을 이끄는 중요한 핵심 요소 중 하나입니다.

구글 랭킹에 대해 이야기할 때 항상 일반적으로 따라오는 잘못된 질문이 있습니다: 바로 ‘구글은 검색결과를 편집하는가?’에 관한 것입니다. 이에 대한 대답은 ‘수작업의 배제’라는 세 번째 철학에 잘 드러나 있습니다. 웹은 사용자들에 의해 구축된다는 것이 구글의 입장입니다. 페이지를 만드는 것은 사용자 여러분들에 의해 이루어지고 구글은 그 페이지를 연결시키는 역할을 하고 있는 것이지요. 저희는 이 모든 사용자들의 업적을 구글 알고리듬을 통해 활용하고 있다고 볼 수 있습니다. 검색결과에 대한 최종적인 순위는 수작업이 아닌 바로 위대한 인터넷 커뮤니티의 산물을 활용하고 있는 구글 알고리듬에 의한 것입니다. 모든 사람들의 주관적 판단은 그야말로 주관적인 것이라고 생각합니다. 구글 알고리듬에 의해 추출된 정보는 이 같은 개인적 주관성에 비해 훨씬 뛰어난 것이라고 믿고 있습니다.

제대로 된 결과를 얻지 못하는 검색어가 나올 경우, 구글은 이를 랭킹 알고리듬을 보다 향상시킬 수 있다는 가능성의 의미로 받아드립니다. 이것이 검색결과에서 수작업을 배제하고 검색 알고리듬 향상에 주력하는 두 번째 이유입니다. 근본적인 알고리듬의 향상은 단순히 해당 검색어를 향상시키는 일에 그치지 않습니다. 이를 통해 검색어 전체에 대한 결과를 향상시킬 수 있으며 많은 경우 모든 언어에 적용이 가능합니다. 다만 구글에 의해 추천받은 웹사이트들에 대해서는 명확한 정책이 구축되어 있다는 점을 알려드립니다. 또한 구글의 정책에 위배되거나 기타 위반사항(법률적 요구, 아동포르노, 바이러스/멀웨어 등)이 있는 사이트들에 대해서는 제재조치를 취하고 있습니다.

다음 시간에는 구글 랭킹의 기술적 측면에 관해 현재 시행 중인 최첨단 테크닉의 몇 가지 예를 말씀드릴 예정이니 계속해서 관심 부탁 드립니다. 검색을 향한 저희 검색 연구원들의 열정은 그 누구보다도 뜨겁습니다. 그리고 저는 이 세상에서 가장 멋진 직업을 가진 사람입니다 :-).

작성자: 아미트 싱할(Amit Singhal), 구글 펠로우(Google Fellow)