날짜: 2008년 7월 23일 수요일

지난번 저는 구글 검색순위에 담긴 철학을 소개해드렸습니다. 이번 시간에는 검색 품질과 관련해서 구글의 검색기술에 대해 좀 더 자세히 말씀 드리겠습니다. 구글의 검색순위 시스템의 핵심기술은 정보검색(IR: Information Retrieval) 분야에서 출발합니다. 정보검색 분야는 학계에서 50년 가까이 연구되어 왔으며, 여기서 페이지 순위를 매기기 위한 단어빈도와 같은 용어의 특징을 통계 부호로 사용하게 됩니다(정보검색 기술에 대한 설명은 "현대 정보검색의 개괄" 참조). 이같은 정보검색은 많은 부분에서 구글 검색 기술에 토대를 마련해줬고 구글은 이를 바탕으로 링크, 페이지 구조, 그리고 다른 다양한 혁신들을 통해 거대한 시스템을 구축했습니다.

지난 10년 동안 검색은 '내가 말한 것'을 찾아주던 시대에서 '내가 원하는 것'을 찾아주는 시대로 진보했다고 볼 수 있습니다. 이로 인해 검색에 대한 사용자의 기대치는 자연스럽게 높아졌습니다. 구글은 사용자 한 분 한 분의 기대를 충족시키기 위해 최선을 다하고 있으며 이를 위해서 페이지, 검색어, 그리고 사용자들을 더욱 깊이 이해하려고 노력하고 있습니다. 이 같은 3가지 검색 과정의 구성요소를 이해하기 위해 지난 10년 동안 완전히 새로운 차원에서 검색 기술을 개발해 왔습니다.

구글에서 검색어를 말할 때는 괄호 [ ]를 사용해 검색어의 시작과 끝을 구분합니다(참조: 매트 커츠의 "검색어 쓰는 방법"). 이번 글에서도 같은 방법을 사용하겠습니다(페이지와 검색결과는 수시로 바뀌기 때문에 이 글에 나오는 검색어 사례는 설명대로 나오지 않을 수도 있습니다).

페이지에 대한 이해: 구글은 수년 동안 웹페이지 크롤링과 색인생성 시스템 개발에 노력해 온 결과 현재 최신의 대규모 색인을 보유하고 있습니다. 정보의 규모와 최신성은 물론 새로운 방식으로 색인을 생성하는 방법을 개발함으로써 더욱 시스템을 향상시켜왔습니다. 페이지를 이해하기 위해 구글이 개발한 핵심 기술 중 하나는 주요 개념들이 페이지에 명확하게 나오지 않아도 이들 개념들을 결부시키는 페이지를 생성해 내는 능력에 관한 것입니다. 예를 들어 이탈리어로 [galleria sprovieri londra]를 치면 공식 홈페이지에는 ‘런던’ 혹은 ‘런드라(Londra: 이탈리어로 ‘런던’)’라는 단어가 없더라도 런던의 스프로비에리 갤러리(Sprovieri Gallery)를 찾을 수 있는 것 입니다. 미국에서 [cool tech pc vancouver, wa]을 입력한 사용자는 http://www.cooltechpc.com/ 홈페이지를 찾게 됩니다. 홈페이지에는 이 회사가 미국 워싱턴주 밴쿠버에 위치하고 있다는 내용이 어디에도 없는데도 말이지요. 구글이 개발한 또 하나의 기술은 페이지 내 단어의 중요도나 정보의 최신성을 찾아내는 기술입니다.

검색어에 대한 이해: 검색어가 가지고 있는 일반적인 의미를 넘어서 사용자들이 진정 무엇을 찾는가를 이해하는 것은 검색 기술의 핵심입니다. 이 분야와 관련해 업계 최고의 스펠링 제시 시스템, 첨단 동의어 구별 시스템, 그리고 매우 강력한 개념 분석 시스템 등의 몇 개의 괄목할만한 진전을 이루어냈습니다.

대부분의 사용자들은 구글의 스펠링 제시 시스템을 한 두 차례 사용해 보았을 것입니다. 이 시스템은 [kofee annan]을 입력한 사람은 사실 Kofi Annan을 검색하는 것으로 인식하고 “이것을 찾으셨나요: kofi annan”라고 하면서 올바른 철자를 제시합니다. 반면 [kofee beans]을 입력한 사람이 찾는 것은 실제로 coffee beans를 찾는 것으로 구별해야겠지요. 이러한 기능을 국제적인 차원에서 매우 정확하게 제공하는 것은 어려운 일인데 구글은 이를 능숙하게 처리하고 있습니다.

동의어는 우리가 검색어를 이해하는 과정에서 바탕이 됩니다. 이는 구글에서 가장 어려운 문제 중 하나입니다. 사람에게는 자명한 것일지라도 기계적인 언어 처리에서는 여전히 풀리지 않은 문제로 남아 있습니다. 저는 사용자로서 검색어에 어떤 단어를 입력해야 할지 너무 많은 생각을 하고 싶지 않습니다. 알맞은 단어가 무엇인지조차 종종 모를 때가 있습니다. 바로 이때 구글 동의어 시스템이 필요합니다. 구글의 동의어 시스템을 이용하면 복잡한 검색어의 수정이 가능합니다. 예를 들어 [Dr Zhivago]라는 검색어에서 'Dr'라는 단어는 의사를 뜻하는 Doctor로 알고 있습니다. 반면에 [Rodeo Dr]에서의 Dr는 거리를 뜻하는 Drive 입니다. [back bumper repair]를 입력한 사용자가 찾는 정보는 후방(rear) 범퍼 수리에 관한 것으로 해당된 결과를 얻을 수 있습니다.

[Ramstein ab]에 대해서는 자동으로 Ramstein Air Base를 찾아주고; [b&b ab]에 대해서는 캐나다주 앨버타에 있는 Bed and Breakfasts 관련 정보를 찾아줍니다. 이 같은 수준의 검색어를 100여 개의 언어로 분별할 수 있는 구글의 기술력을 매우 자랑스럽게 생각합니다.

구글 랭킹 시스템이 사용되는 또 다른 기술은 개념 확인에 관한 것입니다. 검색어에 있는 단어의 중요한 개념을 이해하면 자연스럽게 더 관련성이 높은 결과가 나타납니다. 예를 들어 구글의 알고리듬은 [new york times square church]와 같은 검색어에 대해 사용자가 타임즈 광장에 있는 유명한 교회를 찾고 있다고 파악하지 뉴욕 타임즈의 기사를 찾는 게 아니라는 것을 정확히 알아냅니다. 저희는 이러한 개념을 인지하는 것에 그치지 않고 올바른 개념으로 검색어를 더욱 구체화시키는 작업을 합니다. 예를 들어 누군가 [PC and its impact on people]을 입력해 관련 정보를 찾는다면 이 사람은 실제로 컴퓨터가 사회에 미치는 영향을 찾고 있는 것입니다. 혹은 [rainforest instructional activities for vocabulary]의 검색어로 정보를 찾는 사람의 경우에는 실제 rain forest lesson plans을 찾고 있다고 파악하는 것이지요. 구글의 검색어 분석 알고리듬에는 많은 첨단 기술이 녹아 있습니다. 거듭 말씀 드리지만 이 같은 검색 서비스는 전세계 거의 모든 언어로 제공되고 있습니다.

사용자에 대한 이해: 사용자의 의도를 해석하는 일은 사람들이 검색어로 쓴 그대로가 아니라 진정 마음 속으로 원하는 결과를 찾아주기 위한 것입니다. 이 작업은 세계적인 수준의 구글 현지화 시스템에서 의해 이루어지며 여기에 구글의 첨단 개인화 기술과 사용자 의도를 해석하는 구글 유니버설 검색(Universal Search)과 같은 기술이 추가됩니다.

"전세계적으로 제공되는 최고의 현지화된 연관 검색결과"에는 구글의 현지화 노력에 반영돼 있습니다. 여러나라에서 입력된 동일한 검색어라 하더라도 결과는 전혀 다를 수 있습니다. 미국에서 [bank]를 입력한 사용자는 미국은행에 관한 정보를 얻어야 하겠지만, 영국 사용자는 Bank Fashion line 혹은 영국의 금융 기관을 찾는 것일 수 있습니다. 호주, 캐나다, 뉴질랜드, 남아프리카와 같은 영어권 국가에서는 이 검색어가 현지 금융 기관을 결과로 보여져야 합니다. 비영어권 국가인 이집트, 이스라엘, 일본, 러시아, 사우디아라비아, 스위스에서 입력될 경우에는 재미난 현상이 나타납니다. 마찬가지로 [football]이라는 검색어는 호주, 영국, 미국에서 각각 완전히 다른 스포츠를 의미합니다. 이러한 예들은 구글이 동일한 개념에 대한 현지화 버전을 정확하게 보여준다는 것을 증명해줍니다(금융 기관, 스포츠 등). 그러나 동일한 검색어는 서로 다른 나라에서는 완전히 다른 것을 의미할 수 있습니다. 예를 들어 [Côte d'Or]는 프랑스에서는 지리학적 지역이지만, 인접하고 있는 불어권 국가 벨기에에서는 대형 초코렛 제조업체의 이름으로 쓰입니다. 네, 그렇습니다. 구글은 이것도 정확하게 집어내고 있습니다 :-).


구글 검색 시스템에 있어 또 다른 강력한 특징 중 하나는 각 개인 사용자에게 맞춤형 검색결과를 제공하는 개인화에 관한 것입니다. 로그인한 상태로 검색을 하는 사용자들이 웹 히스토리(Web History)에 등록되어 있으면 일반적인 구글 검색결과에 비해 더욱 관련성이 높은 결과를 얻게 됩니다. 예를 들어, 미식축구와 관련된 검색을 많이 하는 사용자라면 [자이언츠]를 검색할 때 미식축구와 관련한 정보를 더욱 많이 얻게 되지만, 다른 사용자들은 야구팀 자이언츠에 대한 결과를 얻을 확률이 높습니다. 마찬가지로 특정한 쇼핑 사이트의 결과를 선호하는 경향이 있다면 어떤 상품을 검색할 때 그 사이트로 부터 결과를 얻을 가능성이 높습니다. 구글의 분석에 따르면 개인화된 결과들이 비개인화된 결과에 비해 더욱 관련성이 높은 것으로 나타났습니다.

사용자 의도를 파악하기 위한 또 하나의 사례는 [chevrolet magnum]과 같은 검색어에서 찾아 볼 수 있습니다. Magnum은 실제로 Dodge가 만들지 Chevrolet가 만들지 않습니다. 따라서 검색 결과도 Dodge Magnum을 찾는 것으로 파악하고 dodge magnum 을 제안하게 됩니다.

유니버설 검색은 구글이 사용자 의도를 해석해 그들이 진정으로 원하는 정보를 제공해주는 또 하나의 예입니다. [bangalore]를 찾는 사용자는 주요 웹페이지는 물론 방갈로어의 지도나 거리의 모습을 보여주는 비디오, 교통정보, 관련 뉴스와 블로그 등도 제공받게 됩니다. 이 비디오를 보면 마치 정말 방갈로어에 와 있는 것 같습니다 :-).

마지막으로 구글이 검색에서 가장 최근에 이룬 성과 중 하나를 말씀드리면 바로 교차언어검색(CLIR: Cross Language Information Retrieval)입니다. 교차언어검색은 사용자가 자신이 쓰는 언어가 아닌 다른 언어로 된 정보를 발견하는 때 구글의 번역 기술을 이용해 이 정보에 접근할 수 있도록 하는 것입니다. 저는 이러한 진전을 이렇게 부릅니다: 내가 원하는 정보를 모든 언어로! 러시아어로 된 토니 블레어 전기를 찾는 누군가가 러시아어 검색어인 [Тони Блэр биография]를 입력하면 검색 결과 밑에 다음과 같이 영어 웹사이트에서 검색할 것을 제안 받습니다.

마찬가지로 이집트에서 [أغاني أفلام ديزني]라는 검색어로 디즈니 영화 음악을 검색하면 영어 웹사이트에서 검색할 것을 제안 받습니다. 저희는 교차언어검색에 거는 기대가 큽니다. 왜냐하면 교차언어검색은 전세계 정보를 체계화해 누구나 편리하게 이용할 수 있도록 하는 구글의 미션을 달성하는데 큰 도움이 되기 때문입니다.

구글의 랭킹 시스템의 우수성을 보여주는 첨단 기술 사례를 계속해서 설명드릴 수 있지만 사실 검색은 절대로 완벽하게 해결된 문제가 아닙니다. 많은 검색어들이 여전히 구글의 검색으로 만족스러운 결과를 얻지 못하고 있습니다. 하지만 각각의 검색어는 구글의 랭킹 시스템을 향상시킬 수 있는 기회이기도 합니다. 저희 그룹에서 개발 중인 수많은 기술이 가까운 장래에 구글의 랭킹 알고리듬에 큰 향상을 가져다 줄 것을 확신합니다.

제가 구글 검색 결과와 관련해 올린 두 개의 글이 우리가 매일 같이 검색과 함께하며 그 어느때 보다도 열정을 기울이고 있다는 사실을 분명하게 보여줄 수 있기를 바랍니다. 전세계 사용자들을 위해 최고의 서비스를 제공하고자 하는 이러한 우리의 열정은 전례가 없습니다. 구글은 뛰어난 랭킹 시스템을 운용하며 매일 더 좋은 시스템을 개발하기 위해 부단히 노력하고 있습니다.

작성자: 아미트 싱할(Amit Singhal), 구글 펠로우(Google Fellow)