날짜: 2008년 10월 24일 금요일

구글이 하는 일의 핵심은 검색입니다. 저희는 사용자가 다양한 정보 – 예컨대 대학 홈페이지, 진귀한 스페인 책, 유방암을 이겨낸 사람들의 블로그, BT의 주가, 알프레드 히치콕 감독 사진, 베를린 장벽의 붕괴를 담은 비디오, 모스크바 주변지도 등 - 를 찾는 데에 도움을 주고 있습니다. 이런 정보들은 사람들이 일상적으로 웹에서 찾는 것들입니다.

저희의 목표는 모든 사용자들이 가장 광범위하고 다양한 소스를 통해 사용자에게 가장 편리한 언어, 장소, 기기로 원하는 정보에 접근할 수 있도록 하는 것입니다. 더 많은 정보를 이용할 수 있다는 것은 더 많은 선택의 자유가 있다는 뜻이며, 궁극적으로 사용자가 더 많은 통제권을 갖게 된다고 저희는 믿고 있습니다.

오늘날 검색은 매우 단순한 일처럼 보입니다. 사용자가 저희 홈페이지의 조그마한 흰색 창 안에 검색어를 입력하면 검색 결과가 거의 순식간에 나타납니다. 하지만 구글 검색이 제대로 작동하기 위해 얼마 만큼의 노력이 필요한지에 관해서는 대부분의 사람들이 잘 알지 못합니다. 구글은 물론 구글과 같은 검색엔진들은 검색 결과를 보여주기 위해 수십억 개의 웹 페이지를 일일이 인덱싱해야 합니다. 이를 달리 해석하면 구글은 정보제공을 위해 수백만(수십억까지는 아니더라도)의 웹 퍼블리셔와 협업한다는 의미가 됩니다. 그러나 퍼블리셔들은 자신의 콘텐츠가 검색되고, 보이고, 링크되는 점에 있어서 각각 선호 방식이 다릅니다.

여러분이 아는 주요 검색엔진과 마찬가지로 구글은 인터넷 기술 표준을 사용하고 있습니다. 따라서, 웹 퍼블리셔들은 구글을 통해 자신들의 콘텐츠를 보여줄 수 있는 장소와 방법에 대한 통제권을 갖고 있습니다. 콘텐츠는 퍼블리셔의 소유이기 때문에 저희는 우선으로 퍼블리셔에게 결정권을 드리고 있습니다.

검색의 원리
구글은 ‘구글봇’이라고 하는 일련의 컴퓨터 프로그램이 있습니다. 구글봇은 매일 끊임없이 웹상에 존재하는 수십만 개의 페이지를 ‘방문’합니다. 이 과정을 ‘크롤링(crawling)’이라고 하는데 모두 정교한 알고리듬으로 짜여 있습니다. 다시 말해 어떤 사이트를 크롤할 지, 얼마나 자주 할지 또 각 사이트에서 얼마나 많은 페이지를 방문할 것인가에 대한 프로그램이 짜여 있습니다.

구글봇의 여정은 웹페이지 주소(또는 URL) 리스트에서부터 시작됩니다. 웹사이트를 찾아 다니면서 각 페이지에 있는 링크를 찾아내고 이들 링크를 다음 크롤할 페이지 리스트에 추가합니다. 구글봇은 크롤한 각 페이지의 복사본을 만든 다음 이 페이지를 각 구성 요소로 분해합니다. 이를 통해 구글봇이 인식하는 각 단어에 대해 거대한 인덱스를 컴파일합니다. 이 리스트는 또한 각 단어가 어느 페이지에서 나오는 것인지도 가르쳐 줍니다. 사용자가 검색어를 입력하면 구글의 로봇은 검색어에 맞는 페이지를 찾고자 인덱스를 찾게 되고, 사용자에게 가장 관련이 있는 결과를 보여주게 됩니다.

• 스니펫(snippet): 스니펫은 웹페이지에서 추출된 작은 단위의 텍스트 모음입니다. 스니펫은 검색 결과가 사용자의 검색어와 어느 정도 관련성이 있는지를 쉽게 알 수 있게 합니다.

• 캐시 링크(Cached link): 이 링크는 사용자가 구글 서버에 복사돼 저장된 웹페이지를 볼 수 있게 합니다. 원본 사이트가 일시적으로 이용이 어려울 때나 중대한 사건 발생으로 뉴스를 보려는 사용자의 접속으로 시스템에 과부하가 걸렸을 때 또는 사이트가 우연히 삭제됐을 때 유용하게 사용할 수 있습니다. 이 링크는 또한 구글봇이 웹사이트를 방문해서 무엇을 크롤 했는가도 보여줄 수 있습니다.

크롤 방법과 결과의 배치(위 예에서 보았듯이)는 구글이 제공하는 다른 검색 서비스와 유사합니다. 구글 뉴스처럼 스니펫과 해당 뉴스 퍼블리셔의 웹사이트 링크를 보여줍니다. 구글 이미지 검색도 조그만 썸네일(thumbnail) 사진을 보여주고 해당 사진이 실제로 들어 있는 웹사이트로 링크시켜 줍니다.

웹상의 권리 소유주에 대한 존중
일반적으로 대부분의 콘텐츠 제작자들은 자신들의 웹사이트가 구글의 검색 결과에 나올 수 있기를 원합니다. 어떤 퍼블리셔도 자신의 콘텐츠가 세상의 어둠 속에 묻혀버릴 목적으로 만들지는 않았기 때문입니다. 이런 이유로 인해 제작자들은 구글봇이 그들의 웹사이트에 접속하는 것을 허용하고 있습니다. 물론 자신의 콘텐츠가 구글에 보이는 것을 원치 않는 경우도 있습니다. 유료 아카이브 뉴스나 회사의 내부 연락처 같은 콘텐츠가 대표적입니다. 검색엔진은 퍼블리셔의 희망사항을 존중하지만 그렇다고 독자들에게 불편을 주기를 원하지는 않습니다. 그래서 웹마스터는 미리 자신들의 콘텐츠 중 어떤 부분을 인덱스해도 좋은지를 사전에 저희에게 알려줘야 합니다. 웹 퍼블리셔가 자신들의 콘텐츠와 온라인 저작권을 임의대로 통제할 수 있는 기술 표준은 수도 없이 많습니다.

기술 표준
웹 퍼블리셔의 의견을 존중할 수 있는 이유는 구글이 ‘인터넷 검색엔진 배제표준’(Robots Exclusion Protocol)과 NOARCHIVE 메타 태그를 준수하기 때문입니다. 구글보다 앞서 잘 정립된 기술에는 검색엔진에 사이트의 어떤 부분이 검색 가능하고, 어떤 부분은 검색결과에 나타나야 할지를 구별하는 기능이 있습니다.

인터넷 검색엔진 배제표준의 핵심은 robots.txt로 불리는 단순한 텍스트 파일인데, 이는 웹 퍼블리셔가 여러 단계를 통해 검색엔진의 접근을 통제하도록 합니다. 이러한 단계는 전체 웹사이트에서 개별 디렉터리, 특정 유형 페이지 또는 각 페이지 단위에 존재합니다. robots.txt 파일 말고도, robots 메타 태크가 존재하는데 이를 통해 개별 페이지 또는 웹사이트에 대한 정확한 통제가 가능합니다.

웹마스터는 이러한 다양한 기술적 표준을 이용해 구글이나 다른 검색엔진이 해당 사이트를 크롤하고 인덱스 하도록 손쉽게 허용할 수 있는 것입니다. 예를 들어,  어느 온라인 신문 사이트는 구글 검색 결과에 자신의 내용이 나오는 것은 좋지만 이미지는 구글 이미지 검색에 포함되지 않게 해달라고 구글에 “전달”할 수 있습니다.

사이트맵
사이트맵은 구글과 다른 주요 검색엔진이 웹마스터를 돕기 위해 지원하는 일종의 프로토콜입니다. 사이트맵은 기존 웹 크롤링 메커니즘을 보완하고, 웹마스터는 이들 사이트의 각 페이지를 검색엔진에 소개하는데 이용할 수 있습니다. 이를 통해 웹마스터는 검색엔진의 크롤링에 대한 통제권과 검색결과에서 자신들의 페이지가 보이도록 하는 가시성을 더욱 높일 수 있습니다.

웹마스터는 사이트맵을 이용해 자신들의 사이트가 현재 구글 인덱스에 포함되는지와 구글이 사이트를 크롤링해서 콘텐츠가 검색 결과에 나오지 못하도록 막는 에러를 가졌는지 여부를 파악할 수 있습니다. 이러한 툴을 이용하면 웹마스터는 자신의 URL을 구글 인덱스에 수동으로 추가할 수도 있습니다. 또는 구글에 사이트맵을 제공해 자신들의 콘텐츠가 더욱 잘 이해되도록 할 수도 있습니다. 그리고 구글과 다른 검색엔진이 어떤 방식으로 인덱스를 해야 할지 자신이 선호하는 방식을 결정할 수 있습니다.

옵트 아웃 vs. 옵트 인
혹자는 구글과 같은 검색엔진이 콘텐츠 소유주에게 옵트인(opt-in)을 요청해야지, 콘텐츠 소유주에게 옵트아웃(opt out)을 해서는 안 된다고 주장합니다. 그러나 한 발 뒤로 물러서 생각해 보면 이와 같은 시나리오는 비현실적이라는 것을 쉽게 이해할 수 있습니다.

옵트인은 각 웹사이트 소유주가 각각의 검색 엔진에 연락해 자신들의 모든 페이지에 대해 설명해 줘야 한다는 것을 뜻합니다. 또한 시스템의 남용을 막기 위해 검색엔진은 그 같은 요구를 제출하는 개인의 권한을 검증해야 합니다. 간단히 말해 이러한 과정은 불가능 그 자체입니다.

더욱이 구글과 다른 검색엔진은 종합적인 검색 결과 서비스를 제공하는 것을 목표로 합니다. 만일 수십억 개의 웹 페이지를 단순히 인덱싱하는데 일일이 허락을 얻어야 한다면, 이러한 서비스 제공은 불가능할 것입니다. 옵트인을 적용시킨다면 그 결과는 언급할 필요도 없습니다. 새로운 검색엔진이 나왔다면 서비스를 시작도 하기 전에 문을 닫아야 할지 모릅니다. 검색엔진의 시스템 지원에 필요한 자원을 공급할 수 없기 때문입니다.

결국 콘텐츠가 인덱스되지 않는다면 검색이 될 수 없습니다. 검색될 수 없다면 어떻게 정보를 찾을 수 있을까요? 이는 마치 도서관에 책들이 제목이나 주제없이 무작위로 배치된 것과 같은 모습일 것입니다.

작성자: 구글코리아 블로그 운영팀