날짜: 2008년 7월 10일 목요일
작성자: 소프트웨어 엔지니어 매트 커츠

안녕하세요?

현재 구글 웹스팸 업무를 총괄하고 있는 소프트웨어 엔지니어 매트 커츠입니다. 저는 여러분들께 최대한 관련성이 높고 유익한 검색결과를 전달하는 책임을 맡고 있습니다. 혹시 웹스팸을 처음 들어보신 분들을 위해 간단히 설명 드리면, 웹스팸은 웹사이트가 교묘하게 페이지랭크에서 높은 순위를 차지하거나 또 다른 방법으로 검색엔진 품질 가이드를 위반하였을 때 검색결과로 나타나는 스팸 정보를 의미합니다. 아래 검색결과 링크를 클릭해보면 웹스팸이 무엇인지 알 수 있습니다.


이런 페이지는 검색 의도와는 무관한 내용으로 사용자에게 불편을 줍니다. 위의 예에서 볼 수 있듯이 웹스팸은 연관된 내용 없이 부적절한 링크를 제공하기 때문에 사용자들에게 전혀 도움이 되지 않는 정보를 제공합니다. 여러분이 이러한 검색결과에 노출되지 않도록 하기위해 저희는 부단히 노력하고 있습니다. 구글 검색결과에 있는 링크를 클릭했는데 위와 같은 페이지로 연결된다면 사용자가 받는 스트레스는 이만 저만이 아닐 것입니다.

최근에는 사용자들이 이처럼 노골적인 웹스팸을 접하게 되는 경우가 많이 줄었습니다. 하지만 구글이 인기있기 전부터 또 효과적인 스팸 방지 기능을 개발하기 이전부터 웹스팸은 매우 심각한 문제였습니다. 자신의 이름을 검색했는데 성인 사이트가 나오면 조금 불쾌하고 성가신 일로 그칠 수 있습니다. 하지만 대다수의 경우 검색결과에서 관련성이 매우 중요하기 때문에 웹스팸 문제는 굉장히 심각합니다. 예로 들어 전립선암에 관한 검색을 했는데 링크된 페이지들이 스팸으로 가득차 있다면 유용한 도구로서의 검색엔진의 가치는 크게 떨어지게 됩니다.

구글이 웹스펨을 차단하기 위해 사용하는 방법 중 하나는 검색 로그와 관련된 데이터를 활용해 연관성이 높은 정확한 검색 결과를 전달하는 것입니다. IP주소나 쿠키 정보와 같은 로그 데이터로 인덱스의 크기, 커버리지, 결과의 최신성, 스팸 등과 같은 검색품질의 다양한 측면을 파악할 수 있는 측정지표를 만들 수 있습니다.

구글은 새로운 측정지표를 개발할 때마다 반드시 기존 검색어와 결과를 이용해 로그 데이터를 검토하고 새로운 스팸 지표를 산출합니다. 검색 로그를 통해 과거로 돌아가 구글이 몇 개월 전 검색어에 대해 얼마나 적절한 검색결과를 제공했는지 확인해보는 것입니다. 새로운 유형의 스팸을 더욱 정확하게 측정하는 지표가 개발되면 앞으로 있을 웹스팸 검출 성공 사례를 추적하는 동시에 로그 데이터를 이용해 몇 개월 전 혹은 몇 년 전에 존재한 웹스팸 처리방법을 확인할 수 있습니다.

이처럼 사용자의 IP주소와 쿠키 정보는 웹스팸 방지를 위해 매우 중요한 정보라고 할 수 있습니다. 합법적인 사용자에 의한 검색인지 혹은 검색봇(bot)이나 기타 부정한 방법에 의한 검색인지를 가려낼 수 있기 때문입니다. 예를 들어 검색봇이 구글에 같은 검색어를 반복적으로 보낸다면 우리는 이 검색어들을 폐기한 뒤 사용자들이 접하는 스팸의 양을 측정합니다. 이러한 로그 데이터, IP 주소, 쿠키와 같은 모든 정보는 여러분의 검색 결과를 더욱 정확하고 관련성 있게 만들어 줍니다.

웹스팸은 완전히 해결된 문제가 아닙니다. 구글은 작년에도 중국 도메인 인덱스에 다량의 웹스팸이 들어 있는 것을 발견했습니다. 일부 스패머들이 저렴한 .cn 도메인을 대량으로 구매한 뒤 잘못된 철자와 포르노 관련 문구로 도메인을 가득 채운 것입니다. 관심이 높은 사용자들은 블로그를 통해 관련 내용을 접해보셨겠지만, 일반 사용자들은 이런 사실 조차 알지 못했을 것입니다. 대다수의 사용자들이 잘못된 검색 결과를 인식하지 못한 데는 이유가 있습니다. 구글이 .cn 관련 스팸을 찾아낸 뒤 이에 신속하게 대응할 수 있는 엔지니어링 프로젝트를 수립했기 때문입니다. 이같은 문제를 파악하기 위한 기초 정보인 로그 데이터가 없었다면, 더욱 많은 구글 사용자들이 웹스팸 공격을 당했을지도 모릅니다.

가장 이상적인 것은 대부분의 사용자들이 구글에 웹스팸 팀이 있다는 사실 조차 인식하지 못하는 것입니다. 우리가 맡은 업무를 잘 수행한다면 사용자 여러분이 간혹 낮은 수준의 검색 결과를 얻는다 하더라도 적어도 교묘하게 다른 URL로 유도하는 리다이렉트나 원치 않는 성인 사이트, 횡설수설하는 기타 웹스팸들과 마주치는 경우는 생기지 않을 것입니다. 결론적으로 로그 데이터는 사용자의 검색 경험 품질이 낮아지지 않도록 구글이 한발 앞서 새로운 스팸 트렌드를 발견하고 이에 대응할 수 있게 해줍니다. 앞으로도 사용자들을 위한 이러한 노력은 계속 될 것입니다.