날짜: 2008년 11월 14일 금요일

구글에서 일하는 대부분 사람들이 그렇듯, 저희도 온라인 검색 트렌드에 높은 관심을 가지고 있습니다. 미국대선이나 오늘의 핫 트렌드, 또는 올해의 자이트가이스트(구글 핫 키워드)에 관심이 있다면, 구글 검색어 트렌드 자료를 활용해 보실 수 있습니다. 지난해부터 몇몇의 구글 소프트웨어 엔지니어들이 검색어 트렌드를 보다 심도있게 분석해, 실생활에서 일어나는 현상을 정확히 파악할 수 있는 모델을 개발하기 시작했습니다. 그리고, Google.org의 질병예측 및 예방팀에 속한 공중보건 전문가들과의 협의를 거쳐, 전 세계 수백만의 목숨을 앗아가는 전염병에 대해 연구하기로 했습니다. 대표적인 전염병인 감기는 세계적으로 매년 50만 명에 가까운 목숨을 앗아갑니다. 만약 여러분이나 여러분의 자녀가 독감에 걸려본 적이 있다면, 그 괴로움을 잘 아실 것입니다.

저희 팀은 매년 독감 시즌마다 특정 검색어 패턴이 눈에 띄게 나타나는 것을 발견했습니다. 이 검색어들을 미국 질병통제예방센터(CDC)의 데이터와 비교해 보았는데, 주간 검색 빈도와 독감 증세를 보인 환자 수 사이에 매우 밀접한 관련이 있다는 것을 알 수 있었습니다. 이에 따라, 감기와 관련된 단어의 검색 횟수를 통해 감기 관련 질병에 걸린 사람의 수를 예측할 수 있었습니다. 그리고 이 같은 결과를 토대로 저희는 구글의 감기 동향 결과를 발표했습니다. 구글 감기 동향 사이트에서는 미국 내 50개 주의 감기 바이러스 관련 최신 자료를 보실 수 있습니다.

질병통제예방센터(CDC)가 실재 의사들과 환자들을 조사해 감기에 관한 정확한 동향을 분석하고 있는데, 왜 굳이 검색어 합계를 추산하는 것일까요? 기존의 감기 감시 시스템은 감시 데이터를 집계하고 발표하는데 1-2 주 정도의 시간이 소요되지만, 구글 검색어는 이 같은 과정을 자동으로 신속하게 처리할 수 있기 때문입니다. 구글 감기 동향 서비스는 매일 감기 분석자료를 공개함으로써 인플루엔지 발생에 대한 조기경보 시스템을 제공할 수 있습니다.

역학자들에게는 매우 흥미로운 일이 될 것입니다. 조기에 질병을 감지함으로써 전염되는 환자의 수를 줄일 수 있기 때문입니다. 만약 특정 조건에서 감기 바이러스의 변종이 발생했다면, 유행성 전염병이 발생해 수백만의 사람들이 목숨을 잃을 수도 있습니다(1918년의 경우처럼 말입니다). 구글의 최신 감기 동향 자료는 또한 공중보건의와 보건 교수들이 시대별 유행 전염병과 광역 전염병에 보다 효과적으로 대처할 수 있도록 도울 것입니다. 물론, 이 같은 질병들이 절대 발생되지 않기를 바랍니다.

저희는 2007년과 2008년도 감기가 유행한 기간 동안의 초기 분석결과를 질병통제예방센터(CDC)의 인플루엔자 전염병학 및 예방 부서(EPBID)와 공유했습니다. 저희와 질병통제예방센터는 구글 검색을 통한 감기 분석 자료와 실재 질병통제예방센터(CDC)의 감시 자료 간에 지속적인 일관성이 존재한다는 사실을 발견했습니다. 저희의 시스템은 아직 실험적인 단계에 있지만, 내년에도 유사한 결과를 볼 수 있기를 희망합니다.

저희는 2003년부터의 개별 검색어 수천억 개를 분석해 이와 같은 성공적인 모델을 개발했습니다. 저희는 물론 사용자들의 개인정보를 보호해야 하는 책임에 대해서도 충분히 숙지하고 있습니다. 구글 감기 동향은 주별 검색어 빈도의 총합을 기반으로 분석하기 때문에 익명성이 보장되며, 개별 사용자들의 검색어는 파악할 수 없습니다. 저희가 데이터를 통해 관찰한 패턴은 대규모의 구글 검색 사용자 표본에 관해서만 유의미합니다.

다시 감기의 계절이 돌아왔습니다. 올해의 감기 환자로 포함되지 않기 위해서 예방주사를 맞으세요! 그리고 이번 감기 시즌이 어떻게 전개될 지, 구글 감기 동향의 그래프를 주목해주세요.

작성자: 소프트웨어 엔지니어 제레미 긴스버그(Jeremy Ginsberg), 맷 모헤비(Matt Mohebbi)