날짜: 2008년 11월 6일 목요일

스캐너는 훌륭한 도구입니다. 전 세계 사람들은 매일같이 스캔 문서를 온라인에 올리고 있습니다. 스캔 문서는 정부 보고서에서 어려운 학술논문에 이르기까지 다양합니다. 이러한 파일들은 대게 텍스트보다는 텍스트의 모양을 한 이미지로 구성돼 있습니다. 사람들은 다른 사람들과 공유할만한 가치가 있다고 생각되는 문서를 스캔합니다.

과거에 스캔 문서는 검색 내용에 포함되지 않았습니다. 왜냐하면, 그 내용이 어떤 것인지를 정확히 알 수 없었기 때문입니다. 가끔 해당 문서에 관한 참고문헌에서 단서를 찾아 검색결과에 나오는 경우는 있었지만, 문서의 스니펫(관련 검색어가 들어있는 2-3줄의 소개 발췌문)이 없어 사용자의 검색어와 일치되지 않았습니다. 그러나 이제 상황이 달라졌습니다. 광학 문자판독(OCR) 기술 덕분에 어도비 PDF 형태의 스캔 문서를 모두 찾아낼 수 있습니다. OCR 기술은 그림(수천 개의 단어로 이뤄진 그림)을 수천 개의 텍스트로 변환해주기 때문에 검색과 인덱싱을 할 수 있습니다. 덕분에 이제 온라인에 존재하는 가치 있는 스캔 문서를 쉽게 찾을 수 있습니다. 기술적으로는 작은 진보이지만, 세상의 모든 정보를 언제 어디서나 활용할 수 있도록 한다는 구글의 미션을 수행하기 위한 중대한 진전입니다.

PDF로 저장된 문서를 인덱싱할 수 있다해도 스캔 문서를 컴퓨터가 읽는다는 것은 매우 어려운 일입니다. 스캐닝은 프린팅의 역순입니다. 프린팅은 디지털 텍스트를 종이에 옮기는 과정이고, 스캐닝은 종이에 쓰인 텍스트를 그림으로 만들어 컴퓨터에 저장해 볼 수 있도록 하는 과정입니다. 그러나 스캔된 텍스트는 원래의 고유 텍스트 이미지와 똑같지는 않습니다. 이는 어디까지나 프린트된 단어들로 이루어진 “그림”이기 때문에 때로 종이에 눌린 자국이나 컵자국, 잉크 번짐, 종이가 접힌 부분까지도 그대로 나타나는 경우가 있습니다.

사람은 “단어”와 “단어로 이루어진 그림”을 구분하는 게 어렵지 않지만, 컴퓨터는 거의 불가능합니다. 하나의 동그라미를 놓고도 이것을 숫자 '0'으로 읽어야 할지, 알파벳 'O'로 읽어야 할지 아니면 그냥 원이나 컵 자국인지를 구분해야 하기 때문입니다. 사람들은 이런 상황에서 빠르게 답할 수 있지만, 컴퓨터는 수 많은 연산작업을 하고도 실수를 할 수 있습니다.

새로운 구글 시스템이 어떻게 작동하는지 확인하시려면 아래 검색어를 클릭해보시기 바랍니다. 검색 결과상에서 발췌된 문서의 내용과 ‘HTML보기’ 결과를 서로 비교해보세요.

[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]

작성자: 구글 프로덕트 매니저 에빈 레비(Evin Levey)