작성일: 2011년 5월 20일 금요일

안녕하세요. 구글 소프트웨어 엔지니어 이동휘입니다.

구글에서 주민등록번호 노출을 감지하고 웹마스터에게 조기에 경고하는 주민등록번호 노출 경고 시스템을 시범적으로 운영합니다. 구글 검색 시스템이 주민등록번호 노출이 의심되는 웹페이지를 감지할 경우 구글 웹마스터 도구를 통해 노출된 웹페이지의 웹마스터에게 알림 메시지를 보냅니다. 알림 메시지는 해당 웹사이트의 검증된 웹마스터에게만 보내집니다.


[주민등록번호 노출 알림 메시지 예시]

골칫거리 개인정보 노출 문제
한국 인터넷에서 개인정보 노출 문제는 웹마스터의 가장 큰 골칫거리였습니다. 개인정보 노출 문제는 공개된 정보를 수집하여 쉽게 찾을 수 있게 도와주는 검색엔진에게도 끈질기게 풀리지 않는 숙제였습니다. 전세계에서 수집하는 엄청난 공개 자료속에서 내용을 이해하여 개인정보의 여부를 판단하는 것은 구글에게도 힘든 일입니다. 더 중요한 것은 노출된 정보는 한 검색엔진에서 검색을 막는다고 해서 해결되는 문제가 아닙니다. 전세계에 수 많은 검색엔진이 있고 웹은 태생적으로 모두에게 공개된 공간이므로 노출의 근원을 잡지 않으면 다른 검색 사이트로 흘러가는 것은 시간문제입니다. 또한 어느 웹사이트에 노출되어 있는 개인정보는 전문적인 해커가 아니어도 검색의 도움없이 쉽게 접근할 수 있습니다.

개인정보 노출 문제의 해결책
이에 대한 해결책은 검색엔진과 웹마스터 그리고 사용자들이 협력하여 혹시 있을지 모르는 사고에 미리 대처하는 것입니다. 강력한 컴퓨팅 파워를 가진 검색엔진이 확실하지는 않지만 개인정보로 의심되는 문서들의 목록을 노출된 웹사이트의 웹마스터에게 알려주고 웹마스터는 이를 확인하여 노출이 확실하다면 조기에 조치를 취하면 완벽하지는 않지만 상당부분의 개인정보 노출문제는 해결될 수 있습니다.

앞서 사용자들과의 협력도 언급하였는데, 개인정보 노출 문제는 단순히 웹마스터와 검색엔진만 조심한다고 해결될 문제가 아닙니다. 중요한 개인정보를 소홀히 관리하는 경우가 너무 많습니다. 자신의 주민등록번호로 사용자 계정이나 이메일 주소를 만들어 사용하는 경우, 공개된 게시판에 자기 이름과 주민등록번호를 올리는 경우 그리고 아무 사이트에서나 요구한다고 회원가입시 주민등록번호를 입력하는 습관도 생각해 볼 문제입니다. 검증되지 않은 사이트의 부주의로 노출된 개인정보들이 범죄에 사용되는 경우가 많습니다.

주민등록번호 노출 경고 시스템의 감지 범위
이 시스템은 기계적인 계산으로 주민등록번호로 확인되지는 않았지만 의심스러운 번호패턴을 포함하는 웹페이지를 검출하고 해당 웹마스터에게만 알림을 보냅니다. 감지 시스템의 대상은 구글 검색 로봇이 공개적으로 수집할 수 있는 문서에 한정됩니다. 따라서, robots.txt등으로 구글 검색의 수집을 막은 경우는 문서를 수집하지 않으므로 감지하지 못합니다. 주민등록번호 노출 경고 시스템이 노출을 감지하도록 하려면 robots.txt 등에서 구글 검색 로봇이 해당 웹사이트를 수집할 수 있도록 허용하십시오.

주민등록번호 노출 경고 시스템은 주민등록번호와 유사한 번호 패턴을 감지할 뿐 실제로 주민등록번호가 확실한지 해당 번호의 주인이 누구인지 감지하지 못합니다. 또한, 웹마스터가 문제의 웹페이지를 삭제하거나 수정하면 구글 검색 로봇도 이를 재수집한 후 인덱스에 삭제 혹은 수정합니다.

맺으며...
사람들은 인터넷에서 점점 더 많은 시간을 보내게 될 것입니다. 자연스럽게 더 많은 정보를 공유하게 될 것이구요. 의도하지 않았지만 개인정보가 노출되는 경우도 더 많아지겠지요. 경각심을 가지고 검색엔진, 웹마스터 그리고 사용자가 더 협력하여 안전한 인터넷을 만들기 위해 노력해야 할 것입니다.

구글의 주민등록번호 노출 감지 시스템이 더 안전한 인터넷을 만드는 데 조금이나마 도움이 되기를 바랍니다.

참고 자료


작성자: 구글코리아 소프트웨어엔지니어 이동휘