작성일: 2012년 4월 27일 금요일

웹의 발전으로 전세계의 20억명 이상의 사람들이 손가락 하나로 세상의 지식에 쉽게 접근할 수 있게 되었습니다. 검색어 하나만 넣으면 수천킬로미터나 멀리 있는 나라 서버의 웹페이지에 접속할 수 있게 된 것입니다. 그런데 여러분이 한국어나 영어만 이해할 수 있는데, 보고 싶은 웹 페이지가 힌두어나 아프리칸스어, 아이슬란드어로로 되어 있다면(혹은 그 반대의 경우라면) 어떨까요?

구글 번역은 2001년에 처음으로 영어와 8개 언어간 번역을 지원하며 서비스를 시작했습니다. 그때 당시 최신 기술이었던 기계 번역 시스템(MT: machine translation)을 사용했지만 번역 품질은 만족스럽지 못했고, 첫 1~2년 동안은 큰 발전을 보이지 못했습니다. 드디어 2003년, 몇몇 구글 엔지니어들이 뭉쳤습니다. 즉, 번역 품질을 개선하고 번역 언어를 더 추가하고자 하는 공동의 목표를 세웠습니다. 이 때 저도 동참하게 되었는데 그때 저는 DARPA 프로젝트 연구원으로 기계 번역에 대한 새로운 접근 방법을 연구하고 있었었습니다. 데이터로부터 학습하는 방식인데, 더 나은 번역 품질을 제공할 수 있는 가능성을 가지고 있었습니다. 번역 품질 향상을 위해 모인 구글러들이 저에게 전화를 걸어 이 데이터 학습 방식을 구글 번역 시스템에도 적용할 수 있을 것이라고 저를 확신시켰습니다.(그때 저는 회의적이었습니다.)

구글에 합류하고,구글 번역 시스템을 재정비해 연구기관들과 기업들이 더 나은 기계 번역 시스템을 구축하기 위해 만든 평가인 NIST 기계 번역 평가(NIST machine translation evaluation)에서 경쟁할 수 있도록 재 정비하기 시작했습니다. 구글의 엄청난 컴퓨팅 인프라와 웹 데이터는 좋은 결과를 가져왔습니다. 이것이 전환점이 되었습니다. 데이터 기반 접근방식이 얼마나 효율적인지를 입증했습니다.

하지만 그 당시 이 시스템은 너무 느려서 실제로 서비스 할 수 있는 단계가 아니었습니다. 천 문장을 번역하는데 천대의 기계로 40시간이나 걸렸으니까요. 그래서 속도 개선에 중점을 두었고, 일년 뒤에는 한 문장을 1초내로 더 잘 번역할 수 있게 되었습니다. 2006년 초에는 첫 언어인 중국어 번역을 출시했고, 그 다음으로 아랍어 번역이 나왔습니다.

2008년 4월 28일에 구글의 통계적 기계 번역 방식(statistical MT approach)을 발표하고 그 후 6년동안 번역 품질과 지원 언어 확대를 중심으로 노력해 왔습니다. 지금은 64개 언어간 교차 번역이 가능합니다. 벵갈어, 바스크어, 스와힐리어, 이디쉬어, 에스페란토어까지, 웹에 많이 존재하지 않는 언어들까지도 포함합니다.

현재 translate.google.com을 이용하는 사용자는 2억명이 넘습니다. (물론 이 숫자는 크롬이나 모바일 애플리케이션, 유튜브 등 구글 번역 서비스를 사용할 수 있는 제품 사용자까지 포함하면 훨씬 더 늘어납니다.) 모바일을 통해 들어오는 트래픽은 연간 4배의 증가세를 보이고 있습니다. 구글 사용자들은 정말 글로벌합니다. 전체 트래픽의 92% 이상이 미국 이외의 국가에서 들어오고 있습니다. 

하루에 구글 번역에서 번역하는 텍스트는 거의 책 백만권 정도에 달하는 양입니다. 달리 말하면, 전 세계 모든 전문 번역가들이 1년동안 출판해 내는 양이 구글 번역 시스템으로는 하루만에 가능하다는 것입니다. 이렇게 측정한다면 지구상에 존재하는 거의 모든 번역은 구글 번역으로 이루어지고 있다고도 할 수 있겠습니다.(우주에서는 상황이 다를 겁니다. 아마 더글라스 아담스의 책에 나오는 “바벨 피쉬”가 번역을 다 할테니까요 ; *책에 나오는 바벨 피쉬는 전 우주의 모든 언어를 알아들을 수 있게 해 주는 신비한 물고기) 물론, 번역의 뉘앙스나 매우 중요한 번역을 할 경우를 생각한다면 어떤 것도 사람이 하는 번역을 따라갈 수 없습니다. 기계 번역이 사람들이 자신의 언어로 더 많이 이야기 하게 되며 전 세계적인 소통을 하는 것을 돕기 때문에, 지금은 번역 전문가가 그 어느 때보다 더 중요한 역할을 담당하고 있다고 생각합니다.

전 세계 모든 사람들이 어떤 언어로 되어 있는 정보라도 공유하고 소비할 수 있는 미래를 상상합니다. 구글은 크롬 브라우저에 웹 페이지 번역 서비스를 제공하고 있습니다. 모바일 사진에 있는 텍스트 번역과 유튜브 동영상 캡션(자막), 스마트폰의 “대화모드” 등의 번역 서비스도 제공하고 있습니다. 구글은 사람들의 소통에서 언어의 장벽이 사라지기를 바랍니다. 앞으로의 6년동안 어떤 발전이 있을지 무척 기대가 됩니다.

*구글 번역이 이루어지는 과정을 쉽게 볼 수 있는 동영상입니다.



작성자: 구글 번역 선임 연구 과학자 프란츠 오슈(Franz Och)


*구글 공식 블로그(OGB)에도 포스팅 되었습니다.