오늘날 시장에는 수백 여 종의 빅데이터 관련 분석 제품과 서비스가 출시되어 사용자들의 이목을 끌기 위해 경쟁 중입니다. 빅데이터가 업계의 혁신을 주도하는 핵심 분야로 부상하면서 나타난 자연스러운 현상입니다. 이 중에서도 정보 기반 통계 분야가 가장 놀라운 사용자 경험을 이끌어내고 있습니다. 바로 이 분야에 구글 클라우드 플랫폼(GCP)은 거의 20년 동안 기술 투자를 해왔으며 오늘, GCP NEXT에서 그 성과를 선보입니다. 이 차세대 혁신을 통해 구글에서는 데이터 관리 및 분석 역량 포트폴리오를 더 확충할 수 있게 되었습니다. 여러 핵심 분야에 있어 다음과 같은 새로운 제품과 서비스를 출시했습니다.

머신 러닝
구글에서는 자신을 둘러싼 환경을 보고, 듣고 이해할 수 있는 애플리케이션을 만들기 위해 힘쓰고 있습니다. 이러한 노력의 성과로 오늘 구글에서는 새로운 제품군인 클라우드 머신 러닝 서비스를 출시합니다. 이제 어떤 기업이든 머신 러닝을 활용할 수 있으며, 데이터 과학자와 개발자들에게는 새로운 차원의 인공지능 애플리케이션 구축의 기반을 마련해 줄 것입니다. 이 서비스를 통해 구글 나우, 구글 포토 및 구글 검색의 음성 인식을 가능하게 하는 기술이 REST API 만큼 사용하기 쉬워지며, 오픈소스 텐서플로 머신 러닝 라이브러리를 이용해 자체 데이터를 기반으로 강력한 머신 러닝 모델을 구축할 수 있게 됩니다.

  • 클라우드 머신 러닝으로 단시간에 정확도 높은 대용량 머신 러닝 모델을 쉽게 구축할 수 있습니다. 또한 이동성 및 확장성이 뛰어나며 완전 관리형 서비스입니다. 클라우드 머신 러닝은 다양한 포맷의 데이터를 지원하며 다른 구글 클라우드 플랫폼 제품(구글 데이터플로우, 빅쿼리, 클라우드 데이터프로크, 구글 클라우드 스토리지, 클라우드 데이터랩)과 잘 호환됩니다. 자체 트레이닝 데이터를 사용해 쉽게 예측 분석 모델을 구축할 수 있습니다. 예를 들어, 회귀 모델을 사용해 값을 예측하는 금융 서비스 앱이나 이미지 분류 서비스에 적용할 수 있습니다. 클라우드 머신 러닝은 데이터 통합에서부터 예측까지 전 과정을 다룹니다. 구글은 이제 구글의 많은 서비스를 지원하는 딥 러닝 기술을 어떤 애플리케이션에서든 활용할 수 있도록 지원하고자 합니다.
  • 사전 훈련 기반 머신 러닝 모델이 새로 추가됩니다. 기존에 클라우드 번역 API클라우드 비전 API에 더해 오늘 클라우드 스피치 API를 새로 선보입니다. 이렇게 함으로써 이제 보고, 듣고 번역할 수 있는 애플리케이션을 지원하는 완전한 API 조합을 제공할 수 있게 되었습니다. 구글 클라우드 스피치 API를 통해 구글 앱의 음성 검색 및 구글 키보드의 음성 입력을 지원하는 고급 신경망 기술을 모든 애플리케이션에서도 똑같이 이용할 수 있게 됩니다. 80개 이상의 언어에서 음성-텍스트 변환을 제공하는 이 API는 놀라운 정확성을 자랑합니다. 특히 소음이 심한 환경에서도 정확하게 작동하며 속도 또한 놀랍습니다. 기존에 개발자들이 크롬안드로이드에서 음성 인식 기능을 구축하는 데 사용하던 기술이 이제는 모든 애플리케이션에서 실시간 스트리밍 또는 배치 모드로 이용 가능해집니다.



빅데이터 및 분석

빅데이터 작업을 클라우드 플랫폼에서 하면 기반 인프라에 대한 걱정을 할 필요가 없어 더 빠르고 정확한 통계를 가지고 애플리케이션을 구축할 수 있어 생산성이 더 높아집니다. 이를 위해 구글에서는 최근 구글 클라우드 데이터프로크 서비스를 출시하여 자체 관리하던 아파치 하둡아파치 스파크 파이프라인을 그대로 구글 클라우드에서 이용할 수 있도록 했고, 오늘 다음과 같은 새로운 서비스와 기능을 추가로 선보입니다.

  • 구글 빅쿼리는 계속해서 완전 관리형 분석 데이터 웨어하우스의 이상을 추구하며 그 한계에 도전하고 있습니다. 오늘 구글에서는 빅데이터 분석을 합리적인 가격으로 더 빠르고 쉽게 이용할 수 있도록 여러 가지 새로운 기능을 선보입니다.
    • 롱텀 스토리지는 90일이 경과하면 자동으로 스토리지 가격이 50% 인하됩니다.
    • 자동 테이블 파티션(알파 버전 곧 출시 예정)은 날짜 별로 테이블을 파티셔닝하고 원하는 날짜 범위를 쿼리함으로써 날짜를 저장, 쿼리하는 방식을 단순화합니다.
    • 새로운 커패시터 스토리지 엔진은 최대 10배까지 쿼리 성능을 가속화해주며 포세이돈은 데이터 인제스트(Ingest) 및 엑스포트(Export) 속도를 5배까지 개선해주는 새로운 메카니즘입니다.
    • 아파치 AVRO 파일의 디렉트 쿼리 및 임포트 기능으로 데이터 호환성을 개선합니다.
    • 자동 스키마 추론이 JSON 및 CSV 파일에서 가능합니다.
    • 새로운 공용 데이터세트 프로그램으로 지역 커뮤니티의 공용 데이터세트 호스팅, 공유, 분석을 지원합니다.
    • 이 모든 기능은 완전 관리형 서비스라는 이름에 걸맞게 어떠한 업그레이드나 시스템 중단이 필요하지 않고 자동으로 구현됩니다.
  • 구글에서는 최근 새로운 리포트 및 데이터 시각화 제품인 구글 데이터 스튜디오 360을 발표했습니다. 데이터 스튜디오는 모든 분석 워크플로우를 하나의 도구에 통합한 제품으로, 사용자는 구글 애널리틱스, 구글 빅쿼리, 구글 스프레드시트 등 다양한 출처의 데이터세트를 확인, 변환, 공유할 수 있습니다. 또한 동일한 보고서에서 다양한 출처들을 시각화할 수 있으며, 다른 사용자와 공동 작업하여 멋지고 유연한 보고서를 작성할 수 있습니다. 구글 데이터 스튜디오는 현재 비공개 베타(초대를 받아야만 사용 가능) 버전으로 출시되었으며, 구글 애널리틱스 프리미엄 고객들이 이용할 수 있습니다.

오픈소스:
구글 클라우드 머신 러닝 서비스는 구글의 최첨단 머신 러닝 및 데이터 처리 기술을 활용하며, 그 중 일부는 최근 오픈소스로 제공되고 있습니다.

  • 구글의 최신 머신 러닝 시스템인 텐서플로(TensorFlow)는 현재 깃허브(GitHub)에서 머신 러닝 프로젝트 중 1위를 차지하고 있습니다. 구글은 이러한 생태계를 지속적으로 개발 중입니다. 예를 들어, 구글의 또 다른 오픈소스 프로젝트인 쿠버네티즈(Kubernetes)텐서플로 서빙(TensorFlow Serving)을 사용하여 ML 모델을 확장 및 지원할 수 있습니다. 클라우드 머신 러닝 프로젝트는 이러한 기능을 더욱 확대하여, 사용자가 구글 클라우드 플랫폼에서 자신의 데이터를 가지고 강력한 머신 러닝 모델을 구축할 수 있습니다.
  • 올해 초 구글에서는 데이터플로우 모델, SDK, 러너(Runner)를 아파치 인큐베이터에 제출하기 위해 데이터 아티산, 클라우데라, 탈렌드 등 여러 기업과 파트너십을 맺었습니다. 아파치 빔이라 불리는 이 새로운 프로젝트를 통해 사용자는 스트리밍 및 배치 모드 모두에서 실행할 수 있는 강력하고 단순하며 휴대 가능한 데이터 처리 파이프라인을 규정할 수 있게 됩니다.

클라우드 플랫폼팀이 2016년에 거는 기대는 매우 큽니다. 스포티파이, 코카콜라, 아토믹 픽션, 칸 아카데미 등 세계 유수의 브랜드에서 구글 빅 데이터 서비스를 사용하고 있습니다. 사용자들이 구글의 새로운 제품을 통해 큰 혁신을 이루기를 기대합니다. 시작하려면 cloud.google.com/ 페이지를 방문하세요.

작성자: 파우스토 이바라(Fausto Ibarra), 프로덕트 매니지먼트 디렉터