컴사랑의 이런 저런 이야기
Google Bigquery & AWS RedShift 본문
오늘 "구글 파이어베이스를 이용한 손쉬운 모바일 앱 개발과 빅데이터 분석" 행사에 다녀 왔습니다. 파이어베이스(firebase) 및 구글 빅쿼리(BigQuery)에 대한 소개였습니다.
사실 저는 정말 운이 좋겠도, 데이터 분석에 구글 BigQuery와 아마존의 RedShift를 모두 사용하고 있습니다(물론 간혹 Spark도 씁니다). 둘 다 SQL 기반으로 데이터 분석을 할 수 있죠.
구글 BigQuery는 정말 정말 빠릅니다. 그리고 그 성능에 비해서 비용은 정말 쌉니다. 엄청난 장점이죠. 하지만 단점은 query당 과금입니다. 그래서 겁나서 함부로 query를 실행할 수 없어요.
RedShift는 RedShift를 실행시킨 시간 당 과금입니다. RedShift도 빠릅니다. 하지만 BigQuery 정도는 아니구요. 아마 cluster를 많이 구성하면 그만큼 빨라질지도 모릅니다만, 그러면 비용이 훨씬 비싸지겠죠.
매일 매일 두 서비스 모두 사용하고 있지만, BigQuery는 종량제이고, RedShift는 Reserved Instance(RI)로 쓰기 때문에 아직 저는 RedShift로 더 많이 작업을 합니다. BigQuery는 제가 작성한 script가 매일 매일 스케쥴러에 의해서 돌고 있는 정도에요.
오늘 배운 것이 하나 있다면, Apache Zeppelin에서 BigQuery에 연결할 수 있다는 것인데요. 보통 Spark 분석을 interactive로 할 때 제플린을 많이 쓰죠. 아직 저도 어찌해야 BIgQuery와 zeppelin 연동은 어찌하는지 잘 모르겠습니다. Docker로 배포할 수 있다고 들은 것 같긴 한데요. 자세히는 잘 모르겠네요.
'개발 > 데이터 분석' 카테고리의 다른 글
if kakao 개발자 컨퍼런스 참석 (0) | 2018.09.05 |
---|