본문 바로가기
Cloud

[GCP] BigQuery 란 무엇이며 생겨나게 된 배경 알아보기 | LIM

by forestlim 2023. 5. 21.
728x90
반응형

Intro

요즘은 대규모 데이터로부터 효율적이고 확장 가능한 솔루션을 필요로 한다. 그중 하나인 BigQuery는 Google Cloud에서 제공하는 Full Managed Data WareHouse 및 분석 플랫폼이다. 

 

BigQuery의 역사

Google은 2010년에 자체적으로 대용량 데이터 처리 요구사항을 처리하기 위한 도구로 BigQuery를 도입했다. Google은 여기서 습득한 대규모 데이터셋의 관리와 분석에 대한 노하우를 활용하여 BigQuery를 자사 상품으로 내놓게 되었다. 2011년에 Google 은 BigQuery를 공개 베타로 출시하여 모든 규모의 조직이 자체 데이터 분석 요구에 BigQuery의 기능을 활용할 수 있게 했다.

 

BigQuery 가 유용한 이유

BigQuery 자체가 이름에서 알 수 있듯이 방대한 양의 데이터를 관리하고 분석하는데 직면하는 도전을 해결하기 위해 개발된 도구이다. 기존의 데이터 웨어하우스 솔루션은 인프라, 하드웨어, 유지보수에 대한 상당한 초기 투자가 필요했다. 또한 급속도로 증가하는 데이터 성장에 대한 시스템의 확장은 복잡하고 시간이 많이 소요되는 작업이었다. BigQuery는 이러한 프로세스를 간소화하고 비용 효율적으로 데이터 분석을 모든 기업이 쉽게 활용할 수 있도록 하기 위해 개발되었다. 

 

BigQuery 아키텍처

빅쿼리의 아키텍처는 Compute 하는 부분과 Storage 부분이 분리되어 있는 것이 핵심이다. 또한 분산 처리가 매우 뛰어나다.

 

Dremel(Compute): 방대한 분산 노드들에서 SQL 쿼리를 실행

Colossus(Storage): 데이터를 저장하고 실시간 처리를 할 수 있는 구글의 차세대 파일 시스템 -> GCS도 이렇게 구성되어 있음

Jupiter(Network): Compute 와 Storage 사이의 통신 담당

Borg(Orchestration): 이 모든 분산 노드들을 조율 및 운영, 쿠버네티스의 전신

 

 

BigQuery의 장점

1. Scalability(확장성): BigQuery는 대용량 데이터셋을 쉽게 처리할 수 있도록 설계되었다. 데이터 크기에 관계없이 PB규모의 데이터를 처리하기 위해 수평적으로 확장할 수 있으며, 데이터 크기에 상관없이 높은 성능과 최소한의 쿼리 실행 시간을 보장한다. 이러한 확장성은 기업이 인프라 제한에 대해 걱정하지 않아도 대량의 데이터를 처리하고 분석할 수 있도록 한다. 

 

2. Serverless Architecture: BigQuery는 서버리스 모델에서 작동하여 밑에단 인프라 관리를 추상화한다. 서버를 프로비저닝하거나 관리할 필요가 없기 때문에 조직은 하드웨어 구성이나 소프트웨어 업데이트에 대해 걱정할 필요 없이 데이터 분석에 집중할 수 있다. 이 서버리스 접근 방식은 BigQuery가 워크로드에 따라 자동으로 리소스를 조정하여 확장성을 보장한다.

 

3. Cost-Effective: BigQuery는 사용한 저장 및 계산 리소스에 대해서만 가격을 지불한다. 사전 비용이나 장기적인 약정이 없다. 게다가 BigQuery의 저장 비용은 매우 강력한 경쟁력이다. 

 

4. Fast Query Execution: BigQuery는 Google의 고급 인프라와 분산 컴퓨팅 기능을 활용하여 빠른 쿼리 실행을 제공한다. 병렬 처리와 열 지향 저장 방식을 사용하여 데이터의 효율적인 스캔과 필터링이 가능하다. 이러한 속도와 성능은 복잡한 분석 쿼리에 대해 빠른 응답 시간을 보장하여 생산성과 의사 결정을 개선한다. 

 

5. Integration with Google Cloud Ecosystem: BigQuery는 Google Cloud 생태계의 다른 서비스와 완전히 통합 관리된다. 예를 들어 Google Data Studio, Cloud Machine Learning Engine, Google Cloud Storage 등이다. 이러한 통합은 일과된 데이터 분석 워크플로우를 가능하게 하며 시각화 및 머신러닝을 위한 추가 도구와 서비스를 활용할 수 있다. 

 

 


BigQuery는 확장가능하고 비용 효율적인 데이터 처리 및 분석 솔루션을 제공함으로써 데이터 분석 분야에 혁신을 만들었다고 해도 과언이 아니다. Google에서 주력으로 밀고 있는 상품이 BigQuery 인 것만 봐도 얼마나 자부심이 있는지 알 수 있다. 실제로 사용해 보면서도 좋은 부분을 많이 느꼈다. 이전엔 데이터를 어떻게 분산시켜서 저장하고 어떻게 처리할지를 고민했다면 갈수록 데이터를 저장하고 처리하는 건 어려워지지 않는데 이 데이터를 어떻게 잘 활용하여 의미 있는 결과를 만들어낼 것인가가 점점 더 중요해지는 것 같다. 

 

728x90
반응형

댓글