반응형 Parquet2 [File Format For Big Data] Parquer vs ORC vs Avro | LIM Parquet, ORC, Avro 모두 빅데이터를 처리하는 사람들이라면 한번씩 마주쳤을 법한 파일 포맷이다. 나는 Parquet 파일은 자주 써보았는데 다른 파일 포맷들은 어떤 특성이 있는 지 몰라서 공부 겸 정리해보고자 한다. Parquet 파일 관련해서 정리해 둔 포스팅이 있다. https://amazelimi.tistory.com/78 Parquet란 무엇이고, 왜 사용하는가 | LIM Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 amazelimi.tistory.com https://amazelimi.tistory.com/79 Parquet 파일 읽고 .. 2023. 3. 12. Parquet란 무엇이고, 왜 사용하는가 | LIM Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 한다. 이러한 특징을 가진 파일 포맷으로는 Parquet(파케이), ORC, Avro(에이브로)가 있다. 📝 파케이가 압축률이 좋은 이유: 컬럼기반 저장포맷이기 때문 먼저, 컬럼기반이 무엇인지 알아보자. 데이터베이스를 예시로 들면, 행 기반으로 저장하는 방식(대표적으로 MySQL)과 열 기반(대표적으로 BigQuery)으로 저장하는 방식이 있다. 다음과 같은 데이터베이스가 있다고 할 때 행 기반으로 저장되는 건 다음과 같이 저장되고, 열 기반으로 저장되는 건 아래와 같이 저장된다. 열 기반으로 저장되는 것이 압축률.. 2023. 2. 3. 이전 1 다음 반응형