반응형 분류 전체보기136 Parquet란 무엇이고, 왜 사용하는가 | LIM Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 한다. 이러한 특징을 가진 파일 포맷으로는 Parquet(파케이), ORC, Avro(에이브로)가 있다. 📝 파케이가 압축률이 좋은 이유: 컬럼기반 저장포맷이기 때문 먼저, 컬럼기반이 무엇인지 알아보자. 데이터베이스를 예시로 들면, 행 기반으로 저장하는 방식(대표적으로 MySQL)과 열 기반(대표적으로 BigQuery)으로 저장하는 방식이 있다. 다음과 같은 데이터베이스가 있다고 할 때 행 기반으로 저장되는 건 다음과 같이 저장되고, 열 기반으로 저장되는 건 아래와 같이 저장된다. 열 기반으로 저장되는 것이 압축률.. 2023. 2. 3. Apache Arrow | LIM 이전에 Python Ray 에 대해 학습하면서 Ray Mulitprocessing 이 빠른 이유가 기본 Python Mulitiprocessing 과 비교했을 때 직렬화 과정의 오버헤드가 없다는 것이었다. 이때 Apache Arrow를 사용한다고 했고, 이 Apache Arrow 가 도대체 어떤 거길래 직렬화 과정을 거치지 않는다는 건지 좀 더 자세히 알아보기 위해 공부했다. 🤔 직렬화(Serialization)란? 객체를 저장하거나 메모리, 데이터베이스 혹은 파일로 옮길 때 필요한 것이 직렬화이다. 직렬화란 객체를 바이트 스트림으로 바꾸는 것, 즉 객체에 저장된 데이터를 스트림에 쓰기위해 연속적인 데이터로 변환하는 것이다. 직렬화의 주된 목적은 객체를 상태 그대로 저장하고 필요할 때 다시 생성하여 사용.. 2023. 1. 29. [경제] 팬데믹 머니 | LIM 오래간만에 경제 관련 책을 읽었다. 이전까지 빌리거나 사서 읽은 경제 책들은 어딘가 어렵고 이해하기 어려웠는데 이번 책은 좀 달랐다. 아무래도 코로나 시대를 몸소 경험했고, 실제로 주식투자도 해보고 뉴스도 많이 접했기 때문이지 않을까 한다. 현재 코로나 상황과 과거 상황을 같이 놓고 책을 보니 이해도 훨씬 잘되었고, 소장하고 싶은 책 중 하나가 될 것 같다. 한쪽에서는 그 어느 때보다 돈이 넘쳐나고 다른 한쪽에서는 당장 먹고살 돈조차 없습니다. 2020년 코로나가 터지고 엄청난 양적완화와 함께 돈이 시중에 많이 풀려났다. 소비로 진작되어야 할 돈들이 자산시장으로 몰리면서 버블이 형성되었고, 벼락거지가 되었다고 하는 사람들이 많이 생겨나게 되었다. 자신의 소득엔 별다른 변화가 없었음에도 부동산과 주식 등의.. 2023. 1. 28. [Kafka] AWS EC2에 카프카 클러스터 설치하기 | LIM 본격 프로젝트를 시작하기에 앞서 카프카를 설치하는데 도커로 설치하는 것도 좋겠지만 서버에 직접 설치하는 것도 재밌을 것 같아서 AWS EC2를 이용하여 설치해보았다. 회사에서 요즘 FTP 서버를 구축하면서 리눅스 쓰면서 이리저리 많이 부딪혔는데 그때의 경험들이 도움이 많이 되었다. 또한 카프카로 유명하신 데브원영님이 AWS에 카프카 클러스터 설치하는 방법을 자세하게 올려주셔서 참고해서 구축해보았다. https://blog.voidmainvoid.net/325 AWS에 카프카 클러스터 설치하기(ec2, 3 brokers) 보통 테스트할때 맥북 또는 윈도우 컴퓨터의 1대 장비에 설치하곤하는데요. 고 가용성 테스트를 하기 위해서는 반드시 3대 이상의 클러스터를 설치해야 완벽한 카프카클러스터로서 테스트가 가 b.. 2023. 1. 24. [Linux] FTP 서버 구축기(feat. GCP VM Instance) | LIM FTP를 통해 파일을 받아야 하는 경우가 있어 구축해 보게 되었다. 참고로 GCP에서 VM Instance를 하나 생성해 진행했고, Ubuntu20.04 이미지로 생성했다. 💡Install Vsftpd And Setting sudo 환경에서 실행하였습니다. Environment GCP VM Ubuntu 20.04 Install Vsftpd sudo apt install vsftpd Config Open config file sudo vim /etc/vsftpd.conf config file # Example config file /etc/vsftpd.conf # # The default compiled in settings are fairly paranoid. This sample file # loose.. 2023. 1. 22. [Python] Ray 를 활용한 병렬처리 | LIM 기존에 병렬처리에 대해 학습하고 Python의 기본 라이브러리인 Multiprocessing Module을 이용하여 시간을 많이 단축했던 적이 있다. https://amazelimi.tistory.com/50 [Python] MultiProcessing map() vs imap() | LIM Intro 빅데이터를 다루다보면 계산을 parallel 하게 진행해야할 필요성이 생기게 된다. 파이썬에서는 multiprocessing 모듈을 사용하여 진행할 수 있다. 파이썬의 multiprocessing 모듈 내에는 Process, Pool, map, amazelimi.tistory.com Multiprocessing 보다 더 빠르고 간단하게 병렬처리를 구현할 수 있는 라이브러리가 있다고 하여 공부해보았다. 목차.. 2023. 1. 21. 이전 1 ··· 8 9 10 11 12 13 14 ··· 23 다음 반응형