본문 바로가기
반응형

Data28

[DB] MongoDB 에 대해 알아보자 | LIM MongoDB는 NoSQL 데이터 베이스 중 하나로 "도큐먼트 스토어" 이다. 도큐먼트 스토에서는 주로 데이터 처리의 유연성을 목적으로 한다. 👩‍💻 MongoDB(NoSQL) vs MySQL(DBMS) DBMS에 대표적인 MySQL 과의 비교해보자. MongoDB MySQL Structure Schemaless Fixed Structure Data Representation JSON Document Table Sharding Auto-Sharding Manual Transaction X O MongoDB의 장점과 단점에 대해서도 간략히 정리해보면 ➕ 스키마 없이 사용 가능 ➕ write 성능이 좋음 ➕ read 시 파일의 index를 메모리에 로딩해놓고 찾는다. (memory mapped file) .. 2023. 3. 26.
[File Format For Big Data] Parquer vs ORC vs Avro | LIM Parquet, ORC, Avro 모두 빅데이터를 처리하는 사람들이라면 한번씩 마주쳤을 법한 파일 포맷이다. 나는 Parquet 파일은 자주 써보았는데 다른 파일 포맷들은 어떤 특성이 있는 지 몰라서 공부 겸 정리해보고자 한다. Parquet 파일 관련해서 정리해 둔 포스팅이 있다. https://amazelimi.tistory.com/78 Parquet란 무엇이고, 왜 사용하는가 | LIM Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 amazelimi.tistory.com https://amazelimi.tistory.com/79 Parquet 파일 읽고 .. 2023. 3. 12.
[DB] Clustering vs Replication vs Sharding 에 대해 알아보자 | LIM ✨ Clustering 여러 개의 DB 서버를 수평적인 구조로 구축하는 방식이다. Clustering 방식에는 다음과 같은 것들이 있다. Active-Active - 서버의 중단 없이 서비스 제공 가능 - Storage 공유하기 때문에 병목이 생길 수 있음 - 여러 대의 서버가 운영되기 때문에 CPU 와 메모리 이용률이 올라갈 수 있음 Active-Standby - Active 서버에 문제가 생길 경우 Standby 서버가 Active 서버로 전환하는 상태로 운영이 됨 - Stand By 전환 시 시간이 오래 걸릴 수 있다. - Active-Active 방식에 비해 비용 절감이 가능하다. ✨ Replication 여러 개의 DB를 수직적인 구조(Primary-Secondary) 로 구축하는 방식이다. D.. 2023. 3. 12.
[DB] Dirty Read, Non-Repeatable Read, Phantom Read 예시 및 Snapshot Isolation Level | LIM DB의 Transaction 들이 동시에 실행될 때 발생할 수 있는 이상 현상들에 대해 정리하고 예시를 통해 더 자세히 파악해보고자 한다. 이전에 Transaction Isolation Level 에 대해서는 정리해 둔 포스팅이 있다. https://amazelimi.tistory.com/31 [MySQL] Transaction의 모든 것 | LIM MySQL/MariaDB의 InnoDB 스토리지 엔진은 Transaction(트랜잭션) 기능을 지원한다. 📌 Transaction 단어의 뜻은 이러하다. 거래, 매매 처리과정 컴퓨터 과학 분야에서의 트랜잭션은 “더이상 분할이 불가능 amazelimi.tistory.com 위 게시글에서는 Isolation Level 이 잘 지켜지지 않았을 때 이러이러한 위와 .. 2023. 2. 17.
[DB] DML, DDL, DCL | LIM DML(Data Manipulation Language): 데이터 조작어 SELECT INSERT UPDATE DELETE DDL(Data Definition Language): 데이터 정의어 CREATE ALTER DROP RENAME TRUNCATE DCL(Data Control Language): 데이터 제어어 GRANT REVOKE TCL(Transaction Control Language): 트랜잭션 제어어 COMMIT ROLLBACK SAVEPOINT 2023. 2. 12.
Parquet 파일 읽고 써보기 | LIM 먼저 Parquet에 대한 개념과 기본 원리에 대한 정리한 글이다. https://amazelimi.tistory.com/78 Parquet란 무엇이고, 왜 사용하는가 Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 amazelimi.tistory.com Parquet 가 왜 압축률이 좋고 빠른지에 대해 알아봤으니 실제로 적용해 보는 일만 남았다. 먼저, Parquet 으로 데이터를 저장하면 좋은 점에 대해 알아보자. Data Type 이 저장된다. 특정 Column 만 선택해서 읽을 수 있다. (Parquet 은 Column-Based File) 용량이. cs.. 2023. 2. 4.
반응형