본문 바로가기

Spark2

[Spark] Apache Spark와 RDD | LIM Spark 의 등장 배경 Spark은 대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 시스템이다. Spark의 등장 배경은 크게 두 가지 주요 요소에 기반한다. [처리 속도] Hadoop의 MapReduce는 대규모 데이터 처리에 혁명을 가져왔지만, 일부 작업에서는 상대적으로 느린 처리 속도를 보였다. 특히, 반복적인 알고리즘과 실시간 데이터 처리가 필요한 작업에서 이러한 속도 문제가 더욱 도드라졌다. Spark은 이러한 문제를 해결하기 위해 메모리 내(in-memory) 데이터 처리를 통해 빠른 데이터 처리 속도를 제공한다. [다양한 데이터 처리 요구 사항] 데이터 처리의 다양화로 인해 단순히 대량의 데이터를 처리하는 것뿐만 아니라, 실시간 스트리밍 처리, 머신러닝, 그래프 처리 등 다양한 유형의 데이.. 2024. 2. 10.

Kafka, Spark 를 활용한 실시간 데이터 처리 프로젝트 | LIM 예전부터 실시간 데이터 처리를 진행해보고 싶었는데 회사에서는 마땅한 기회가 없어서 이번에 한투 API와 업비트 API 를 이용하여 프로젝트를 진행했다. 이번 프로젝트의 목표는 여러 데이터 플랫폼 툴이 있는데 안 써본 것들이 많아서 이거저거 써보기 위해서 최대한 조합해본 것이다. 베스트라고 생각하지 않는다. 일단 프로젝트 아키텍처는 다음과 같다. Prerequisite 1. GCP 계정 생성 -> 나의 경우 새로 계정을 만들어서 무료 credit 으로 진행 2. 한투API나 업비트 API 신청 https://securities.koreainvestment.com/main/customer/systemdown/install_non_activex_tobe.jsp?P_name=IPinsideLWS https://.. 2023. 7. 30.

이전 1 다음

티스토리툴바