반응형 Data/Spark1 [Spark] Apache Spark와 RDD | LIM Spark 의 등장 배경 Spark은 대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 시스템이다. Spark의 등장 배경은 크게 두 가지 주요 요소에 기반한다. [처리 속도] Hadoop의 MapReduce는 대규모 데이터 처리에 혁명을 가져왔지만, 일부 작업에서는 상대적으로 느린 처리 속도를 보였다. 특히, 반복적인 알고리즘과 실시간 데이터 처리가 필요한 작업에서 이러한 속도 문제가 더욱 도드라졌다. Spark은 이러한 문제를 해결하기 위해 메모리 내(in-memory) 데이터 처리를 통해 빠른 데이터 처리 속도를 제공한다. [다양한 데이터 처리 요구 사항] 데이터 처리의 다양화로 인해 단순히 대량의 데이터를 처리하는 것뿐만 아니라, 실시간 스트리밍 처리, 머신러닝, 그래프 처리 등 다양한 유형의 데이.. 2024. 2. 10. 이전 1 다음 반응형