5주차 커리큘럼 통괄 개요

  • 주제
    • Apache Spark 기반의 현대적 데이터 레이크하우스 아키텍처 구축 및 최적화
  • 내용 구성
    • 현대적인 데이터 엔지니어링 스택의 핵심인 ‘대용량 분산 처리 엔진(Spark)’과 ‘차세대 테이블 포맷(Iceberg)’을 결합한 실무 지향적 과정
  • 내용
    • Spark 분산 아키텍처 이론
    • Docker Compose 기반 Master-Worker 클러스터 환경 구축
    • MinIO(S3 호환) 및 Iceberg(Table Format) 연동
    • Spark SQL/DataFrame API 활용 데이터 처리
    • 분산 처리 성능 최적화(Partitioning, Shuffling)

1. 커리큘럼의 핵심 목적

1.1 분산 처리 아키텍처의 내재화

  • 목적:
    • 단일 서버의 한계를 넘어 대규모 클러스터에서 데이터가 어떻게 분산되어 병렬로 처리되는지에 대한 메커니즘 이해
  • 의의:
    • 단순한 도구 사용법을 넘어 Spark 아키텍처(Driver, Executor, Cluster Manager)의 구조를 파악함으로써 시스템 설계 역량 확보

1.2 클라우드 네이티브 데이터 인프라 실습

  • 목적:
    • Docker Compose를 활용해 로컬 환경에서 Spark 클러스터를 직접 구축
    • 오픈 소스 기반의 데이터 저장소(MinIO, Iceberg)를 결합하는 과정 실습
  • 의의:
    • 상용 서비스(AWS, GCP 등)에 의존하지 않고도 데이터 레이크하우스를 스스로 설계하고 운영할 수 있는 실전 역량 배양

1.3 데이터 처리 효율성 및 성능 최적화

  • 목적:
    • 대용량 데이터 처리 시 발생하는 병목 현상을 해결하기 위한 파티셔닝 전략과 셔플링의 비용을 이해하고 최적화 기법을 학습
  • 의의:
    • 대규모 환경에서 비용(리소스)과 시간(속도)을 획기적으로 줄일 수 있는 ‘성능 튜닝’ 전문가로 성장하는 발판이 됨

2. 학습 단계별 연결 고리

  • 이 과정은 ‘이해 → 환경 구축 → 저장소 연결 → 실무 가공 → 최적화’라는 유기적인 흐름을 따름
  1. 분산 시스템의 원리 이해
  2. Docker를 통해 가상화된 클러스터 환경 구축
  3. 단순 스토리지가 아닌 Iceberg와 같은 고성능 테이블 포맷을 연결하여 실제 운영 환경과 유사한 파이프라인 구성
  4. DataFrame API와 SQL로 실질적인 데이터 로직 구현
  5. 실제 대량의 데이터를 돌렸을 때 마주하게 되는 성능 저하 문제를 파티셔닝과 셔플링 제어를 통해 해결하며 완성도 향상

3. 기대 효과

  • 개발자:
    • 로컬 개발 환경에서 Spark 앱을 테스트하고 배포하는 프로세스를 익히며, 대규모 백엔드 데이터 처리에 대한 기술적 자신감을 얻을 수 있음
  • 데이터 엔지니어:
    • 정형/비정형 데이터를 효율적으로 적재(ETL)하고, Iceberg를 활용한 데이터 트랜잭션 및 버전 관리 등 최신 기술 스택 기반의 데이터 파이프라인 구축 역량 확보



  • 본 과정은
    • 이론에만 치중하지 않고
    • 컨테이너 기반의 실습과 성능 최적화라는 고급 주제를 모두 다루고 있음
  • 과정을 마친 후에는
    • 단일 데이터 처리를 넘어 “어떻게 하면 수 테라바이트의 데이터를 비용 효율적이고 안정적으로 처리할 것인가?”에 대한 해답을 스스로 제시할 수 있는 수준에 도달할 것
    • 이는 이후 과정에서 다룰 복잡한 파이프라인 설계나 실시간 스트리밍 분석으로 나아가기 위한 필수적인 관문

© 2020. AiDALab Co. All rights reserved.

Powered by Hydejack v9.2.1