4주차 커리큘럼 통괄 개요

1. 커리큘럼의 핵심 목적
2. 학습 단계별 연결 고리
3. 기대 효과

주제
MinIO와 Apache Iceberg를 활용한 클라우드 네이티브 데이터 레이크하우스 구축 및 분석 엔진 통합
내용 구성
현대적인 데이터 아키텍처의 핵심인 ‘현대적 데이터 레이크하우스(Modern Data Lakehouse)’를 직접 설계하고 구축하는 실무 중심의 과정
내용
MinIO를 이용한 S3 호환 오브젝트 스토리지 환경 조성
Apache Iceberg를 활용한 트랜잭션 지원 스토리지 레이어 구축
Trino(Presto)를 통한 고성능 분산 SQL 쿼리 엔진 연결
데이터 카탈로그 기반의 통합 메타데이터 관리 실습

1. 커리큘럼의 핵심 목적

1.1 데이터 저장의 표준화 및 유연성 확보 (MinIO/S3)

목적:
- 특정 클라우드 벤더에 종속되지 않는 S3 호환 오브젝트 스토리지를 로컬 및 프라이빗 환경에 구축
의의:
- 퍼블릭 클라우드 비용 부담 없이 대규모 비정형 데이터를 저장하고 관리하는 표준 기술 습득

1.2 데이터 정합성 및 관리 효율 증대 (Apache Iceberg)

목적:
- 기존 데이터 레이크의 한계(수정/삭제 어려움)를 극복하기 위해 테이블 포맷인 Iceberg를 도입하여 SQL과 유사한 트랜잭션 기능을 구현
의의:
- 데이터 레이크의 유연함과 데이터 웨어하우스의 엄격한 데이터 관리 능력을 결합한 레이크하우스의 핵심 원리를 이해

1.3 통합 쿼리 인터페이스 및 분석 최적화 (Trino)

목적:
- 흩어져 있는 오브젝트 스토리지의 데이터를 표준 SQL로 빠르게 조회할 수 있는 분산 쿼리 엔진 환경을 구축
의의:
- 데이터 이동 없이 제자리에서(In-place) 분석할 수 있는 연합 쿼리(Federated Query) 역량 확보

2. 학습 단계별 연결 고리

이 과정은 데이터가 흐르는 하드웨어 계층부터 사용자 분석 계층까지 수직적으로 연결됨

Storage Layer (MinIO): 데이터를 물리적으로 담을 공간 확보
Table Format Layer (Iceberg): 단순 파일 덩어리를 ‘테이블’ 형태의 구조적 데이터로 탈바꿈시키고 이력 관리
Catalog Layer: 데이터의 위치와 스키마 정보를 중앙에서 관리하여 엔진들이 데이터를 찾을 수 있게 함
Compute Layer (Trino): 최종 사용자가 익숙한 SQL을 통해 데이터를 분석하고 비즈니스 가치를 추출

3. 기대 효과

개발자:
- 로컬 환경에서도 클라우드 급 인프라를 시뮬레이션하며
- 앱에 필요한 대용량 스토리지 연동 규격(S3 API) 습득
데이터 엔지니어:
- 단순 데이터 저장을 넘어 데이터의 원자성(ACID)을 보장하고,
- 분석 성능을 최적화하는 아키텍처 설계 능력 확보

이 과정은
단순히 기술 도구를 배우는 것을 넘어,
“어떻게 하면 저비용 고효율로 엔터프라이즈급 데이터 플랫폼을 자립적으로 구축할 것인가?”에 대한 해답을 제시함
로컬 환경에서 MinIO를 시작으로 Iceberg와 Trino를 연동해 보는 경험은,
향후 하이브리드 클라우드나 AI 모델 학습을 위한 대규모 데이터 파이프라인(LLMOps/DataOps)으로 확장하기 위한 가장 탄탄한 기초 자산이 될 것

4주차 커리큘럼 통괄 개요

1. 커리큘럼의 핵심 목적

1.1 데이터 저장의 표준화 및 유연성 확보 (MinIO/S3)

1.2 데이터 정합성 및 관리 효율 증대 (Apache Iceberg)

1.3 통합 쿼리 인터페이스 및 분석 최적화 (Trino)

2. 학습 단계별 연결 고리

3. 기대 효과

AiDA Lectures

Error

1. 커리큘럼의 핵심 목적

1.1 데이터 저장의 표준화 및 유연성 확보 (MinIO/S3)

1.2 데이터 정합성 및 관리 효율 증대 (Apache Iceberg)

1.3 통합 쿼리 인터페이스 및 분석 최적화 (Trino)

2. 학습 단계별 연결 고리

3. 기대 효과

Templates (for web app):

Error