3주차 커리큘럼 통괄 개요

1. 커리큘럼의 핵심 목적
2. 학습 단계별 연결 고리
3. 기대 효과

주제
Python 환경에서의 효율적인 데이터 변환(ETL) 및 고속 분석 전략 (Pandas & DuckDB)
세부 내용
Pandas 기초 및 심화: 데이터프레임 구조 이해, 복잡한 데이터 정제 및 통계 분석 실습
DuckDB 로컬 분석: 인프로세스 OLAP 엔진을 활용한 수 기가바이트(GB)급 대용량 데이터 쿼리 기법
하이브리드 워크플로우: Pandas의 유연성과 DuckDB의 고성능을 결합한 최적의 데이터 파이프라인 설계

1. 커리큘럼의 핵심 목적

1.1 하이브리드 데이터 가공 역량 확보

목적:
- 모든 데이터를 한 도구로 처리하려는 시도에서 벗어나, 데이터 크기와 작업 성격에 따라 Pandas와 DuckDB를 선택적으로 사용하는 능력을 배양
의의:
- 분석 도구의 오버헤드를 줄이고, 로컬 환경에서 실행 가능한 데이터 처리의 한계를 극대화

1.2 OLAP 최적화 엔진의 이해 및 실무 적용

목적:
- 행(Row) 기반이 아닌 열(Column) 기반 저장 및 벡터화 연산의 원리를 학습하여 대용량 데이터 처리 속도를 획기적으로 개선
의의:
- 서버 구축 없이도 데이터 웨어하우스 수준의 분석 성능을 로컬 및 파이썬 환경에서 구현하는 법을 학습

1.3 파이썬 데이터 생태계(PyData)의 수직 계열화

목적:
- 데이터 로드(Extract), 변환(Transform), 분석(Load/Analyze)으로 이어지는 ETL 과정을 파이썬 라이브러리 내에서 완결성 있게 구축
의의:
- 복잡한 인프라 설정 없이 코드 몇 줄만으로 강력한 데이터 파이프라인을 구축할 수 있는 ‘가성비 높은’ 엔지니어링 능력 확보

2. 학습 단계별 연결 고리

본 과정은 ‘유연성’에서 ‘성능’으로, 다시 ‘결합’으로 이어지는 논리적 단계를 따름

Pandas 단계
- 데이터 분석의 표준 도구를 통해 데이터 핸들링의 기본기를 다지고,
- 소규모 데이터에서 즉각적인 통찰을 얻는 방법을 학습
DuckDB 단계
- Pandas가 메모리 부족(OOM) 문제로 처리하지 못하는 대규모 데이터셋(예: 수억 건의 로그 파일)을 SQL 기반의 고속 엔진으로 처리하는 법을 학습
하이브리드 단계
- DuckDB로 대용량 데이터를 빠르게 요약/집계(Heavy lifting)한 뒤,
- 그 결과물을 Pandas로 넘겨 시각화나 머신러닝 모델링에 활용하는 실전적인 워크플로우를 완성

3. 기대 효과

개발자:
- 별도의 DB 서버를 관리하는 리소스 없이도 앱 내부에 강력한 분석 기능을 탑재할 수 있으며,
- SQL과 Python을 자유자재로 넘나드는 풀스택 데이터 처리 능력 확보
데이터 엔지니어:
- 고비용의 클라우드 DW(Snowflake, BigQuery 등)를 사용하기 전,
- 로컬이나 서버리스 환경에서 저비용·고효율의 데이터 전처리 파이프라인을 설계하는 감각 확보

이 과정은
로컬 환경에서의 데이터 처리 한계를 극복하는 법”을 배우는 중요한 분기점
단순히 라이브러리 사용법을 익히는 것에 그치지 않고, 행 기반과 열 기반의 아키텍처 차이를 몸소 체감하는 것이 핵심
이 과정이 완료되면
수십 GB의 데이터를 마주했을 때 당황하지 않고, 가장 효율적인 알고리즘과 도구를 선택할 수 있는 ‘데이터 아키텍트’로서의 첫발을 내딛게 될 것

3주차 커리큘럼 통괄 개요

1. 커리큘럼의 핵심 목적

1.1 하이브리드 데이터 가공 역량 확보

1.2 OLAP 최적화 엔진의 이해 및 실무 적용

1.3 파이썬 데이터 생태계(PyData)의 수직 계열화

2. 학습 단계별 연결 고리

3. 기대 효과

AiDA Lectures

Error

1. 커리큘럼의 핵심 목적

1.1 하이브리드 데이터 가공 역량 확보

1.2 OLAP 최적화 엔진의 이해 및 실무 적용

1.3 파이썬 데이터 생태계(PyData)의 수직 계열화

2. 학습 단계별 연결 고리

3. 기대 효과

Templates (for web app):

Error