3주차 커리큘럼 통괄 개요

  • 주제
    • Python 환경에서의 효율적인 데이터 변환(ETL) 및 고속 분석 전략 (Pandas & DuckDB)
  • 세부 내용
    • Pandas 기초 및 심화: 데이터프레임 구조 이해, 복잡한 데이터 정제 및 통계 분석 실습
    • DuckDB 로컬 분석: 인프로세스 OLAP 엔진을 활용한 수 기가바이트(GB)급 대용량 데이터 쿼리 기법
    • 하이브리드 워크플로우: Pandas의 유연성과 DuckDB의 고성능을 결합한 최적의 데이터 파이프라인 설계

1. 커리큘럼의 핵심 목적

1.1 하이브리드 데이터 가공 역량 확보

  • 목적:
    • 모든 데이터를 한 도구로 처리하려는 시도에서 벗어나, 데이터 크기와 작업 성격에 따라 Pandas와 DuckDB를 선택적으로 사용하는 능력을 배양
  • 의의:
    • 분석 도구의 오버헤드를 줄이고, 로컬 환경에서 실행 가능한 데이터 처리의 한계를 극대화

1.2 OLAP 최적화 엔진의 이해 및 실무 적용

  • 목적:
    • 행(Row) 기반이 아닌 열(Column) 기반 저장 및 벡터화 연산의 원리를 학습하여 대용량 데이터 처리 속도를 획기적으로 개선
  • 의의:
    • 서버 구축 없이도 데이터 웨어하우스 수준의 분석 성능을 로컬 및 파이썬 환경에서 구현하는 법을 학습

1.3 파이썬 데이터 생태계(PyData)의 수직 계열화

  • 목적:
    • 데이터 로드(Extract), 변환(Transform), 분석(Load/Analyze)으로 이어지는 ETL 과정을 파이썬 라이브러리 내에서 완결성 있게 구축
  • 의의:
    • 복잡한 인프라 설정 없이 코드 몇 줄만으로 강력한 데이터 파이프라인을 구축할 수 있는 ‘가성비 높은’ 엔지니어링 능력 확보

2. 학습 단계별 연결 고리

  • 본 과정은 ‘유연성’에서 ‘성능’으로, 다시 ‘결합’으로 이어지는 논리적 단계를 따름
  1. Pandas 단계
    • 데이터 분석의 표준 도구를 통해 데이터 핸들링의 기본기를 다지고,
    • 소규모 데이터에서 즉각적인 통찰을 얻는 방법을 학습
  2. DuckDB 단계
    • Pandas가 메모리 부족(OOM) 문제로 처리하지 못하는 대규모 데이터셋(예: 수억 건의 로그 파일)을 SQL 기반의 고속 엔진으로 처리하는 법을 학습
  3. 하이브리드 단계
    • DuckDB로 대용량 데이터를 빠르게 요약/집계(Heavy lifting)한 뒤,
    • 그 결과물을 Pandas로 넘겨 시각화나 머신러닝 모델링에 활용하는 실전적인 워크플로우를 완성

3. 기대 효과

  • 개발자:
    • 별도의 DB 서버를 관리하는 리소스 없이도 앱 내부에 강력한 분석 기능을 탑재할 수 있으며,
    • SQL과 Python을 자유자재로 넘나드는 풀스택 데이터 처리 능력 확보
  • 데이터 엔지니어:
    • 고비용의 클라우드 DW(Snowflake, BigQuery 등)를 사용하기 전,
    • 로컬이나 서버리스 환경에서 저비용·고효율의 데이터 전처리 파이프라인을 설계하는 감각 확보



  • 이 과정은
    • 로컬 환경에서의 데이터 처리 한계를 극복하는 법”을 배우는 중요한 분기점
    • 단순히 라이브러리 사용법을 익히는 것에 그치지 않고, 행 기반과 열 기반의 아키텍처 차이를 몸소 체감하는 것이 핵심
  • 이 과정이 완료되면
    • 수십 GB의 데이터를 마주했을 때 당황하지 않고, 가장 효율적인 알고리즘과 도구를 선택할 수 있는 ‘데이터 아키텍트’로서의 첫발을 내딛게 될 것

© 2020. AiDALab Co. All rights reserved.

Powered by Hydejack v9.2.1