데이터 엔지니어링 과정(160H)
● 강의 개요
- 교육분야: 데이터 엔지니어링
- 교육대상: 데이터 엔지니어링 및 AI 인프라 구축에 관심이 있는 수강생
- 강의기간: 2026.05.18~07.14 (19:00 ~ 23:00) (164H)
- 운영방식: 온라인 강의
- 학습목표
- Docker 기반의 모던 데이터 스택 구축
- RAG를 위한 벡터 스토어 구축
● 강의 내용(New)
- 1주차: 리눅스 & Docker
- 2주차: Database
- 2주차 커리큘럼 통괄 개요
- MySQL 8.0 설치 및 기초 쿼리 이해하기
- MongoDB 구축 및 비정형 로그 데이터 적재
- ERD 설계 및 정규화/반정규화 전략
- Python 기반의 크롤러
- 3주차: Python ETL
- 4주차: DataLake
- 5주차: Spark
- 5주차 커리큘럼 통괄 개요
- 분산 데이터 처리 이해 및 Spark 아키텍처 이해
- Docker Compose를 이용한 Spark M-W 구조 구축
- Iceberg, MinIO 연결 및 대용량 데이터 분석 준비
- Spark DataFrame, SparkSQ을 이용한 데이터 가공
- 파티셔닝과 셔플링 최적화 이해하기
- 6주차: Streaming
- 6주차 커리큘럼 통괄 개요
- 실시간 데이터 특징 이해화 Kafka 이해하기
- Docker 기반 Kafka 클러스터 구축하기
- Producer / Consumer 애플리케이션 만들기
- CDC(Debezium) DB 변경분 실시간 캡처
- Kafka Connect 이용한 실시간 데이터 MiniO 적재
- 7주차: RAG
- 7주차 커리큘럼 통괄 개요
- LangChain을 이용한 챗봇 기초
- RAG를 위한 텍스트 데이터 Chunking
- Embedding기법과 Vector DB
- MiniO와 VectorDB(Qdrant) 연동
- Hybrid Search 구현
- 8주차: Orchestration & AI Service
- 8주차 커리큘럼 통괄 개요
- Orchestration
- Airflow 서비스 구축
- DAG 이해 및 유즈케이스 연구
- 수집->Lake->Spark->VectorDB 흐름 자동화
- AI Service
- Streamit 기초와 Streamlit을 활용한 LLM 연동 어플리케이션
- Streamlit 기반의 챗봇 인터페이스 개발
- 데이터 파이프라인 구축 및 최종 RAG 챗봇 개발