데이터 엔지니어링 과정(160H)
● 강의 개요
- 교육분야: 데이터 엔지니어링
- 교육대상: 데이터 엔지니어링 및 AI 인프라 구축에 관심이 있는 수강생
- 강의기간: 2026.05.18~07.14 (19:00 ~ 23:00) (164H)
- 운영방식: 온라인 강의
- 학습목표
- Docker 기반의 모던 데이터 스택 구축
- RAG를 위한 벡터 스토어 구축
● 강의 내용(New)
- 1주차: 리눅스 & Docker
- 2주차: Database
- 2주차 커리큘럼 통괄 개요
- 데이터베이스 개요
- MySQL 8.0 설치 및 기초 쿼리 이해하기
- MongoDB 구축 및 비정형 로그 데이터 적재
- ERD 설계 및 정규화/반정규화 전략
- Python 기반의 크롤러
- Redis 기초 및 활용
- 3주차: Python ETL
- 4주차: DataLake
- 4주차 커리큘럼 통괄 개요
- MinIO, S3 기반 오브젝트 스토리지 구축
- Apache Iceberg 기반 레이크하우스 구축
- MiniO – Iceberg 데이터 파이프라인 구축
- Trino(Presto) 기반 S3 데이터 SQL 엔진 구축
- 데이터 카탈로그 연결 및 레이크하우스 통합
- 5주차: Spark
- 6주차: Streaming
- 7주차: RAG
- 7주차 커리큘럼 통괄 개요
- LangChain을 이용한 챗봇 기초
- RAG를 위한 텍스트 데이터 Chunking
- Embedding기법과 Vector DB
- MiniO와 VectorDB(Qdrant) 연동
- Hybrid Search 구현
- 8주차: Orchestration & AI Service
- 8주차 커리큘럼 통괄 개요
- Orchestration
- Airflow 서비스 구축
- DAG 이해 및 유즈케이스 연구
- 수집->Lake->Spark->VectorDB 흐름 자동화
- AI Service
- Streamit 기초와 Streamlit을 활용한 LLM 연동 어플리케이션
- Streamlit 기반의 챗봇 인터페이스 개발
- 데이터 파이프라인 구축 및 최종 RAG 챗봇 개발