- 주제
- 엔터프라이즈급 데이터 오케스트레이션 기반의 RAG 서비스 통합 구현
- 내용 구성
- 개별적으로 작동하던 데이터 수집 및 처리 로직을 하나의 유기적인 시스템으로 통합
- 통하된 시스템을 사용자가 직접 체감할 수 있는 서비스 형태로 구현하는 ‘엔드투엔드(End-to-End) 파이프라인 구축’ 과정
- 내용
- Apache Airflow를 활용한 데이터 파이프라인(Ingestion 🡲 Data Lake 🡲 Spark 🡲 VectorDB) 자동화
- Streamlit 기반의 대화형 AI 어플리케이션 개발
1. 커리큘럼의 핵심 목적
1.1 데이터 흐름의 자동화 및 안정성 확보
- 목적:
- 수동으로 관리되던 데이터 처리 단계를 Airflow의 DAG(Directed Acyclic Graph)를 통해 스케줄링하고 자동화
- 의의:
- 복잡한 데이터 파이프라인의 의존성을 관리하여 휴먼 에러를 방지
- 데이터의 최신성을 보장하는 운영 역량 확보
1.2 파이프라인 통합 및 벡터 데이터베이스 구축
- 목적:
- 정형/비정형 데이터를 수집하여 분석(Spark)
- LLM이 이해할 수 있는 벡터 데이터로 변환하여 VectorDB에 저장하는 전체 흐름 완성
- 의의:
- 단순한 데이터 저장을 넘어, 지능형 서비스를 위한 검색 기반 기술(RAG)의 핵심 엔진을 직접 구축해 보는 실전적 경험 제공
1.3 인터랙티브 AI 서비스 배포 및 가시화
- 목적:
- Streamlit을 활용하여 데이터 파이프라인의 결과물을 사용자가 직접 제어하고 소통할 수 있는 챗봇 인터페이스로 구현
- 의의:
- 백엔드 기술이 실제 서비스 가치로 연결되는 과정 경험
기술의 구현에서 서비스의 완성으로 시야 확장
2. 학습 단계별 연결 고리
- 이 과정은 ‘자동화 🡲 가공 🡲 인터페이스’의 단계적 진화를 따름
- Airflow 단계에서 데이터의 입구부터 저장소까지의 길을 닦고(Pipelining),
- Spark & VectorDB 단계에서 데이터를 지능형 서비스에 적합한 형태로 정제하여 저장하며,
- 마지막 Streamlit 단계에서 이 데이터들을 활용해 사용자와 대화하는 RAG(Retrieval-Augmented Generation) 챗봇을 완성함
🡲전체 아키텍처가 하나로 맞물리게 됨
3. 기대 효과
- 개발자:
- LLM 연동 어플리케이션의 프런트엔드부터 백엔드 데이터 연결까지 전체적인 서비스 아키텍처를 이해하는
풀스택 AI 엔지니어로 성장
- 데이터 엔지니어:
- 분산되어 있던 데이터 처리 도구들을 하나의 워크플로우로 묶어 관리하는 오케스트레이션 역량 확보
- 자신이 구축한 파이프라인이 실제 서비스에 어떻게 기여하는지 확인
- 이 과정은
- 단순한 도구의 사용법 습득이 아니라 “데이터가 어떻게 가치 있는 서비스로 전환되는가”를 증명하는 단계
- 구축된 파이프라인의 장애 대응력(Airflow Monitoring)과 사용자 응답의 정확성(RAG Performance)을 스스로 평가
- 향후 더 복잡한 에이전트 환경(Agentic Loops)이나 실시간 데이터 처리 시스템으로 나아가기 위한 강력한 기술적 기반을 마련하게 될 것