8주차 커리큘럼 통괄 개요

  • 주제
    • 엔터프라이즈급 데이터 오케스트레이션 기반의 RAG 서비스 통합 구현
  • 내용 구성
    • 개별적으로 작동하던 데이터 수집 및 처리 로직을 하나의 유기적인 시스템으로 통합
    • 통하된 시스템을 사용자가 직접 체감할 수 있는 서비스 형태로 구현하는 ‘엔드투엔드(End-to-End) 파이프라인 구축’ 과정
  • 내용
    • Apache Airflow를 활용한 데이터 파이프라인(Ingestion 🡲 Data Lake 🡲 Spark 🡲 VectorDB) 자동화
    • Streamlit 기반의 대화형 AI 어플리케이션 개발

1. 커리큘럼의 핵심 목적

1.1 데이터 흐름의 자동화 및 안정성 확보

  • 목적:
    • 수동으로 관리되던 데이터 처리 단계를 Airflow의 DAG(Directed Acyclic Graph)를 통해 스케줄링하고 자동화
  • 의의:
    • 복잡한 데이터 파이프라인의 의존성을 관리하여 휴먼 에러를 방지
    • 데이터의 최신성을 보장하는 운영 역량 확보

1.2 파이프라인 통합 및 벡터 데이터베이스 구축

  • 목적:
    • 정형/비정형 데이터를 수집하여 분석(Spark)
    • LLM이 이해할 수 있는 벡터 데이터로 변환하여 VectorDB에 저장하는 전체 흐름 완성
  • 의의:
    • 단순한 데이터 저장을 넘어, 지능형 서비스를 위한 검색 기반 기술(RAG)의 핵심 엔진을 직접 구축해 보는 실전적 경험 제공

1.3 인터랙티브 AI 서비스 배포 및 가시화

  • 목적:
    • Streamlit을 활용하여 데이터 파이프라인의 결과물을 사용자가 직접 제어하고 소통할 수 있는 챗봇 인터페이스로 구현
  • 의의:
    • 백엔드 기술이 실제 서비스 가치로 연결되는 과정 경험
    • 기술의 구현에서 서비스의 완성으로 시야 확장

2. 학습 단계별 연결 고리

  • 이 과정은 ‘자동화 🡲 가공 🡲 인터페이스’의 단계적 진화를 따름
  1. Airflow 단계에서 데이터의 입구부터 저장소까지의 길을 닦고(Pipelining),
  2. Spark & VectorDB 단계에서 데이터를 지능형 서비스에 적합한 형태로 정제하여 저장하며,
  3. 마지막 Streamlit 단계에서 이 데이터들을 활용해 사용자와 대화하는 RAG(Retrieval-Augmented Generation) 챗봇을 완성함
    🡲전체 아키텍처가 하나로 맞물리게 됨

3. 기대 효과

  • 개발자:
    • LLM 연동 어플리케이션의 프런트엔드부터 백엔드 데이터 연결까지 전체적인 서비스 아키텍처를 이해하는
    • 풀스택 AI 엔지니어로 성장
  • 데이터 엔지니어:
    • 분산되어 있던 데이터 처리 도구들을 하나의 워크플로우로 묶어 관리하는 오케스트레이션 역량 확보
    • 자신이 구축한 파이프라인이 실제 서비스에 어떻게 기여하는지 확인



  • 이 과정은
    • 단순한 도구의 사용법 습득이 아니라 “데이터가 어떻게 가치 있는 서비스로 전환되는가”를 증명하는 단계
    • 구축된 파이프라인의 장애 대응력(Airflow Monitoring)과 사용자 응답의 정확성(RAG Performance)을 스스로 평가
  • 향후 더 복잡한 에이전트 환경(Agentic Loops)이나 실시간 데이터 처리 시스템으로 나아가기 위한 강력한 기술적 기반을 마련하게 될 것

© 2020. AiDALab Co. All rights reserved.

Powered by Hydejack v9.2.1