7주차 커리큘럼 통괄 개요

  • 주제
    • LangChain 기반의 고도화된 RAG 시스템 구축 및 하이브리드 검색 최적화
  • 내용 구성
    • 단순히 챗봇을 만드는 수준을 넘어, 기업형 AI 서비스의 핵심인 RAG(Retrieval-Augmented Generation) 아키텍처를 실전 수준으로 구현하는 데 초점이 맞춰져 있음
  • 내용
    • LangChain 프레임워크를 활용한 LLM 애플리케이션 구조 이해
    • 검색 효율화를 위한 다양한 Text Chunking 전략 수립
    • 임베딩 모델의 원리 및 Vector DB(Qdrant)의 저장/관리
    • MinIO(객체 스토리지)와의 연동을 통한 데이터 파이프라인 구성
    • 키워드와 벡터 검색을 결합한 하이브리드 검색(Hybrid Search) 구현배양

1. 커리큘럼의 핵심 목적

1.1 지능형 검색 아키텍처의 내재화

  • 목적:
    • LLM의 한계인 환각(Hallucination) 현상을 극복하기 위해 외부 지식을 동적으로 참조하는 RAG 시스템의 전 과정을 이해
  • 의의:
    • 단순한 프롬프트 엔지니어링을 넘어, 데이터가 답변의 품질을 결정하는 ‘데이터 중심 AI’의 기본기 확보

1.2 확장 가능한 데이터 관리 역량 확보

  • 목적:
    • Vector DB(Qdrant)와 객체 스토리지(MinIO)를 연동하여 대규모 비정형 데이터를 효율적으로 관리하는 환경 구축
  • 의의:
    • 실제 운영 환경에서 발생할 수 있는 데이터 저장 및 인덱싱 문제를 해결할 수 있는 엔지니어링 역량 배양
  • 목적:
    • 단순 의미론적 검색(Semantic Search)의 약점을 키워드 기반 검색(BM25 등)으로 보완하는 하이브리드 검색 기술 습득
  • 의의:
    • 사용자 의도에 가장 부합하는 컨텍스트를 추출함으로써, 챗봇 응답의 정확도와 신뢰성을 비즈니스 수준으로 상향

2. 학습 단계별 연결 고리

  • 본 과정은 [기초 🡲 가공 🡲 저장 🡲 활용]의 흐름으로 유기적으로 연결되어 있
  1. LangChain을 통해 챗봇의 골격 확립
  2. 입력 데이터를 최적으로 분할하는 Chunking과 의미를 수치화하는 Embedding을 통해 데이터의 품질 상향
  3. 가공된 데이터를 MinIOQdrant에 적재하여 영속성 확보
  4. Hybrid Search를 통해 가장 적합한 정보를 추출하여 LLM에게 전달하는 완성형 워크플로우 완성

3. 기대 효과

  • 개발자:
    • LangChain 프레임워크를 능숙하게 다루며, 단순 API 호출자가 아닌 AI 서비스 아키텍처를 설계하고 구현할 수 있는
    • 풀스택 AI 개발자
  • 데이터 엔지니어:
    • 비정형 텍스트 데이터를 AI 모델이 이해할 수 있는 형태로 파이프라이닝하고, Vector DB를 최적화하여 고성능 검색 엔진을 구축하는 능력 확보



  • 이 과정을 마치면
    • “LLM에게 특정 지식을 어떻게 가장 정확하게 전달할 것인가?”에 대한 기술적 해답을 얻게 됨
    • 이는 이후 이어질 Agentic Loop(에이전트 기반 루프)나 멀티 모달 RAG와 같은 심화 과정으로 나아가기 위한 필수 관문
    • 특히 하이브리드 검색까지 구현해 본 경험은 현업에서 즉시 활용 가능한 수준의 결과물을 산출할 수 있는 밑거름이 될 것

© 2020. AiDALab Co. All rights reserved.

Powered by Hydejack v9.2.1