LLM 기반 질의 응답 기술

질의 응답 시스템의 기본 원리

정보 검색 기반 질의 응답

  • 방대한 텍스트 문서 집합에서 사용자의 질문과 관련된 정보를 찾아(Information Retrieval) 답변을 생성하는 방식

1. 작동 원리

1단계: 질문 분석 (Question Analysis)
  • 사용자가 입력한 질문을 분석하여 핵심 키워드 추출
  • 질문의 유형(사실형, 정의형, 방법형 등)을 파악하여 답변 형태 예측
  • 불용어(예: ~은, ~는, ~이다 등) 제거
  • 필요에 따라 형태소 분석, 구문 분석 수행 → 질문의 의미의 정확한 이해 시도
2단계: 정보 검색 (Information Retrieval)
  • 분석된 질문의 키워드를 사용하여 미리 구축된 문서 색인(Index) 검색
    • 색인 방법으로는 역색인(Inverted Index)이 주로 사용됨
    • 역색인: 각 단어가 어떤 문서에 나타나는지에 대한 정보를 담고 있음 → 효율적인 검색 가능
  • 검색 모델(TF-IDF, BM25 등)을 사용하여 질문과 문서 간의 유사도 계산
  • 질문과 관련성이 높은 상위 N개의 문서를 추출
3단계: 답변 추출 (Answer Extraction)
  • 추출된 상위 N개의 문서에서 질문에 대한 답을 포함할 가능성이 높은 구절/문장 탐색
  • 간단한 키워드 매칭, 정규 표현식, 더 정교한 자연어 처리 기술(개체명 인식, 관계 추출 등) 활용 → 답변 후보 추출
  • 추출된 답변 후보들의 관련성 평가
  • 가장 적절한 답변을 선택하여 사용자에게 제공
    • 때로는 여러 문서에서 추출된 정보를 조합하여 답변을 생성하기도 함

2. 핵심 특징

  • 장점
    • 비교적 구축이 용이함
    • 다양한 유형의 질문에 대해 폭넓은 답변을 제공할 수 있음
  • 단점
    • 문서 내에 명시적인 답변이 없는 경우 정확한 답변을 제공하기 어려움
    • 추출된 답변이 사용자의 질문 의도와 정확히 일치하지 않을 수 있음

3. 활용 예시

  • 웹 검색 엔진
  • FAQ 검색 시스템