질의 응답 시스템의 기본 원리
정보 검색 기반 질의 응답
- 방대한 텍스트 문서 집합에서 사용자의 질문과 관련된 정보를 찾아(Information Retrieval) 답변을 생성하는 방식
1. 작동 원리
1단계: 질문 분석 (Question Analysis)
- 사용자가 입력한 질문을 분석하여 핵심 키워드 추출
- 질문의 유형(사실형, 정의형, 방법형 등)을 파악하여 답변 형태 예측
- 불용어(예: ~은, ~는, ~이다 등) 제거
- 필요에 따라 형태소 분석, 구문 분석 수행 → 질문의 의미의 정확한 이해 시도
- 분석된 질문의 키워드를 사용하여 미리 구축된 문서 색인(Index) 검색
- 색인 방법으로는 역색인(Inverted Index)이 주로 사용됨
- 역색인: 각 단어가 어떤 문서에 나타나는지에 대한 정보를 담고 있음 → 효율적인 검색 가능
- 검색 모델(TF-IDF, BM25 등)을 사용하여 질문과 문서 간의 유사도 계산
- 질문과 관련성이 높은 상위 N개의 문서를 추출
- 추출된 상위 N개의 문서에서 질문에 대한 답을 포함할 가능성이 높은 구절/문장 탐색
- 간단한 키워드 매칭, 정규 표현식, 더 정교한 자연어 처리 기술(개체명 인식, 관계 추출 등) 활용 → 답변 후보 추출
- 추출된 답변 후보들의 관련성 평가
- 가장 적절한 답변을 선택하여 사용자에게 제공
- 때로는 여러 문서에서 추출된 정보를 조합하여 답변을 생성하기도 함
2. 핵심 특징
- 장점
- 비교적 구축이 용이함
- 다양한 유형의 질문에 대해 폭넓은 답변을 제공할 수 있음
- 단점
- 문서 내에 명시적인 답변이 없는 경우 정확한 답변을 제공하기 어려움
- 추출된 답변이 사용자의 질문 의도와 정확히 일치하지 않을 수 있음
3. 활용 예시