기술 Docs 용 컨텍스트 인식 RAG

제품: MongoDB Atlas, MongoDB Atlas Search, MongoDB Atlas Vector Search, Hybrid Search

솔루션 개요

항공 우주, 에너지, 자동차, 제조와 같은 자본 집약적인 산업은 수십 년의 복잡한 기술 지식에 의존합니다. 그러나 이러한 기술적 지식은 액세스 하기 어려울 수 있는 PDF 또는 구조화되지 않은 파일로 저장되는 매뉴얼, 유지 관리 가이드, 내부 Wiki와 같은 정적 문서 모음에 보관되어 있습니다. 따라서 일선 직원들은 실시간 으로 정확한 정보를 조회 할 수 없습니다.

이러한 격차는 기업에 다음과 같은 과제를 안겨줍니다.

운영 다운타임 으로 인해 회사는 시간당 최대 $260,000 의 비용 수 있으며, 자동차와 같은 일부 부문은 분당 $50,000 의 비용이 발생합니다. 이러한 비용에 더해, ABB의 안정성 가치 설문조사 에 따르면 산업 기업의 2/3 이상이 계획되지 않은 가동 중단을 한 달에 한 번 이상 경험하며, 일반적인 비용은 시간당 $125000 입니다.
생산 오류 및 재작업 은 문서 부족으로 인해 제조 전문가의97% 에게 영향을 미칩니다.
제조 73전문가의 %에 따르면문서화의 비효율성은 다른 기술 이니셔티브로부터의 이익을 감소시킵니다.

이러한 격차를 주소 위해 이 솔루션은 컨텍스트 인식 RAG를 사용하여 비활성 문서를 동적 지식 기반으로 변환하는 아키텍처 프레임워크 제공합니다. 문서를 청크로 분할할 때 중요한 컨텍스트를 잃는 표준 RAG 시스템과 달리 컨텍스트 인식 RAG는 기술 문서의 계층 구조와 관계를 유지합니다. 그런 다음 사용자는 자연어 언어 질문하고 문서에서 정확한 답변을 받을 수 있으며, 시스템은 원래의 기술적 컨텍스트를 유지하면서 가장 관련성이 높은 정보를 자동으로 찾아 제시합니다.

RAG 프로세스 중에 문서 구조를 유지함으로써 시스템은 안전 경고가 절차와 연결된 상태를 유지하고 기술 사양이 적절한 범위를 유지하도록 합니다. 그 결과 시스템은 운영을 더 안전하게 만들고, 생산성을 가속화하며, 차세대 산업 AI 애플리케이션을 위한 길을 열어줍니다.

참조 아키텍처

상황 인식 RAG 시스템을 구축하기 위한 아키텍처는 세 가지 핵심 계층으로 구성됩니다.

수집 파이프라인 라인 계층
데이터 플랫폼 계층
계층 쿼리

이러한 계층은 함께 작동하여 정적 기술 문서를 지능형 지식 기반으로 변환합니다. 각 계층은 문서 구조를 유지하며 정확한 키워드 매칭과 의미론적 이해를 가능하게 합니다. 이 섹션에서는 수집 및 쿼리 계층에 대해 설명하고, 데이터 모델 접근 방식 섹션에서는 데이터 플랫폼 계층을 자세히 다룹니다.

아래 다이어그램은 PDF 수집에서 사용자 쿼리 응답까지의 데이터 흐름을 보여 주며, 기술적 구성 요소와 그 상호 작용을 보여줍니다. 각 계층이 컨텍스트를 유지하면서 기술 문서를 처리, 저장 및 검색하는 방법을 보여 줍니다.

기술 문서에 대한 상황 인식 RAG 시스템의 레퍼런스 아키텍처를 보여주는 이미지

클릭하여 확대

그림 1. 기술 문서 아키텍처를 위한 컨텍스트 인식 RAG

수집 파이프라인 계층

수집 파이프라인 계층은 원본 PDF를 콘텐츠와 컨텍스트를 보존하는 구조화된 데이터로 변환합니다. 이렇게 하면 청크 프로세스 중에 기술적 관계, 계층 구조 및 컨텍스트 종속성을 그대로 유지하여 중요한 정보 손실을 방지함으로써 RAG 시스템의 품질과 안정성이 향상됩니다. 자동차 매뉴얼 데이터 수집 노트북 을 사용하여 수집 파이프라인 계층을 개발하세요. 이 파일 이 계층을 구현 방법에 대한 자세한 가이드 제공하고 다음 프로세스 안내합니다.

1. 이동식 문서를 구조 DataFrames로 변환

수집 파이프라인 계층을 개발하려면 먼저 google-cloud-documentai Python 라이브러리를 사용하여 PDF 소스를 프로세스 . API 응답을 구조화된 Pandas DataFrame으로 구문 분석합니다. 각 행은 다음에 대한 열이 있는 고유한 텍스트 차단 나타냅니다.

경계 상자 좌표
페이지 번호
텍스트 콘텐츠

2. 구조 추론에 대한 규칙 적용

그런 다음 DataFrame을 반복하고 다음과 같이 규칙 기반 엔진 적용 컨텍스트를 추론합니다.

헤더 감지: 모두 대문자이거나 더 큰 글꼴 크기의 텍스트 블록은 섹션 헤더로 식별됩니다.
목록 및 절차 인식: 수평 경계 상자 위치는 목록이나 절차 단계를 나타내는 들여쓰기 패턴을 나타냅니다.
시맨틱 청크 전략: 텍스트를 의미 있는 청크로 집계하여 주요 제목이 발생할 때까지 계속하여 절차와 테이블을 그대로 유지합니다.

3. 고품질 검색을 위한 데이터 보강

breadcrumb_trail 이라는 문자열 변수를 만들어 각 청크 의 계층 경로를 캡처합니다. 이 문자열을 청크의 텍스트 앞에 추가한 후 Google Vertex AI textembedding-gecko 모델로 전송합니다. 이 디자인은 벡터 임베딩을 사용하여 청크의 텍스트와 문서 계층 구조에서의 컨텍스트 위치를 인코딩하여 시맨틱 검색 관련성을 향상시킵니다.

4. 대체 접근 방식 사용

voyage-context-3와 같은 상황별 청크 임베딩 모델을 사용하여 프로세스 간소화합니다. 이러한 모델은 임베딩을 생성할 때 문서 의 전역 컨텍스트를 분석 다음과 같은 이점을 제공합니다.

수집 간소화: breadcrumb_trail 변수를 생성하고 앞에 붙이는 것과 같은 수동 컨텍스트 보강 단계를 줄입니다. 모델은 임베딩 중에 컨텍스트 주입을 자동으로 처리합니다.
더 높은 검색 정확도: 로컬 컨텍스트가 없는 청크의 검색 품질을 향상시키는 뉘앙스의 임베딩을 생성합니다.
청크에 대한 민감도 감소: 청크에 덜 의존하는 조회 프로세스 구현합니다. 이 모델의 글로벌 인식은 최적이 아닌 세분화를 보완합니다.

쿼리 계층

쿼리 계층은 정확한 일치와 시맨틱 검색 결합한 계층화된 검색 접근 방식을 구현합니다. 각 계층 독립적으로 실행되며 다음과 같이 점수 통합을 사용하여 결과가 결합됩니다.

계층 1 는 고정밀 키워드 일치를 제공합니다.
계층 2 은 최종 순위 점수에 의미론적 이해를 추가합니다.

이 섹션에서는 점수 투명성을 유지하면서 정밀도와 재현율의 균형을 맞추는 쿼리 계층을 빌드 방법을 설명합니다. 프로덕션 시스템은 검색 관련성을 위해 계층화된 접근 방식을 사용하여 검색된 문서 사용자의 쿼리 얼마나 정확하게 충족하는지 측정합니다.

계층 1: 복합 텍스트 검색의 정밀도

산업 애플리케이션에서는 오류 코드나 부품 번호와 같은 용어를 찾기 위해 정밀도가 필요합니다. 다음과 같이 Atlas Search 의 compound 연산자 내에서 다계층 전략을 사용하면 이러한 정밀도를 달성할 수 있습니다.

{
   "$search": {
      "index": "manual_text_search_index",
      "compound": {
         "should": [
            // High-Precision: Exact phrase matching with highest boost
            {
               "phrase": {
                  "query": "car won't start",
                  "path": "breadcrumb_trail",
                  "score": { "boost": { "value": 10 } }
               }
            },
            // Balanced Relevance: Individual word matching with medium boost
            {
               "text": {
                  "query": "car won't start",
                  "path": "text",
                  "score": { "boost": { "value": 4 } }
               }
            },
            // High-Recall: Fuzzy matching to catch typos with low boost
            {
               "text": {
                  "query": "car won't start",
                  "path": "text",
                  "fuzzy": {},
                  "score": { "boost": { "value": 1.5 } }
               }
            }
         ]
      }
   }
}

이 쿼리 복합 검색 쿼리를 빌드 수 있는 should 절을 사용합니다. 결과 점수는 다음과 같이 일치하는 모든 절의 합계와 같습니다.

정확한 구문 일치는 정확한 구문이 있는 문서에 대해 가장 높은 순위를 보장하기 위해 10 의 점수 배율을 적용합니다.
개별 단어 일치는 개별 검색 가 포함된 문서에 4 의 점수 배율을 적용합니다. 이 기능 단어가 별도로 표시되는 경우에도 관련 콘텐츠를 캡처합니다.
퍼지 매칭은 1.5의 점수 배수를 적용합니다. 이 기능 오타나 변형이 있는 문서를 포착하여 정확히 일치하는 문서보다 순위가 높은 것을 방지합니다.

계층 2: 투명성을 위한 하이브리드 검색 분해

$rankFusion 를 사용하여 계층 1 의 정확한 compound 텍스트 쿼리 와 계층 2의 시맨틱 벡터 검색 결합합니다. 이 집계 연산자 키워드 매칭의 정밀도와 의미론적 이해를 제공합니다. 또한 최종 점수를 세분화하여 텍스트와 벡터 검색 각 결과의 순위에 정확히 어떤 영향을 미치는지 확인할 수도 있습니다. 이러한 투명성을 통해 개발자는 다음을 수행할 수 있습니다.

검색 관련성을 디버그하여 텍스트 검색 또는 벡터 검색 순위 결과를 결정하는지 여부를 식별합니다.
명확한 점수 분석을 통해 특정 문서의 순위가 더 높은 이유를 이해합니다.
다양한 가중치 전략으로 A/B 테스트 시나리오를 최적화합니다.

search_new.py 파일 사용하여 하이브리드 검색 구현합니다. 이 파일 에는 다음을 수행하는 코드가 포함되어 있습니다.

다음 집계 파이프라인 사용하여 scoreDetails 와 함께 $rankFusion 를 실행합니다.

{
   $rankFusion: {
      input: {
         pipelines: {
            <myPipeline1>: <expression>,
            <myPipeline2>: <expression>,
            ...
         }
      },
      combination: {
         weights: {
            <myPipeline1>: <numeric expression>,
            <myPipeline2>: <numeric expression>,
            ...
         }
      },
      scoreDetails: <bool>
   }
}

$addFields 연산자 사용하여 메타데이터 추출합니다.
```
{
   $addFields: {
      scoreDetails: {
         $meta: "scoreDetails"
      }
   }
}
```
$filter 및 $arrayElemAt 연산자를 사용하여 scoreDetails 배열 구문 분석하여 파이프라인 기여도를 격리합니다. 이 접근 방식은 vectorPipeline 및 fullTextPipeline의 특정 순위 및 점수에 대한 필드를 만듭니다.
사용자 정의 가중치를 곱한 RRF 공식을 사용하여 각 검색 방법의 실제 기여도를 계산합니다. 상수 k 를 60 로 설정하여 순위가 낮은 결과 영향을 제어합니다.
다음과 같이 검색 순위에 대한 투명한 결과를 제공합니다.
```
SearchResult(
   score=0.0123,           # Final combined RRF score
   vector_score=0.0086,    # Vector pipeline contribution
   text_score=0.0037       # Text pipeline contribution
)
```

데이터 모델 접근 방식

데이터 플랫폼 계층은 레퍼런스 아키텍처의 중심 구성 요소입니다. 수집 파이프라인 의 모든 인리치드 출력에 대한 영구 저장 역할을 하며 쿼리 계층에 대한 통합 기반을 제공합니다. 이 솔루션에서 MongoDB 문서 모델 텍스트, 임베딩, 계층적 컨텍스트, 메타데이터 단일 구조로 통합하여 데이터 플랫폼을 강화합니다.

이 접근 방식을 사용하면 메타데이터, 임베딩, 전체 텍스트 검색 위한 별도의 데이터베이스와 같은 여러 시스템이 필요하지 않으므로 기술 문서의 정확한 검색에 필요한 풍부한 컨텍스트를 유지하면서 복잡성을 줄일 수 있습니다.

기존의 다중 시스템 설계에는 다음과 같은 과제가 있습니다.

데이터 사일로: 시스템 전반에서 정보를 동기화하고 복제하면 취약성이 증가하고 운영 병목 현상이 발생합니다.
운영 오버헤드: 별도의 서비스를 실행, 확장 및 보호하면 인프라 비용이 증가합니다.
개발자의 마찰: 서로 다른 API를 통합하고 학습하면 혁신 속도가 느려집니다.

반면 문서 모델 아키텍처를 간소화합니다. 데이터 플랫폼 계층은 기본적으로 콘텐츠와 해당 컨텍스트 관계를 모두 저장하여 컨텍스트 인식 RAG를 지원하므로 검색 및 조회 시 문서 계층 구조와 의미가 보존됩니다.

다음은 단일 기술 문서 청크 의 텍스트를 풍부한 메타데이터 와 함께 저장하는 문서 모델 의 샘플 입니다.

{
   "_id": {
      "$oid": "685011ade0cccc356ba545df"
   },
   "text": "WARNING: Switching off the engine when your vehicle is still ...",
   "breadcrumb_trail": "ENGINE START STOP -- WHAT IS AUTOMATIC ENGINE STOP",
   "heading_level_1": null,
   "heading_level_2": "WHAT IS AUTOMATIC ENGINE STOP",
   "heading_level_3": "Starting and Stopping the Engine",
   "content_type": [
      "procedure",
      "safety"
   ],
   "metadata": {
      "source_pages": "122-122",
      "chunk_length": 1459,
      "systems": [
         "engine",
         "transmission"
      ]
   },
   "id": "chunk_00174",
   "prev_chunk_id": "chunk_00173",
   "next_chunk_id": "chunk_00175",
   "embedding": [
      -0.016625087708234787,
      ...,
      0.005507152993232012,
      -0.022588932886719704
   ]
}

문서 에는 다음과 같은 관련 필드가 포함되어 있습니다.

text: Atlas Search 의 대상이 되는 원시 텍스트 콘텐츠입니다.
breadcrumb_trail: 전체 계층적 컨텍스트를 유지하면서 사람이 읽을 수 있는 문자열입니다. 이 필드 컨텍스트 인식 RAG를 위해 문서의 탐색 구조를 유지 관리합니다.
content_type: 찾아보기 UI 에서 다중 선택 필터를 지원하는 태그 배열 입니다. 이 필드 인덱스 사용합니다.
metadata.source_pages: 청크 소스 PDF의 원본 페이지에 다시 연결하는 정수 범위 .
metadata.systems: 필터링에 사용되며 키워드 매핑으로 채워지는 태그의 배열 .
id: 추적성을 보장하는 청크 의 고유 식별자입니다.
embedding: 청크의 상황에 맞는 텍스트의 768차원 벡터 표현입니다. 이 필드 벡터 검색을 위해 Atlas Vector Search 인덱스 사용합니다.

솔루션 빌드

이 솔루션을 배포 하려면 이 Github 리포지토리에 있는 README 지침을 따르세요. 이 리포지토리 다음 단계를 안내합니다.

전제 조건 설정

다음 종속성을 설치합니다.

Python 3.10+
Node.js 18+
시
MongoDB Atlas 계정(버전 8.1+)
Docker (선택 사항, 컨테이너화된 배포서버 의 경우)

Github 리포지토리 복제

Github 리포지토리 로 고 (Go) 터미널에서 다음 명령을 실행 .

git clone https://github.com/mongodb-industry-solutions/manufacturing-car-manual-RAG.git
cd manufacturing-car-manual-RAG

MongoDB Atlas 구성

무료 MongoDB Atlas cluster 생성하고 개발 환경에서 연결할 수 있도록 네트워크 액세스 구성하세요.

검색 인덱스 정의

Atlas Search 로 이동하여 리포지토리 에 제공된 JSON 구성을 사용하여 텍스트 및 벡터 검색 인덱스를 모두 생성합니다.

백엔드 및 프론트엔드 설정

poetry 라이브러리를 사용하여 Python 종속성을 설치합니다.

MongoDB 연결 문자열 사용하여 환경 변수를 구성하고 FastAPI 백엔드 서버 시작합니다.

프론트엔드 용 노드 모듈을 설치하고 프론트엔드 서버 실행합니다.

데이터 수집 노트북 실행

Jupyter 노트북을 실행하여 샘플 PDF 문서를 프로세스 하고 쿼리할 준비가 된 상황별 청크로 MongoDB 컬렉션 채웁니다.

주요 학습 사항

기술 지식에 대한 동적 기록 시스템 구축: MongoDB 에 기술 정보를 저장하여 정적 문서를 구조적이고 쿼리 가능한 지식 기반으로 변환합니다. MongoDB 조직의 운영을 위한 통합 소스 역할을 하여 모든 AI 애플리케이션이 일관적인 되고 풍부한 컨텍스트 정보 액세스 있도록 보장합니다. 이 시스템은 진단 챗봇 및 예측 유지 관리 시스템과 같은 다운스트림 도구를 위한 견고한 기반을 제공합니다.
엔지니어 하이브리드 검색: 텍스트 및 벡터 검색 $rankFusion 와 결합하여 하이브리드 검색 수행합니다. 최종 점수를 분해하여 디버깅 및 관련성 조정의 투명성을 확보합니다.
RAG 시스템 변환: voyage-context-3 과 같은 임베딩 모델을 사용하여 전체 문서를 프로세스 하고 청크 수준의 세부 정보를 유지합니다. 이 구현은 표준 접근 방식보다 최대 20% 더 나은 검색 성능을 제공합니다.

작성자

Mehar Grewal, MongoDB
Rami Pinto, MongoDB

자세히 알아보기

Atlas Vector Search를 사용한 자동차 진단
MongoDB Atlas를 통한 예측적 유지 관리 우수성
MongoDB와 Google Cloud로 드라이버 경험 혁신
AI 세대를 위한 데이터 플랫폼을 빌드 방법을 학습 AI 세대를 위한 통합 데이터 플랫폼 구축 블로그 참조하세요.

돌아가기

자동차 진단

신속한 AI 에이전트 배포