Vector Search 쿼리 실행

배포 유형

임베딩

인터페이스

MongoDB Vector Search 쿼리는 를 $vectorSearch 첫 번째 단계로 사용하는 집계 파이프라인의 형태를 취합니다. 이 페이지에서는 $vectorSearch 단계의 구문, 옵션 및 동작에 대해 설명합니다.

$vectorSearch

지원되는 클라이언트

구문

필드

$vectorSearch 단계에서는 다음 필드가 있는 문서를 사용합니다.

벡터 검색 유형

$vectorSearch 단계를 정의할 때 exact 필드 사용하여 ANN 또는 ENN 검색 실행 할지 여부를 지정할 수 있습니다.

근사 최근접 이웃 검색

근사 최근접 이웃(ANN) 검색

근사 최근접 이웃(ANN) 검색 의 경우, MongoDB 벡터 검색은 다차원 공간에서의 근접성과 고려하는 이웃 수를 기반으로 쿼리 의 벡터 임베딩에 가장 가까운 데이터의 벡터 임베딩을 찾습니다. Hierarchical Navigable Small Worlds 알고리즘 사용하여 모든 벡터를 스캔하지 않고도 쿼리 에서 벡터 임베딩과 가장 유사한 벡터 임베딩을 찾습니다. 따라서 근사 최근접 이웃 검색은 중요한 필터링 없이 대규모 데이터 세트를 쿼리하는 데 이상적입니다.

참고

ANN검색 에 대한 최적의 재현율은 90일반적으로95 ENN 검색 과 결과에서 약 ~ %가 겹치지만 지연 시간 상당히 짧은 것으로 간주됩니다. 이를 통해 정확도와 성능 간에 적절한 균형을 맞출 수 있습니다. MongoDB Vector Search를 사용하여 이를 달성하려면 쿼리 시 numCandidates 매개변수를 조정 합니다.

`numCandidates` 선택

근사 최근접 이웃 검색 실행 하려면 numCandidates 필드 지정해야 합니다. 이 필드 MongoDB Vector Search가 검색 중에 고려하는 가장 가까운 이웃의 수를 결정합니다.

정확성을 높이고 ENN 과 ANN 쿼리 결과 간의 불일치를 줄이기 위해 반환할 문서 수(limit)보다 20 배 이상 많은 numCandidates 숫자를 지정하는 것이 좋습니다. 예시 를 들어 5 결과를 반환하도록 limit 을 설정하다 경우 점 으로 numCandidates 을 100 로 설정하는 것이 좋습니다. 자세히 학습 쿼리 결과의 정확성을 측정하는 방법을 참조하세요.

이러한 과다 요청 패턴 ANN검색에서 지연 시간 과 리콜의 균형을 맞추는 데 권장되는 방법입니다. 그러나 특정 데이터 세트 크기와 쿼리 사항에 따라 numCandidates 매개 변수를 조정하는 것이 좋습니다. 정확한 결과를 얻으려면 다음 변수를 고려하세요.

등가 최근접 이웃 검색

정확한 등가 최근접 이웃(ENN) 검색

정확한 인접 이웃(ENN) 검색 의 경우, MongoDB Vector Search는 모든 임베딩 사이의 거리를 계산하여 인덱싱된 모든 벡터 임베딩을 철저하게 검색하고 쿼리 의 벡터 임베딩에 대해 가장 가까운 이웃을 찾습니다. 이는 계산 집약적이며 쿼리 지연 시간 부정적인 영향 수 있습니다. 따라서 다음과 같은 사용 사례에 대해 등가 최근접 이웃 을 검색할 것을 권장합니다.

행동

$vectorSearch 표시되는 파이프라인의 첫 번째 단계에 있어야 합니다.

제한 사항

$vectorSearch는 보기 정의 및 다음 파이프라인 단계에서 사용할 수 없습니다.

$lookup 하위 파이프라인 [1]
$facet 파이프라인 단계

[1]	`$vectorSearch` 의 결과를 이 단계로 전달할 수 있습니다.

MongoDB Vector Search 인덱싱

이러한 MongoDB 벡터 검색 필드 유형에 대해 자세히 학습하려면 벡터 검색을 위해 필드를 인덱싱하는 방법을 참조하세요.

MongoDB Vector Search 점수

MongoDB Vector Search는 반환하는 모든 문서 에 0 ~ 1 (여기서 0 는 낮은 유사성을 나타내고 1 은 높은 유사성을 나타냅니다)까지 고정된 범위 의 점수를 할당합니다.

반환된 각 문서 점수가 메타데이터 로 포함됩니다. 각 문서의 점수를 결과 세트와 함께 반환하려면 집계 파이프라인에서 $project 단계를 사용하고 score 를 프로젝트할 필드로 구성합니다. score 필드에 vectorSearchScore 값을 사용하여 $meta 표현식을 지정합니다. 구문은 다음과 같습니다.

1 db.<collection>.aggregate([
2   {
3     "$vectorSearch": {
4       <query-syntax>
5     }
6   },
7   {
8     "$project": {
9       "<field-to-include>": 1,
10       "<field-to-exclude>": 0,
11       "score": { "$meta": "vectorSearchScore" }
12     }
13   }
14 ])

참고

파이프라인 단계 이후에만 $vectorSearch 를 $meta 표현식 으로 사용할 수 vectorSearchScore 있습니다.score 다른 쿼리 뒤에 vectorSearchScore 를 사용하면 MongoDB MongoDB v8.2부터 경고를 기록합니다.

참고

데이터를 사전 필터링해도 MongoDB Vector Search가 $vectorSearch 쿼리에 대해 vectorSearchScore 를 사용하여 반환하는 점수에는 영향을 주지 않습니다.

MongoDB Vector Search 사전 필터링

$vectorSearch filter 옵션은 BSON 불리언, 날짜, objectId, 숫자, string 및 UUID 값과 일치하며, 이러한 유형의 배열도 포함됩니다.

데이터 필터링에 사용할 필드를 반드시 vectorSearch 유형 인덱스 정의의 필터 유형으로 인덱싱해야 합니다. 데이터 필터링은 시맨틱 검색의 범위를 좁히고 일부 벡터가 비교 대상으로 고려되지 않도록 하는 데 유용합니다.

MongoDB Vector Search는 $vectorSearch filter 다음 MQL 연산자에 대해 옵션을 지원합니다.

유형	MQL 연산자
동등성	`$eq`, `$ne`
범위	`$gt`, `$lt`, `$gte`, `$lte`
집합 내	`$in`, `$nin`
존재	`$exists`
논리	`$not`, `$nor`, `$and`, `$or`

참고

$vectorSearch filter 옵션은 다른 쿼리 연산자, 집계 파이프라인 연산자 또는 MongoDB Search 연산자를 지원하지 않습니다.

필터 고려 사항

MongoDB Vector Search는 $eq의 짧은 형식을 지원합니다. 짧은 형식에서는 쿼리 에 $eq 을(를) 지정할 필요가 없습니다.
예를 들어, $eq가 포함된 다음 필터를 가정하겠습니다.
```
"filter": { "_id": { "$eq": ObjectId("5a9427648b0beebeb69537a5") }
```
이는 $eq의 짧은 형식을 사용하는 다음 필터와 동일합니다.
```
"filter": { "_id": ObjectId("5a9427648b0beebeb69537a5") }
```
$and MQL 연산자 사용하여 단일 쿼리 에서 필터 배열 을 지정할 수 있습니다.
예를 들어 genres 필드가 Action이고 year 필드가 1999, 2000 또는 2001인 문서에 대해 다음과 같은 사전 필터를 사용한다고 가정해 보겠습니다.
```
"filter": {
  "$and": [
    { "genres": "Action" },
    { "year": { "$in": [ 1999, 2000, 2001 ] } }
  ]
}
```
퍼지 검색, 구문 일치, 위치 필터 및 기타 분석된 텍스트와 같은 고급 필터링 역량의 경우 단계에서 $search vectorSearch 연산자를 사용합니다.

예시

전제 조건

이 예시를 실행하기 전에 다음 작업을 수행하세요.

클러스터에 데이터 세트 를 추가합니다.
컬렉션 에 대한 MongoDB Vector Search 검색 인덱스를 생성합니다. 지침은 MongoDB 벡터 검색 인덱스 생성 절차 및 기본 예시 또는 필터 예시에 대한 구성을 원하는 언어로 복사하세요를 참조하세요.

참고

mongosh를 사용하는 경우 샘플 코드의 queryVector를 터미널에 붙여넣는 것은 컴퓨터에 따라 시간이 걸릴 수 있습니다.

근사 최근접 이웃 예시

등가 최근접 이웃 예시

돌아가기

인덱스 참조

쿼리 결과 설명

1	db.<collection>.aggregate([
2	{
3	"$vectorSearch": {
4	<query-syntax>
5	}
6	},
7	{
8	"$project": {
9	"<field-to-include>": 1,
10	"<field-to-exclude>": 0,
11	"score": { "$meta": "vectorSearchScore" }
12	}
13	}
14	])