자동 임베딩은 Atlas 멀티 테넌트 환경의 데이터 영역에서 호스팅하고 관리하는 Voyage AI의 임베딩 모델을 사용합니다.
지원되는 모델
자동 임베딩은 다음과 같은 Voyage AI 임베딩 모델을 지원합니다.
임베딩 모델 | 설명 | 토큰 1M당 가격 |
|---|---|---|
| 비용에 민감한 대용량 애플리케이션에 최적화되어 있습니다. | $0.02 |
| (권장) 일반 텍스트 검색 위한 균형 잡힌 성능. | $0.06 |
| 복잡한 시맨틱 관계에 대한 정확도를 극대화합니다. | $0.12 |
| 코드 검색 및 기술 문서화에 전문화되어 있습니다. | $0.18 |
컨텍스트 창 크기
컨텍스트 창 은 임베딩 또는 LLM 모델이 단일 요청 에서 고려할 수 있는 최대 텍스트 양(문자가 아닌 토큰으로 측정)입니다. 각 모델의 최대 컨텍스트 창 크기는 다음과 같습니다.
임베딩 모델 | 컨텍스트 창 크기 |
|---|---|
| 32,000 tokens |
| 32,000 tokens |
| 32,000 tokens |
| 32,000 tokens |
인덱싱된 텍스트 필드 컨텍스트 창 보다 길면 텍스트는 모델의 컨텍스트 창 크기에 맞게 자동으로 잘립니다. 쿼리 텍스트가 모델에 대해 이 컨텍스트 창 초과하면 $vectorSearch 쿼리 오류와 함께 context-limit-exceeded 실패합니다.
모델 비용
모델 토큰은 인덱스 작업(최초 생성, 삽입, 업데이트) 및 쿼리 작업 중에 사용됩니다. 인덱스 작업의 경우 autoEmbed 유형으로 인덱싱된 MongoDB 문서 의 필드만 임베딩 생성에 사용되며 토큰을 사용합니다. 쿼리 작업의 경우 제공된 쿼리 텍스트는 임베딩 생성에 사용되며 토큰 사용량이 발생합니다. 각 모델의 토큰 비용 은 다음과 같습니다.
임베딩 모델 | Cost per 1K Tokens | 토큰 1M당 비용 |
|---|---|---|
| $0.00012 | $0.12 |
| $0.00006 | $0.06 |
| $0.00002 | $0.02 |
| $0.00018 | $0.18 |
무료 토큰
Atlas 각 모델에 대해 조직 수준에서 200 백만 개의 무료 토큰을 일회성으로 할당합니다. 조직 조직 내의 모든 Atlas 프로젝트 및 클러스터에서 무료 토큰을 공유합니다.
각 모델에 대해 MongoDB Vector Search에는 200 백만 무료 토큰의 일회성 할당이 포함됩니다. 무료 토큰은 배포서버 의 모든 클러스터에서 공유됩니다.
무료 토큰은 새로 고침되지 않습니다.
속도 제한
비율 제한은 지정된 기간 내에 자동 임베딩에 요청 수 있는 토큰의 빈도와 수에 대한 제한입니다. MongoDB 멀티 테넌트 환경의 모든 사용자가 공정하게 사용할 수 있도록 임베딩 생성에 속도 제한을 적용합니다. 속도 제한은 분당 요청(RPM) 및 분당 토큰(TPM)을 기반으로 합니다. 이러한 속도 제한은 MongoDB 클러스터 수준에서 적용 자동 임베딩을 사용하여 해당 클러스터 의 모든 인덱스 간에 공유됩니다. 더 높은 요금 한도를 요청 하려면 MongoDB 계정 팀 에 문의하거나 MongoDB 지원 문의 하세요.
속도 제한은 쿼리, 최초 인덱스 빌드, 인덱스 업데이트 작업(문서 삽입 및 업데이트)에 별도로 적용되어 트래픽을 격리 합니다. 인덱싱 빌드 작업은 실시간 쿼리 트래픽과 엄격하게 격리됩니다.
최초 인덱스 빌드 속도 제한
최초 인덱스 빌드 속도 제한은 임베딩이 생성되는 최대 빈도와 토큰 수를 제한합니다. 최초 인덱스 빌드 (초기 동기화 ) 중 대규모 워크로드의 경우, 자동 임베딩은 표준 속도 제한에 얽매이지 않는 별도의 추론 메커니즘을 사용합니다. 이 메커니즘은 초기 인덱스 빌드 처리하다 위한 처리량 에 최적화되어 다음과 같은 이점을 제공합니다.
빠른 초기 동기화: 임베딩 생성 처리량을 동적으로 처리량 대규모 버스트를 처리하다 .
무제한 처리량: 사용 가능한 GPU 용량 까지 버스트하고 수동으로 속도 제한 증가 요청을 할 필요가 없습니다.
공정한 리소스 공유: 경쟁 인덱스 빌드는 유사한 초당 토큰 할당으로 수렴되어 고갈을 방지합니다.
안전 증가: 낮은 동시성에서 시작하여 명시적인 내부 성공 신호가 있을 때만 동적으로 증가합니다.
인덱스 삽입 및 업데이트 속도 제한
인덱스 비율 제한은 MongoDB Vector Search 자동 임베딩 인덱스에서 특정 작업 중에 임베딩이 생성되는 최대 빈도와 토큰 수를 제한합니다. 이러한 작업에는 삽입(새 데이터가 인덱스 에 추가됨) 또는 업데이트(재포함이 필요한 기존 데이터 변경 사항)가 포함됩니다.
모델 | 분당 요청(RPM) | 분당 토큰(TPM) |
|---|---|---|
| 2,000 | 3,000,000 |
| 2,000 | 8,000,000 |
| 2,000 | 16,000,000 |
| 2,000 | 3,000,000 |
쿼리 작업 속도 제한
쿼리 속도 제한은 MongoDB Vector Search 자동 임베딩 인덱스에서 연산을 $vectorSearch 사용하는 모든 쿼리에 대한 최대 임베딩 생성 빈도와 토큰 수를 제어합니다.
모델 | 분당 요청(RPM) | 분당 토큰(TPM) |
|---|---|---|
| 3 | 2,000 |
| 3 | 2,000 |
| 3 | 2,000 |
| 3 | 2,000 |
모범 사례
속도 제한 내에서 성능을 최적화하려면 다음을 수행합니다.
짧은 텍스트 사용: 인덱스된 텍스트를 관련 콘텐츠로 제한하여 토큰 소비를 줄입니다.
배치 업데이트: 대량 업데이트를 수행하는 경우 속도 제한에 도달하지 않도록 간격을 두세요.
사용량 모니터링: Voyage AI 대시보드 통해 임베딩 생성 사용량을 추적하여 패턴을 식별하고 최적화합니다.
필요한 경우 업그레이드: 지속적으로 요금 한도에 도달하는 경우 할당량을 늘리려면 유료 계층 으로 업그레이드하는 것이 좋습니다.