Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/ /

Modelos para la incrustación automatizada

La integración automatizada utiliza los modelos de integración de Voyage AI, que Atlas aloja y gestiona en el plano de datos en un entorno multiusuario.

La función de incrustación automatizada admite los siguientes modelos de incrustación de Voyage AI:

Modelo de incrustación
Descripción
Precio por 1M tokens

voyage-4-lite

Optimizados para aplicaciones de alto volumen y sensibles al costo.

$0.02

voyage-4

(Recomendado) Rendimiento equilibrado para búsqueda de texto general.

$0.06

voyage-4-large

Máxima precisión para relaciones semánticas complejas.

$0.12

voyage-code-3

Especializado en búsqueda de código y documentación técnica.

$0.18

Una ventana de contexto es la cantidad máxima de texto (medida en tokens, no en caracteres) que un modelo de incrustación o LLM puede considerar en una sola solicitud. El tamaño máximo de la ventana de contexto para cada modelo es el siguiente:

Modelo de incrustación
Tamaño de la ventana de contexto

voyage-4-large

32,000 tokens

voyage-4

32,000 tokens

voyage-4-lite

32,000 tokens

voyage-code-3

32,000 tokens

Si el campo de texto indexado es más largo que la ventana de contexto, el texto se trunca automáticamente al tamaño de la ventana de contexto para el modelo. Si el texto de su consulta excede esta ventana de contexto para el modelo, La$vectorSearch consulta falla con un error.context-limit-exceeded

Los tokens del modelo se consumen durante las operaciones de indexación (creación inicial, inserciones, actualizaciones) y las operaciones de consulta. Para las operaciones de indexación, solo se utilizan los campos del documento de MongoDB indexados como tipo autoEmbed para la generación de incrustaciones y esto conlleva el uso de un token. Para la operación de consulta, se utiliza el texto de consulta proporcionado para la generación de incrustaciones y esto también conlleva el uso de un token. El costo de los tokens para cada modelo es el siguiente:

Modelo de incrustación
Cost per 1K Tokens
Costo por 1M Tokens

voyage-4-large

$0.00012

$0.12

voyage-4

$0.00006

$0.06

voyage-4-lite

$0.00002

$0.02

voyage-code-3

$0.00018

$0.18

Para cada modelo, Atlas incluye una asignación única de 200 millones de tokens gratuitos a nivel de organización. La organización comparte los tokens gratuitos entre todos los proyectos y clústeres de Atlas dentro de la organización.

Para cada modelo, MongoDB Vector Search incluye una asignación única de 200 millones de tokens gratuitos. Estos tokens gratuitos se comparten entre todos los clústeres de la implementación.

Los tokens gratuitos no se recargan.

Los límites de velocidad son restricciones sobre la frecuencia y la cantidad de tokens que puede solicitar a la función de incrustación automatizada dentro de un período de tiempo específico. MongoDB aplica límites de velocidad a la generación de incrustaciones para garantizar un uso equitativo entre todos los usuarios en el entorno multiusuario. Los límites de velocidad se basan en las solicitudes por minuto (RPM) y los tokens por minuto (TPM). Estos límites se aplican a nivel de clúster de MongoDB y se comparten entre todos los índices de dicho clúster que utilizan la función de incrustación automatizada. Para solicitar límites de velocidad más altos, comuníquese con su equipo de cuenta de MongoDB o con el soporte técnico de MongoDB.

Los límites de velocidad se aplican por separado a las consultas, la creación de índices por primera vez y las operaciones de actualización de índices (inserciones y actualizaciones de documentos), lo que proporciona aislamiento del tráfico. Las operaciones de creación de índices están estrictamente aisladas del tráfico de consultas en tiempo real.

Los límites de velocidad de la primera generación de índices restringen la frecuencia máxima y el número de tokens con los que se generan las incrustaciones. Para cargas de trabajo elevadas durante la primera generación de índices (sincronización inicial), la incrustación automatizada utiliza un mecanismo de inferencia independiente que no está sujeto a los límites de velocidad estándar. Este mecanismo está optimizado para el rendimiento y permite gestionar la generación inicial del índice, ofreciendo las siguientes ventajas:

  • Sincronización inicial más rápida: Ajuste dinámicamente el rendimiento de la generación de incrustaciones para gestionar picos de demanda masivos.

  • Rendimiento ilimitado: alcanza la capacidad máxima de la GPU disponible y elimina las solicitudes manuales para aumentar el límite de velocidad.

  • Reparto equitativo de recursos: Las distintas versiones del índice convergen hacia una asignación similar de tokens por segundo, evitando así la escasez de recursos.

  • Aumento gradual seguro: comienza con una baja concurrencia y crece dinámicamente solo en función de señales internas explícitas de éxito.

Los límites de tasa del índice restringen la frecuencia máxima y la cantidad de tokens con los que se generan incrustaciones durante ciertas operaciones en los índices de incrustación automatizada de MongoDB Vector Search. Estas operaciones incluyen inserciones (se agregan nuevos datos al índice) o actualizaciones (cambios en los datos existentes que requieren una nueva incrustación).

Modelo
Solicitudes por minuto (RPM)
Tokens Por Minuto (TPM)

voyage-4-large

2,000

3,000,000

voyage-4

2,000

8,000,000

voyage-4-lite

2,000

16,000,000

voyage-code-3

2,000

3,000,000

Los límites de tasa de consulta controlan la frecuencia máxima de generación de incrustaciones y el número de tokens para todas las consultas que utilizan las $vectorSearch operaciones en sus índices de incrustación automatizada de MongoDB Vector Search.

Para optimizar el rendimiento dentro de los límites de velocidad:

  1. Utilice texto más corto: limite el texto indexado al contenido relevante para reducir el consumo de tokens.

  2. Actualizaciones por lotes: Si realiza actualizaciones masivas, espacielas para evitar alcanzar los límites de velocidad.

  3. Supervise el uso: realice un seguimiento del uso de la generación de incrustaciones a través del panel de control de Voyage AI para identificar patrones y optimizar.

  4. Actualiza cuando sea necesario: Si alcanzas constantemente los límites de uso, considera actualizar a un plan de pago para obtener cuotas más altas.

Volver

Empezar

En esta página