La integración automatizada utiliza los modelos de integración de Voyage AI, que Atlas aloja y gestiona en el plano de datos en un entorno multiusuario.
Modelos compatibles
La función de incrustación automatizada admite los siguientes modelos de incrustación de Voyage AI:
Modelo de incrustación | Descripción | Precio por 1M tokens |
|---|---|---|
| Optimizados para aplicaciones de alto volumen y sensibles al costo. | $0.02 |
| (Recomendado) Rendimiento equilibrado para búsqueda de texto general. | $0.06 |
| Máxima precisión para relaciones semánticas complejas. | $0.12 |
| Especializado en búsqueda de código y documentación técnica. | $0.18 |
Tamaños de ventana de contexto
Una ventana de contexto es la cantidad máxima de texto (medida en tokens, no en caracteres) que un modelo de incrustación o LLM puede considerar en una sola solicitud. El tamaño máximo de la ventana de contexto para cada modelo es el siguiente:
Modelo de incrustación | Tamaño de la ventana de contexto |
|---|---|
| 32,000 tokens |
| 32,000 tokens |
| 32,000 tokens |
| 32,000 tokens |
Si el campo de texto indexado es más largo que la ventana de contexto, el texto se trunca automáticamente al tamaño de la ventana de contexto para el modelo. Si el texto de su consulta excede esta ventana de contexto para el modelo,
La$vectorSearch consulta falla con un error.context-limit-exceeded
Costo de los modelos
Los tokens del modelo se consumen durante las operaciones de indexación (creación inicial, inserciones, actualizaciones) y las operaciones de consulta. Para las operaciones de indexación, solo se utilizan los campos del documento de MongoDB indexados como tipo autoEmbed para la generación de incrustaciones y esto conlleva el uso de un token. Para la operación de consulta, se utiliza el texto de consulta proporcionado para la generación de incrustaciones y esto también conlleva el uso de un token. El costo de los tokens para cada modelo es el siguiente:
Modelo de incrustación | Cost per 1K Tokens | Costo por 1M Tokens |
|---|---|---|
| $0.00012 | $0.12 |
| $0.00006 | $0.06 |
| $0.00002 | $0.02 |
| $0.00018 | $0.18 |
Tokens gratuitos
Para cada modelo, Atlas incluye una asignación única de 200 millones de tokens gratuitos a nivel de organización. La organización comparte los tokens gratuitos entre todos los proyectos y clústeres de Atlas dentro de la organización.
Para cada modelo, MongoDB Vector Search incluye una asignación única de 200 millones de tokens gratuitos. Estos tokens gratuitos se comparten entre todos los clústeres de la implementación.
Los tokens gratuitos no se recargan.
Límites de velocidad
Los límites de velocidad son restricciones sobre la frecuencia y la cantidad de tokens que puede solicitar a la función de incrustación automatizada dentro de un período de tiempo específico. MongoDB aplica límites de velocidad a la generación de incrustaciones para garantizar un uso equitativo entre todos los usuarios en el entorno multiusuario. Los límites de velocidad se basan en las solicitudes por minuto (RPM) y los tokens por minuto (TPM). Estos límites se aplican a nivel de clúster de MongoDB y se comparten entre todos los índices de dicho clúster que utilizan la función de incrustación automatizada. Para solicitar límites de velocidad más altos, comuníquese con su equipo de cuenta de MongoDB o con el soporte técnico de MongoDB.
Los límites de velocidad se aplican por separado a las consultas, la creación de índices por primera vez y las operaciones de actualización de índices (inserciones y actualizaciones de documentos), lo que proporciona aislamiento del tráfico. Las operaciones de creación de índices están estrictamente aisladas del tráfico de consultas en tiempo real.
Límites de velocidad de compilación del índice por primera vez
Los límites de velocidad de la primera generación de índices restringen la frecuencia máxima y el número de tokens con los que se generan las incrustaciones. Para cargas de trabajo elevadas durante la primera generación de índices (sincronización inicial), la incrustación automatizada utiliza un mecanismo de inferencia independiente que no está sujeto a los límites de velocidad estándar. Este mecanismo está optimizado para el rendimiento y permite gestionar la generación inicial del índice, ofreciendo las siguientes ventajas:
Sincronización inicial más rápida: Ajuste dinámicamente el rendimiento de la generación de incrustaciones para gestionar picos de demanda masivos.
Rendimiento ilimitado: alcanza la capacidad máxima de la GPU disponible y elimina las solicitudes manuales para aumentar el límite de velocidad.
Reparto equitativo de recursos: Las distintas versiones del índice convergen hacia una asignación similar de tokens por segundo, evitando así la escasez de recursos.
Aumento gradual seguro: comienza con una baja concurrencia y crece dinámicamente solo en función de señales internas explícitas de éxito.
Límites de tasa de inserción y actualización de índices
Los límites de tasa del índice restringen la frecuencia máxima y la cantidad de tokens con los que se generan incrustaciones durante ciertas operaciones en los índices de incrustación automatizada de MongoDB Vector Search. Estas operaciones incluyen inserciones (se agregan nuevos datos al índice) o actualizaciones (cambios en los datos existentes que requieren una nueva incrustación).
Modelo | Solicitudes por minuto (RPM) | Tokens Por Minuto (TPM) |
|---|---|---|
| 2,000 | 3,000,000 |
| 2,000 | 8,000,000 |
| 2,000 | 16,000,000 |
| 2,000 | 3,000,000 |
Límites de velocidad de las operaciones de consulta
Los límites de tasa de consulta controlan la frecuencia máxima de generación de incrustaciones y el número de tokens para todas las consultas que utilizan las $vectorSearch operaciones en sus índices de incrustación automatizada de MongoDB Vector Search.
Modelo | Solicitudes por minuto (RPM) | Tokens Por Minuto (TPM) |
|---|---|---|
| 3 | 2,000 |
| 3 | 2,000 |
| 3 | 2,000 |
| 3 | 2,000 |
Mejores prácticas
Para optimizar el rendimiento dentro de los límites de velocidad:
Utilice texto más corto: limite el texto indexado al contenido relevante para reducir el consumo de tokens.
Actualizaciones por lotes: Si realiza actualizaciones masivas, espacielas para evitar alcanzar los límites de velocidad.
Supervise el uso: realice un seguimiento del uso de la generación de incrustaciones a través del panel de control de Voyage AI para identificar patrones y optimizar.
Actualiza cuando sea necesario: Si alcanzas constantemente los límites de uso, considera actualizar a un plan de pago para obtener cuotas más altas.