/ /

Models para la incrustación automatizada

La incrustación automatizada utiliza los embedding model de Voyage AI, que Atlas aloja y gestionada en el plano de datos en un entorno multi-inquilino.

Modelos compatibles

Automated Embedding es compatible con los siguientes Voyage AI embedding models:

Modelo de incrustación	Descripción	Precio por 1M de tokens
`voyage-4-lite`	Optimizados para aplicaciones de alto volumen y sensibles al costo.	$0.02
`voyage-4`	(Recomendado) Rendimiento equilibrado para búsqueda de texto general.	$0.06
`voyage-4-large`	Máxima precisión para relaciones semánticas complejas.	$0.12
`voyage-code-3`	Especializado en búsqueda de código y documentación técnica.	$0.18

Tamaños de ventana de contexto

Una ventana de contexto es la cantidad máxima de texto (medida en tokens, no en caracteres) que un model de incrustación o LLM puede considerar en una sola solicitud. El tamaño máximo de la ventana de contexto para cada model es el siguiente:

Modelo de incrustación	Tamaño de la ventana de contexto
`voyage-4-large`	32,000 tokens
`voyage-4`	32,000 tokens
`voyage-4-lite`	32,000 tokens
`voyage-code-3`	32,000 tokens

Si el campo de texto indexado es más largo que la ventana de contexto, el texto se trunca automáticamente al tamaño de la ventana de contexto para el model. Si tu texto de query supera esta ventana de contexto para el model, la $vectorSearch query falla con un error context-limit-exceeded.

Costo de los model

Los tokens del model se consumen durante las operaciones de índice (creación por primera vez, inserciones, actualizaciones) y las operaciones de query. Para las operaciones de indexación, solo los campos en el document de MongoDB que están indexados como el tipo autoEmbed se utilizan para la generación de incrustación y generan un uso de token. Para la operación de query, el texto de query proporcionado se utiliza para la generación de incrustaciones y genera un uso de tokens. El costo de los tokens para cada model es el siguiente:

Modelo de incrustación	Cost per 1K Tokens	Costo por 1M de tokens
`voyage-4-large`	$0.00012	$0.12
`voyage-4`	$0.00006	$0.06
`voyage-4-lite`	$0.00002	$0.02
`voyage-code-3`	$0.00018	$0.18

Tokens gratuitos

Para cada model, Atlas incluye una asignación única de 200 millones de tokens gratuitos a nivel organizacional. La organización distribuye tokens gratuitos en todos los proyectos y clústeres Atlas que conforman la organización.

Para cada model, MongoDB Vector Search incluye una asignación única de 200 millones de tokens gratuitos. Los tokens gratuitos se comparten entre todos los clústeres de la implementación.

Los tokens gratuitos no se actualizan.

Límites de velocidad

Los límites de tasas son restricciones sobre la frecuencia y la cantidad de tokens que puedes solicitar a Automated incrustación dentro de un período de tiempo específico. MongoDB aplica límites de velocidad en la generación de incrustaciones para garantizar un uso equitativo entre todos los usuarios en el entorno multi-inquilino. Los límites de frecuencia se basan en las Requests Per Minute (RPM) y los Tokens Per Minute (TPM). Estos límites de velocidad se aplican a nivel de Clúster de MongoDB y se comparten entre todos los índices de ese clúster que utilizan incrustación automatizada. Para solicitar límites de ritmo más altos, por favor contacta a tu equipo de cuenta de MongoDB o al soporte de MongoDB.

Los límites de tasa se aplican por separado a las consultas, la creación de índices inicial y las operaciones de actualización de índices (inserciones y actualizaciones de document), proporcionando aislamiento del tráfico. Las operaciones de construcción de indexación están estrictamente aisladas del tráfico de query en tiempo real.

Límites de la tasa de creación de índices

Los límites de velocidad de la creación de índices por primera vez restringen la frecuencia máxima y el número de tokens con los que se generan las incrustaciones. Para grandes cargas de trabajo durante la creación de índices por primera vez (sincronización inicial), Automated incrustación utiliza un mecanismo de inferencia separado que no está sujeto a los límites de tasa estándar. Este mecanismo está optimizado para el rendimiento, con el fin de gestionar la creación inicial de índices, ofreciendo los siguientes beneficios:

Sincronización Inicial más Rápida: Escale el rendimiento de la generación de incrustaciones de forma dinámica para gestionar ráfagas masivas.
Rendimiento sin límites: Ejecuciones hasta la capacidad disponible de la GPU y elimina las solicitudes manuales de aumento de límite de velocidad.
Uso compartido justo de recursos: las creaciones de índices compitiendo convergen hacia una asignación similar de tokens por segundo, evitando así el estancamiento.
Aumento seguro: Se inicia con baja simultaneidad y solo aumenta en función de señales internas explícitas de éxito de forma dinámica.

Límites de tasa de inserción y actualización de índices

Los límites de tasa del índice restringen la frecuencia máxima y el número de tokens con los que se generan incrustaciones durante ciertas operaciones en los índices MongoDB búsqueda vectorial Automated incrustación. Estas operaciones incluyen inserciones (se agrega nuevos datos a su índice) o actualizaciones (cambios de datos existentes que requieren reinsertar).

Modelo	Solicitudes por minuto (RPM)	Tokens Por Minuto (TPM)
`voyage-4-large`	2,000	3,000,000
`voyage-4`	2,000	8,000,000
`voyage-4-lite`	2,000	16,000,000
`voyage-code-3`	2,000	3,000,000

Limitaciones de velocidad para operaciones de query

Los límites de la tasa de consultas controlan la frecuencia máxima de generación de incrustaciones y el número de tokens para todas las consultas que utilizan las $vectorSearch operaciones en sus índices de incrustaciones automatizadas de búsqueda vectorial de MongoDB.

Clúster gratuito

Límites de tarifa para clústeres M0 sin un método de pago

Modelo	Solicitudes por minuto (RPM)	Tokens Por Minuto (TPM)
`voyage-4-large`	3	2,000
`voyage-4`	3	2,000
`voyage-4-lite`	3	2,000
`voyage-code-3`	3	2,000

Clúster de pago

Límites de tasa para clústeres M0 con método de pago, clústeres Flex y clústeres dedicados

Modelo	Solicitudes por minuto (RPM)	Tokens Por Minuto (TPM)
`voyage-4-large`	2,000	3,000,000
`voyage-4`	2,000	8,000,000
`voyage-4-lite`	2,000	16,000,000
`voyage-code-3`	2,000	3,000,000

Mejores prácticas

Para optimizar el rendimiento dentro de los límites de velocidad:

Crea un índice en colecciones prepopuladas cuando sea posible: La creación de índices inicial (sincronización inicial) se beneficia de un mecanismo especial de inferencia que no está limitado por el rendimiento. Por lo tanto, recomendamos prellenar tu colección antes de crear un índice.
Actualizaciones por lotes: Si está realizando actualizaciones masivas, supervise el rendimiento de la actualización del índice en la página Usage del tablero de Incrustación Automatizada y espácielas para evitar alcanzar los límites de velocidad.
Rastrea el uso: Sigue el proceso de generación de incrustaciones en la página Usage del tablero de Automatized Embedding para identificar patrones y optimizar.
Actualízate cuando sea necesario: Si alcanzas consistentemente los límites de tasa, considera añadir un método de pago para aumentar tus cuotas o contacta con tu equipo de cuentas de MongoDB para obtener límites de tasa más altos.

Volver

Empezar

Gestionar incrustaciones automáticas