Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/ /

Gestionar límites de tasa

Los límites de velocidad son restricciones sobre la frecuencia y el número de tokens que puedes solicitar a Voyage IA dentro de un período de tiempo específico. Para obtener más información sobre los límites de velocidad, consulta mejores prácticas.

Atlas aplica límites de tasa según la clave de API del modelo uso (solicitudes por minuto (RPM) y tokens por minuto (TPM)). Si excede la cantidad de solicitudes o tokens en el minuto más reciente, el API deniega cualquier solicitud adicional posterior y devuelve un 429 (Límite de velocidad excedido) Código de estado HTTP.

Las siguientes secciones describen cómo administrar los límites de velocidad en la interfaz de usuario de Atlas.

Para establecer y restablecer límites de velocidad a nivel de proyecto, debe tener acceso o superior a Project Owner Atlas.

Para ver los límites de velocidad:

  • A nivel organizativo y de proyecto, debes tener Organization Read Only o un nivel de acceso superior a Atlas.

  • Solo a nivel de proyecto, debes tener acceso Project Read Only o superior a Atlas.

Puedes establecer diferentes límites para cada proyecto a nivel de proyecto. Los límites de velocidad a nivel de proyecto no pueden exceder los límites de velocidad para la organización. Los límites de velocidad establecidos a nivel de proyecto se aplican a todas las claves de API de modelos para el proyecto.

1
2
  1. Si aún no se muestra, selecciona la organización deseada en el menú Organizations de la barra de navegación.

  2. Si aún no aparece, selecciona el proyecto deseado en el menú Projects de la barra de navegación.

  3. En el nivel del proyecto, haga clic en AI Models debajo del encabezado Services en la barra de navegación.

3
  1. Desde la barra de navegación, selecciona Rate Limits.

  2. En la columna Actions correspondiente al modelo de embeddings para el que desees modificar los límites de velocidad, haz clic en .

  3. Modificar los valores de TPM y RPM.

    Los límites de velocidad a nivel de proyecto para cada modelo pueden ser cualquier valor menor o igual al límite de velocidad de la organización.

    Ejemplo

    En el nivel de uso 1, los límites de tasas para el modelo de embeddings voyage-4 de un proyecto pueden establecerse en 2000 RPM y 8,000,000 TPM, o más bajos.

  4. Haga clic para aplicar el límite de tarifa.

Puedes ver los límites de tasas a nivel de organización y de proyecto.

1
2
  1. Si aún no se muestra, selecciona la organización deseada en el menú Organizations de la barra de navegación.

  2. A nivel de organización, haz clic en Rate Limits bajo el encabezado Services en la barra de navegación.

La página muestra la siguiente información:

Nombre
Descripción

Model

Lista de modelos de incrustación de Voyage IA.

Tokens Per Minute (TPM)

Número de tokens que puedes solicitar en un minuto desde los puntos finales de las API de Embedding y Reranking.

Requests Per Min (RPM)

Número de solicitudes API que puedes enviar en un minuto a los endpoints API de Embedding y Reranking.

1
2
  1. Si aún no se muestra, selecciona la organización deseada en el menú Organizations de la barra de navegación.

  2. Si aún no aparece, selecciona el proyecto deseado en el menú Projects de la barra de navegación.

  3. En el nivel del proyecto, haga clic en AI Models debajo del encabezado Services en la barra de navegación.

3

La página muestra la siguiente información sobre los límites de tarifa:

Nombre de columna
Descripción de la columna

Model

Lista de modelos de incrustación de Voyage IA.

Tokens Per Minute (TPM)

Cantidad de tokens que puedes solicitar en un minuto desde los puntos finales de la API de incrustación y reclasificación de Voyage AI.

Requests Per Min (RPM)

Número de solicitudes que puedes enviar en un minuto a los puntos finales de la API Embedding y Reranking de Voyage IA.

Actions

Acciones que puedes tomar. Puedes:

  • Reducir la cantidad de tokens y solicitudes por minuto del proyecto.

  • Deshacer número personalizado de tokens y solicitudes por minuto durante la configuración.

Si establece límites personalizados, la página también muestra el botón Reset all limits para revertir todos los límites de velocidad personalizados en la página a los valores predeterminados para la organización.

Puedes restablecer todos los límites personalizados que hayas establecido para un proyecto en cualquier momento. Al restablecerlos, los límites de velocidad del proyecto vuelven a los predeterminados de la organización.

1
2
  1. Si aún no se muestra, selecciona la organización deseada en el menú Organizations de la barra de navegación.

  2. Si aún no aparece, selecciona el proyecto deseado en el menú Projects de la barra de navegación.

  3. En el nivel del proyecto, haga clic en AI Models debajo del encabezado Services en la barra de navegación.

3
  1. Desde la barra de navegación, selecciona Rate Limits.

  2. En la página, haga clic en Reset all limits en la esquina superior derecha.

Los límites de velocidad siguen un sistema escalonado, donde los niveles superiores ofrecen límites más altos. La elegibilidad para un nivel se basa en el uso facturado (sin incluir tokens gratuitos). Atlas ofrece 200 millones de tokens gratuitos para cada modelo. Los modelos multimodales también incluyen 150 mil millones de píxeles gratuitos. Una vez que califique para un nivel, nunca bajará de categoría. A medida que aumente su uso y gasto, Atlas lo ascenderá automáticamente al siguiente nivel de uso, aumentando los límites de velocidad en todos los modelos.

Para obtener más información, consulte Límites de velocidad y niveles de uso.

Esta sección describe los límites de velocidad predeterminados para cada nivel de uso que se aplican a nivel de organización. También describe los límites de velocidad que se pueden configurar para cada proyecto.

Las siguientes tablas muestran los límites de velocidad por defecto (TPM y RPM), basados en el nivel de uso, para cada modelo de incrustaciones de Voyage AI.

Modelo
Tokens Per Min (TPM)
Solicitudes por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

16,000,000

2,000

voyage-4, voyage-3.5

8,000,000

2,000

voyage-4-large

3,000,000

2,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

3,000,000

2,000

voyage-multimodal-3.5, voyage-multimodal-3

2,000,000

2,000

rerank-2-lite, rerank-2.5-lite

4,000,000

2,000

rerank-2, rerank-2.5

2,000,000

2,000

Los límites de tasa para el nivel de uso 2 son el doble que los del nivel de uso 1.

Modelo
Tokens Per Min (TPM)
Solicitudes por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

32,000,000

4,000

voyage-4, voyage-3.5

16,000,000

4,000

voyage-4-large

6,000,000

4,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

6,000,000

4,000

voyage-multimodal-3.5, voyage-multimodal-3

4,000,000

4,000

rerank-2-lite, rerank-2.5-lite

8,000,000

4,000

rerank-2, rerank-2.5

4,000,000

4,000

Los límites de velocidad para el nivel de uso 3 son tres veces los del nivel de uso 1.

Modelo
Tokens Per Min (TPM)
Solicitudes por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

48,000,000

6,000

voyage-4, voyage-3.5

24,000,000

6,000

voyage-4-large

9,000,000

6,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

9,000,000

6,000

voyage-multimodal-3.5, voyage-multimodal-3

6,000,000

6,000

rerank-2-lite, rerank-2.5-lite

12,000,000

6,000

rerank-2, rerank-2.5

6,000,000

6,000

Por defecto, los proyectos heredan los límites de tasa en función de los límites de tasa para la organización. Sin embargo, se pueden establecer límites diferentes para cada proyecto a nivel de proyecto. Los límites de velocidad a nivel de proyecto no pueden exceder los límites de velocidad de la organización. Los límites de velocidad establecidos a nivel de proyecto se aplican a todas las claves API de modelos del proyecto. Sin embargo, si primero se alcanza el límite de velocidad de la organización, los proyectos podrían verse limitados a una velocidad inferior. Esto puede ocurrir cuando la suma de todos los límites de velocidad del proyecto excede el límite de la organización.

Ejemplo

Considera un límite de tasa organizacional O con tres proyectos con límites de tasa P1, P2 y P3. La siguiente tabla ilustra tres escenarios en los que la suma de los límites de tasa del proyecto es menor, igual o mayor que el límite de tasa de la organización. Para cada escenario, la tabla indica si se puede alcanzar el límite de la organización y si el uso de un proyecto puede tener un impacto en otro.

Scenario 1
P1 + P2 + P3 < O
Scenario 2
P1 + P2 + P3 = O
Scenario 3
P1 + P2 + P3 > O

Descripción del escenario

La suma de todos los límites de velocidad del proyecto es menor que el límite de la organización.

La suma de todos los límites de velocidad del proyecto es igual al límite de la organización.

La suma de todos los límites de velocidad del proyecto es superior a al límite de la organización.

¿Se puede alcanzar el límite de la organización?

No, incluso si todos los proyectos alcanzan sus límites de velocidad, el límite de velocidad de la organización no se superará.

, si todos los proyectos alcanzan sus límites de tasa, el límite de la organización también se alcanzará.

是的,由于所有 **proyectos** 的速率限制总和超过了 **organización** 限制,在各个 **proyectos** 达到各自限制前,可能先达到 **organización** 限制。

¿Puede el uso de un Proyecto tener un impacto en otro?

No.

No.

Sí. Si los proyectos consumen colectivamente suficiente uso para alcanzar el límite de la organización antes de que alguno o todos los proyectos alcancen sus límites individuales, los proyectos pueden tener una tasa limitada a una tasa inferior a sus límites individuales.

Los límites de tasa garantizan una utilización equilibrada y eficiente de los recursos de la API, previniendo un tráfico excesivo que podría impactar en el desempeño y la accesibilidad general del servicio. Específicamente, los límites de tasa sirven las siguientes finalidades vitales:

  • Los límites de velocidad promueven un acceso equitativo a la API para todos los usuarios. Si una persona u organización genera un volumen excesivo de solicitudes, podría afectar el rendimiento de la API para otros. Mediante la limitación de velocidad, garantizamos que un mayor número de usuarios pueda utilizar la API sin experimentar problemas de rendimiento.

  • Los límites de velocidad permiten a Voyage AI gestionar eficazmente la carga de trabajo en su infraestructura. Los picos repentinos y significativos en las solicitudes de API podrían sobrecargar los recursos del servidor y reducir el rendimiento. Al establecer límites de velocidad, Voyage AI puede garantizar una experiencia consistente y fiable para todos los usuarios.

  • Actúan como protección contra posibles abusos o usos indebidos de la API. Por ejemplo, actores maliciosos podrían intentar saturar la API con solicitudes excesivas para sobrecargarla o interrumpir sus servicios. Al establecer límites de velocidad, Voyage AI puede impedir estas actividades maliciosas.

Para evitar y gestionar errores de límite de velocidad, recomendamos las siguientes mejores prácticas.

Si tiene muchos documentos para incrustar, puede aumentar la cantidad de documentos que incrusta por solicitud y aumentar su rendimiento general enviando lotes más grandes. Un "lote" es el conjunto de documentos que incrusta en una solicitud, y el "tamaño del lote" es la cantidad de documentos que contiene, es decir, la longitud de la lista de documentos.

Ejemplo

Supongamos que desea vectorizar 512 documentos. Si usara un tamaño de lote de,1 se requerirían 512 solicitudes y podría alcanzar el límite de RPM. Sin embargo, si usara un tamaño de lote 128 de, solo se requerirían 4 solicitudes y no alcanzaría el límite de RPM. Puede controlar el tamaño del lote modificando el número de documentos que proporciona en la solicitud; usar lotes más grandes reducirá el RPM total para un número determinado de documentos.

Debe considerar el tamaño máximo del lote y los tokens de la API al seleccionar el tamaño de su lote. No puedes superar el tamaño máximo de lote de la API. Si tienes documentos más largos, el límite de tokens por solicitud podría restringirte a un tamaño de lote más pequeño.

Disminuya la frecuencia de las solicitudes. Puede lograrlo regulando el ritmo de las solicitudes, y la estrategia más sencilla es añadir un período de espera entre cada solicitud.

Retrocede una vez que alcances tu límite de tasa (es decir, cuando recibas un error 429). Podrías esperar un tiempo exponencialmente mayor tras recibir un error de límite de tasa antes de intentar nuevamente. Espera a que la solicitud sea exitosa o hasta que se alcance el número máximo de reintentos.

Ejemplo

Si tu tiempo de espera inicial era de un segundo y recibiste tres errores de límite de velocidad consecutivos antes de tener éxito, deberías esperar uno, dos y cuatro segundos después de cada error de límite de velocidad, respectivamente, antes de volver a enviar la solicitud.

Volver

Supervisar el uso

En esta página