Menu Docs
Página inicial do Docs
/ /

Gerenciar limites de taxa

Os limites de taxa são restrições à frequência e ao número de tokens que você pode solicitar à Voyage AI dentro de um período de tempo especificado. Para saber mais sobre os limites de taxa, consulte Melhores Práticas.

O Atlas impõe limites de taxa com base no uso da chave API do modelo (solicitações por minuto (RPM) e tokens por minuto (TPM)). Se você exceder o número de solicitações ou tokens no minuto mais recente, a API negará qualquer solicitação adicional subsequente e retornará um 429 código de status HTTP (Rate Limit Exceeded) HTTP.

As seções seguintes descrevem como gerenciar limites de taxa na UI do Atlas .

Para definir e redefinir os limites de taxa no nível do projeto , você deve ter acesso ou superior ao Project Owner Atlas.

Para visualizar os limites de taxa:

  • Nos níveis de organização e projeto , você deve ter acesso ou superior ao Organization Read Only Atlas.

  • Somente no nível do projeto , você deve ter acesso ou superior ao Project Read Only Atlas.

Você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto.

1
2
  1. Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.

  2. Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.

  3. No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

3
  1. Na barra de navegação, selecione Rate Limits.

  2. Na Actions coluna correspondente ao modelo de incorporação para o qual você deseja modificar os limites de taxa, clique em.

  3. Modifique os valores TPM e RPM.

    Os limites de taxa em nível de projeto para cada modelo podem ser qualquer valor menor ou igual ao limite de taxa da organização.

    Exemplo

    No nível de uso 1, os limites de taxa para o modelo de incorporação voyage-4 de um projeto podem ser definidos como 2000 RPM e 8,000,000 TPM, ou inferior.

  4. Clique em para aplicar o limite de taxa.

Você pode visualizar os limites de taxa nos níveis da organização e do projeto .

1
2
  1. Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.

  2. No nível da organização , clique em Rate Limits sob o cabeçalho Services na barra de navegação.

A página exibe as seguintes informações:

Nome
Descrição

Model

Lista de modelos de integração do Voyage AI.

Tokens Per Minute (TPM)

Número de tokens que você pode solicitar em um minuto dos endpoints da API de incorporação e reclassificação.

Requests Per Min (RPM)

Número de solicitações de API que você pode enviar em um minuto para os endpoints da API de incorporação e reclassificação.

1
2
  1. Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.

  2. Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.

  3. No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

3

A página exibe as seguintes informações sobre os limites de taxa:

Nome da coluna
Descrição da coluna

Model

Lista de modelos de integração do Voyage AI.

Tokens Per Minute (TPM)

Número de tokens que você pode solicitar em um minuto dos endpoints da API de incorporação e reclassificação da Voyage AI.

Requests Per Min (RPM)

Número de solicitações que você pode enviar em um minuto para os endpoints da API de incorporação e reclassificação da Voyage AI.

Actions

Ações que você pode realizar. Você pode:

  • Reduza o número de tokens e solicitações por minuto do projeto.

  • Desfaça o número personalizado de tokens e solicitações por minuto ao defini-lo.

Se você definir limites personalizados, a página também exibirá o botão Reset all limits para reverter todos os limites de taxa personalizados da página para o padrão da organização.

Você pode redefinir todos os limites personalizados que você definiu para um projeto a qualquer momento. Quando você redefine os limites, os limites de taxa do projeto são revertidos para os limites de taxa padrão da organização.

1
2
  1. Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.

  2. Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.

  3. No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

3
  1. Na barra de navegação, selecione Rate Limits.

  2. Na página, clique em Reset all limits no canto superior direito.

Os limites de taxa seguem um sistema em camadas, com níveis mais altos oferecendo limites maiores. A classificação para um nível é baseada no uso cobrado (excluindo tokens gratuitos). A Atlas oferece 200 milhões de tokens gratuitos para cada modelo. Os modelos multimodais também incluem 150 bilhões de pixels livres. Depois de se qualificar para um nível, você nunca será rebaixado. À medida que seu uso e seus gastos aumentam, o Atlas promoverá você automaticamente para o próximo nível de uso, aumentando os limites de taxa em todos os modelos.

Para saber mais, consulte Limites de taxa e níveis de uso.

Esta seção descreve os limites de taxa padrão para cada nível de uso que são aplicados no nível da organização . Descreve também os limites de taxa que você pode configurar para cada projeto.

As tabelas a seguir mostram os limites de taxa padrão (TPM e RPM) com base no nível de uso para cada modelo de incorporação do Voyage AI.

Modelo
Tokens Per Min (TPM)
Solicitações por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

16,000,000

2,000

voyage-4, voyage-3.5

8,000,000

2,000

voyage-4-large

3,000,000

2,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

3,000,000

2,000

voyage-multimodal-3.5, voyage-multimodal-3

2,000,000

2,000

rerank-2-lite, rerank-2.5-lite

4,000,000

2,000

rerank-2, rerank-2.5

2,000,000

2,000

Os limites de taxa do nível de uso 2 são o dobro do nível de uso 1.

Modelo
Tokens Per Min (TPM)
Solicitações por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

32,000,000

4,000

voyage-4, voyage-3.5

16,000,000

4,000

voyage-4-large

6,000,000

4,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

6,000,000

4,000

voyage-multimodal-3.5, voyage-multimodal-3

4,000,000

4,000

rerank-2-lite, rerank-2.5-lite

8,000,000

4,000

rerank-2, rerank-2.5

4,000,000

4,000

Os limites de taxa do nível de uso 3 são três vezes maiores que os do nível de uso 1.

Modelo
Tokens Per Min (TPM)
Solicitações por minuto (RPM)

voyage-4-lite, voyage-3.5-lite

48,000,000

6,000

voyage-4, voyage-3.5

24,000,000

6,000

voyage-4-large

9,000,000

6,000

voyage-3-large, voyage-context-3, voyage-code-3, voyage-code-2, voyage-law-2, voyage-finance-2

9,000,000

6,000

voyage-multimodal-3.5, voyage-multimodal-3

6,000,000

6,000

rerank-2-lite, rerank-2.5-lite

12,000,000

6,000

rerank-2, rerank-2.5

6,000,000

6,000

Por padrão, os projetos herdam os limites de taxa com base nos limites de taxa da organização. No entanto, você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto. No entanto, se o limite de taxa da organização for atingido primeiro, os projetos poderão ser limitados a uma taxa mais baixa. Isso pode ocorrer quando a soma de todos os limites de taxa do projeto exceder o limite da organização .

Exemplo

Considere um limite de taxa da organização O com três projetos com limites de taxa P,1 P2 e P. A tabela abaixo ilustra três cenários em que a soma dos limites de taxa do projeto é menor, igual ou maior que o limite de taxa da organização . Para cada cenário, a tabela indica se o limite da organização pode ser atingido e se o uso de um projeto pode impacto 3outro.

Scenario 1
P1 + P2 + P3 < O
Scenario 2
P1 + P2 + P3 = O
Scenario 3
P1 + P2 + P3 > O

Descrição do cenário

A soma de todos os limites de taxa do projeto é menor que o limite da organização .

A soma de todos os limites de taxa do projeto é igual ao limite da organização .

A soma de todos os limites de taxa do projeto é maior que o limite da organização .

O limite da organização pode ser atingido?

Não, mesmo que todos os projetos atinjam seus limites de taxa, o limite de taxa da organização não será excedido.

Sim, se todos os projetos atingirem seus limites de taxa, o limite da organização também será atingido.

Sim, como a soma de todos os limites de taxa do projeto excede o limite da organização , o limite da organização pode ser atingido antes que os projetos individuais atinjam seus próprios limites.

O uso de um projeto pode impacto outro?

No.

No.

Sim. Se os projetos consumirem coletivamente uso suficiente para atingir o limite da organização antes que um ou todos os projetos atinjam seus limites individuais, os projetos poderão ser limitados a uma taxa mais baixa do que seus limites individuais.

Os limites de taxa garantem uma utilização equilibrada e eficiente dos recursos da API, evitando o tráfego excessivo que pode impacto o desempenho geral e a acessibilidade do serviço. Especificamente, os limites de taxa servem aos seguintes fins essenciais:

  • Os limites de taxa promover o acesso equitativo à API para todos os usuários. Se um indivíduo ou organização gerar um volume excessivo de solicitações, isso poderá impedir o desempenho da API para outros. Por meio da limitação de taxa, garantimos que um número maior de usuários possa utilizar a API sem encontrar problemas de desempenho.

  • Os limites de taxa permitem que a Voyage AI gerencie efetivamente o volume de trabalho em sua infraestrutura. Picos súbitas e volumosas nas solicitações de API podem sobrecarregar os recursos do servidor e levar à degradação do desempenho. Ao estabelecer limites de taxa, a Voyage AI pode manter efetivamente uma experiência consistente e confiável para todos os usuários.

  • Elas agem como uma proteção contra possíveis violações ou uso indevido da API. Por exemplo, atores mal-intencionados podem tentar afundar a API com solicitações excessivas para sobrecarregá-la ou interromper seus serviços. Ao instituir limites de taxa, a Voyage AI pode impedir essas atividades obsoletas.

Para evitar e gerenciar erros de limite de taxa, recomendamos as seguintes práticas recomendadas.

Se você tiver muitos documentos para incorporar, poderá aumentar o número de documentos incorporados por solicitação e aumentar o rendimento geral enviando lotes maiores. Um "lote" é a coleção de documentos que você está incorporando em uma solicitação, e o " tamanho do lote " é o número de documentos no lote, ou seja, o comprimento da lista de documentos.

Exemplo

Suponha que você queira vetorizar 512 documentos. Se você usasse um tamanho de lote de,1 isso exigiria 512 solicitações e você poderia atingir seu limite de RPM. No entanto, se você usasse um tamanho de lote de,128 isso exigiria apenas 4 solicitações e você não atingiria seu limite de RPM. Você pode controlar o tamanho do lote alterando o número de documentos fornecidos na solicitação e, o uso de tamanhos de lote maiores reduzirá seu RPM geral para um determinado número de documentos.

Você deve considerar o tamanho máximo do lote da API e os tokens ao selecionar o tamanho do lote . Não é possível exceder o tamanho máximo do lote da API. Se você tiver documentos mais longos, o limite de token por solicitação poderá restringir você a um tamanho de lote menor.

Faça solicitações com menos frequência. Você pode fazer isso marcando o passo de suas solicitações, e a abordagem mais direta é inserir um período de espera entre cada solicitação.

Backoff depois de atingir seu limite de taxa (ou seja, receber um erro 429). Você pode esperar um tempo exponencialmente maior depois de receber um erro de limite de taxa antes de tentar novamente. Aguarde até que a solicitação seja bem-sucedida ou até que um número máximo de tentativas seja atingido.

Exemplo

Se o seu tempo de espera inicial for de um segundo e você tiver três erros consecutivos de limite de taxa antes do sucesso, aguarde um, dois e quatro segundos após cada erro de limite de taxa, respectivamente, antes de reenviar a solicitação.

Voltar

Monitore o uso

Nesta página