Gerenciar limites de taxa

A API de incorporação e reclassificação está na visualização. O recurso e a documentação correspondente podem mudar a qualquer momento durante o período de pré-visualização.

Os limites de taxa são restrições à frequência e ao número de tokens que você pode solicitar à Voyage IA dentro de um período de tempo especificado. Para saber mais sobre os limites de taxa, consulte melhores práticas.

O Atlas impõe limites de taxa com base no uso da chave API do modelo uso (solicitações por minuto (RPM) e tokens por minuto (TPM)). Se você exceder o número de solicitações ou tokens no minuto mais recente, aAPI negará qualquer solicitação adicional subsequente e retornará um código de status HTTP 429 (Rate Limit Exceeded).

Gerenciar limites de taxa

As seções seguintes descrevem como gerenciar limites de taxa na IU do Atlas.

Permissões necessárias

Para definir e redefinir os limites de taxa no nível do projeto, você deve ter acessoProject Owner ou superior ao Atlas.

Para visualizar os limites de taxa:

Nos níveis de organização e projeto, você deve ter acessoOrganization Read Only ou superior ao Atlas.
Somente no nível do projeto, você deve ter acessoProject Read Only ou superior ao Atlas.

Definir limites de taxa

Você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto.

Conecte-se ao Atlas.

Vá para a página AI Models na IU do Atlas.

Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

Defina os limites de taxa para o projeto.

Na barra de navegação, selecione Rate Limits.
Na coluna Actions correspondente ao modelo de incorporação para o qual você deseja modificar os limites de taxa, clique em .
Modifique os valores TPM e RPM.
Os limites de taxa em nível de projeto para cada modelo podem ser qualquer valor menor ou igual ao limite de taxa da organização.
Exemplo
No nível de uso 1, os limites de taxa para o modelo de incorporação voyage-4 de um projeto podem ser definidos como 2000 RPM e 8,000,000 TPM, ou inferior.
Clique em para aplicar o limite de taxa.

Visualizar limites de taxa

Você pode visualizar os limites de taxa nos níveis da organização e do projeto .

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
No nível da organização , clique em Rate Limits sob o cabeçalho Services na barra de navegação.

A página exibe as seguintes informações:

Nome	Descrição
Model	Lista de modelos de integração do Voyage IA.
Tokens Per Minute (TPM)	Número de tokens que você pode fazer solicitações em um minuto dos pontos de extremidade da API de incorporação e reclassificação.
Requests Per Min (RPM)	Número de solicitações de API que você pode enviar em um minuto para os pontos de extremidade da API de incorporação e reclassificação.

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

Selecione Rate Limits na navegação à esquerda.

A página exibe as seguintes informações sobre os limites de taxa:

Nome da coluna	Descrição da coluna
Model	Lista de modelos de integração do Voyage IA.
Tokens Per Minute (TPM)	Número de tokens que você pode solicitar em um minuto dos pontos de extremidade da API de incorporação e reclassificação da Voyage AI.
Requests Per Min (RPM)	Número de solicitações que você pode enviar em um minuto para os pontos de extremidade da API de incorporação e reclassificação da Voyage AI.
Actions	Ações que você pode realizar. Você pode: Reduza o número de tokens e solicitações por minuto do projeto. Desfaça o número personalizado de tokens e solicitações por minuto ao defini-lo.

Se você definir limites personalizados, a página também exibirá o botão Reset all limits para reverter todos os limites de taxa personalizados da página para o padrão da organização.

Redefinir todos os limites de taxa

Você pode redefinir todos os limites personalizados que você definiu para um projeto a qualquer momento. Quando você redefine os limites, os limites de taxa do projeto são revertidos para os limites de taxa padrão da organização.

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.

Redefina os limites de taxa personalizados.

Na barra de navegação, selecione Rate Limits.
Na página, clique em Reset all limits no canto superior direito.

Níveis de uso

Os limites de taxa seguem um sistema em camadas, com níveis mais altos oferecendo limites maiores. A classificação para um nível é baseada no uso cobrado (excluindo tokens gratuitos). A Atlas oferece 200 milhões de tokens gratuitos para cada modelo. Os modelos multimodais também incluem 150 bilhões de pixels livres. Depois de se qualificar para um nível, você nunca será rebaixado. À medida que seu uso e seus gastos aumentam, o Atlas promoverá você automaticamente para o próximo nível de uso, aumentando os limites de taxa em todos os modelos.

Para aprender mais, consulte Limites de taxa e níveis de uso.

Limites de taxa padrão

Esta seção descreve os limites de taxa padrão para cada nível de uso que são aplicados no nível da organização . Descreve também os limites de taxa que você pode configurar para cada projeto.

Limites de taxa de organização

As tabelas a seguir mostram os limites de taxa padrão (TPM e RPM) com base no nível de uso para cada modelo de incorporação do Voyage AI.

Modelo	Tokens Per Min (TPM)	Solicitações por minuto (RPM)
`voyage-4-lite`, `voyage-3.5-lite`	16,000,000	2,000
`voyage-4`, `voyage-3.5`	8,000,000	2,000
`voyage-4-large`	3,000,000	2,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	3,000,000	2,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	2,000,000	2,000
`rerank-2-lite`, `rerank-2.5-lite`	4,000,000	2,000
`rerank-2`, `rerank-2.5`	2,000,000	2,000

Os limites de taxa do nível de uso 2 são o dobro do nível de uso 1.

Modelo	Tokens Per Min (TPM)	Solicitações por minuto (RPM)
`voyage-4-lite`, `voyage-3.5-lite`	32,000,000	4,000
`voyage-4`, `voyage-3.5`	16,000,000	4,000
`voyage-4-large`	6,000,000	4,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	6,000,000	4,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	4,000,000	4,000
`rerank-2-lite`, `rerank-2.5-lite`	8,000,000	4,000
`rerank-2`, `rerank-2.5`	4,000,000	4,000

Os limites de taxa do nível de uso 3 são três vezes maiores que os do nível de uso 1.

Modelo	Tokens Per Min (TPM)	Solicitações por minuto (RPM)
`voyage-4-lite`, `voyage-3.5-lite`	48,000,000	6,000
`voyage-4`, `voyage-3.5`	24,000,000	6,000
`voyage-4-large`	9,000,000	6,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	9,000,000	6,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	6,000,000	6,000
`rerank-2-lite`, `rerank-2.5-lite`	12,000,000	6,000
`rerank-2`, `rerank-2.5`	6,000,000	6,000

Limites de taxa do projeto

Por padrão, os projetos herdam os limites de taxa com base nos limites de taxa da organização. No entanto, você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto. No entanto, se o limite de taxa da organização for atingido primeiro, os projetos poderão ser limitados a uma taxa mais baixa. Isso pode ocorrer quando a soma de todos os limites de taxa do projeto exceder o limite da organização .

Exemplo

Considere um limite de taxa da organização O com três projetos com limites de taxa P1, P2 e P3. A tabela abaixo ilustra três cenários em que a soma dos limites de taxa do projeto é menor, igual ou maior que o limite de taxa da organização . Para cada cenário, a tabela indica se o limite da organização pode ser atingido e se o uso de um projeto pode impacto outro.

	Scenario 1 P1 + P2 + P3 < O	Scenario 2 P1 + P2 + P3 = O	Scenario 3 P1 + P2 + P3 > O
Descrição do cenário	A soma de todos os limites de taxa do projeto é menor que o limite da organização .	A soma de todos os limites de taxa do projeto é igual ao limite da organização .	A soma de todos os limites de taxa do projeto é maior que o limite da organização .
O limite da organização pode ser atingido?	Não, mesmo que todos os projetos atinjam seus limites de taxa, o limite de taxa da organização não será excedido.	Sim, se todos os projetos atingirem seus limites de taxa, o limite da organização também será atingido.	Sim, como a soma de todos os limites de taxa do projeto excede o limite da organização, o limite da organização pode ser atingido antes que os projetos individuais atinjam seus próprios limites.
O uso de um projeto pode impacto outro?	No.	No.	Sim. Se os projetos consumirem coletivamente uso suficiente para atingir o limite da organização antes que um ou todos os projetos atinjam seus limites individuais, os projetos poderão ser limitados a uma taxa mais baixa do que seus limites individuais.

Melhores práticas

Os limites de taxa garantem uma utilização equilibrada e eficiente dos recursos da API, evitando o tráfego excessivo que pode impacto o desempenho geral e a acessibilidade do serviço. Especificamente, os limites de taxa servem aos seguintes fins essenciais:

Os limites de taxa promover o acesso equitativo à API para todos os usuários. Se um indivíduo ou organização gerar um volume excessivo de solicitações, isso poderá impedir o desempenho da API para outros. Por meio da limitação de taxa, garantimos que um número maior de usuários possa utilizar a API sem encontrar problemas de desempenho.
Os limites de taxa permitem que a Voyage AI gerencie efetivamente a carga de trabalho em sua infraestrutura. Picos súbitas e volumosas nas solicitações de API podem sobrecarregar os recursos do servidor e levar à degradação do desempenho. Ao estabelecer limites de taxa, a Voyage AI pode manter efetivamente uma experiência consistente e confiável para todos os usuários.
Elas agem como uma proteção contra possíveis violações ou uso indevido da API. Por exemplo, atores mal-intencionados podem tentar afundar a API com solicitações excessivas para sobrecarregá-la ou interromper seus serviços. Ao instituir limites de taxa, a Voyage IA pode impedir essas atividades obsoletas.

Para evitar e gerenciar erros de limite de taxa, recomendamos as seguintes práticas recomendadas.

Usar lotes grandes

Se você tiver muitos documentos para incorporar, poderá aumentar o número de documentos incorporados por solicitação e aumentar sua taxa de transferência geral enviando lotes maiores. Um "lote" é a coleção de documentos que você está incorporando em uma solicitação, e o " tamanho do lote " é o número de documentos no lote, ou seja, o comprimento da lista de documentos.

Exemplo

Suponha que você queira vetorizar 512 documentos. Se você usasse um tamanho de lote de 1, isso exigiria 512 solicitações e você poderia atingir seu limite de RPM. No entanto, se você usasse um tamanho de lote de 128, isso exigiria apenas 4 solicitações e você não atingiria seu limite de RPM. Você pode controlar o tamanho do lote alterando o número de documentos fornecidos na solicitação e, o uso de tamanhos de lote maiores reduzirá seu RPM geral para um determinado número de documentos.

Você deve considerar o tamanho máximo do lote da API e os tokens ao selecionar o tamanho do lote. Não é possível exceder o tamanho máximo do lote da API. Se você tiver documentos mais longos, o limite de token por solicitação poderá restringir você a um tamanho de lote menor.

Definir um período de espera

Faça solicitações com menos frequência. Você pode fazer isso marcando o passo de suas solicitações, e a abordagem mais direta é inserir um período de espera entre cada solicitação.

Executar backoff exponencial

Backoff depois de atingir seu limite de taxa (ou seja, receber um erro 429). Você pode esperar um tempo exponencialmente maior depois de receber um erro de limite de taxa antes de tentar novamente. Aguarde até que a solicitação seja bem-sucedida ou até que um número máximo de tentativas seja atingido.

Exemplo

Se o seu tempo de espera inicial for de um segundo e você tiver três erros consecutivos de limite de taxa antes do sucesso, aguarde um, dois e quatro segundos após cada erro de limite de taxa, respectivamente, antes de reenviar a solicitação.

Voltar

Monitore o uso

Cobrança

Gerenciar limites de taxa

Permissões necessárias

Definir limites de taxa

Conecte-se ao Atlas.

Vá para a página .leafygreen-ui-8n27nz{font-style:normal;font-weight:700;}AI Models na IU do Atlas.

Defina os limites de taxa para o projeto.

Exemplo

Visualizar limites de taxa

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Selecione Rate Limits na navegação à esquerda.

Redefinir todos os limites de taxa

Conecte-se ao Atlas.

Vá para a página AI Models no Atlas IU.

Redefina os limites de taxa personalizados.

Níveis de uso

Limites de taxa padrão

Limites de taxa de organização

Limites de taxa do projeto

Exemplo

Melhores práticas

Usar lotes grandes

Exemplo

Definir um período de espera

Executar backoff exponencial

Exemplo

Vá para a página AI Models na IU do Atlas.