Os limites de taxa são restrições à frequência e ao número de tokens que você pode solicitar à Voyage AI dentro de um período de tempo especificado. Para saber mais sobre os limites de taxa, consulte Melhores Práticas.
O Atlas impõe limites de taxa com base no uso da chave API do modelo (solicitações por minuto (RPM) e tokens por minuto (TPM)). Se você exceder o número de solicitações ou tokens no minuto mais recente, a API negará qualquer solicitação adicional subsequente e retornará um 429 código de status HTTP (Rate Limit Exceeded) HTTP.
Gerenciar limites de taxa
As seções seguintes descrevem como gerenciar limites de taxa na UI do Atlas .
Permissões necessárias
Para definir e redefinir os limites de taxa no nível do projeto , você deve ter acesso ou superior ao Project Owner Atlas.
Para visualizar os limites de taxa:
Nos níveis de organização e projeto , você deve ter acesso ou superior ao
Organization Read OnlyAtlas.Somente no nível do projeto , você deve ter acesso ou superior ao
Project Read OnlyAtlas.
Definir limites de taxa
Você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto.
Vá para a AI Models página na interface do usuário do Atlas .
Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.
Defina os limites de taxa para o projeto.
Na barra de navegação, selecione Rate Limits.
Na Actions coluna correspondente ao modelo de incorporação para o qual você deseja modificar os limites de taxa, clique em.
Modifique os valores TPM e RPM.
Os limites de taxa em nível de projeto para cada modelo podem ser qualquer valor menor ou igual ao limite de taxa da organização.
Exemplo
No nível de uso 1, os limites de taxa para o modelo de incorporação
voyage-4de um projeto podem ser definidos como2000RPM e8,000,000TPM, ou inferior.Clique em para aplicar o limite de taxa.
Visualizar limites de taxa
Você pode visualizar os limites de taxa nos níveis da organização e do projeto .
A página exibe as seguintes informações:
Nome | Descrição |
|---|---|
Model | Lista de modelos de integração do Voyage AI. |
Tokens Per Minute (TPM) | Número de tokens que você pode solicitar em um minuto dos endpoints da API de incorporação e reclassificação. |
Requests Per Min (RPM) | Número de solicitações de API que você pode enviar em um minuto para os endpoints da API de incorporação e reclassificação. |
Vá para a AI Models página na interface do usuário do Atlas .
Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.
Selecione Rate Limits na navegação à esquerda.
A página exibe as seguintes informações sobre os limites de taxa:
Nome da coluna | Descrição da coluna |
|---|---|
Model | Lista de modelos de integração do Voyage AI. |
Tokens Per Minute (TPM) | Número de tokens que você pode solicitar em um minuto dos endpoints da API de incorporação e reclassificação da Voyage AI. |
Requests Per Min (RPM) | Número de solicitações que você pode enviar em um minuto para os endpoints da API de incorporação e reclassificação da Voyage AI. |
Actions | Ações que você pode realizar. Você pode:
|
Se você definir limites personalizados, a página também exibirá o botão Reset all limits para reverter todos os limites de taxa personalizados da página para o padrão da organização.
Redefinir todos os limites de taxa
Você pode redefinir todos os limites personalizados que você definiu para um projeto a qualquer momento. Quando você redefine os limites, os limites de taxa do projeto são revertidos para os limites de taxa padrão da organização.
Vá para a AI Models página na interface do usuário do Atlas .
Se ainda não estiver exibido, selecione sua organização desejada no Menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
No nível do projeto , clique em AI Models sob o cabeçalho Services na barra de navegação.
Níveis de uso
Os limites de taxa seguem um sistema em camadas, com níveis mais altos oferecendo limites maiores. A classificação para um nível é baseada no uso cobrado (excluindo tokens gratuitos). A Atlas oferece 200 milhões de tokens gratuitos para cada modelo. Os modelos multimodais também incluem 150 bilhões de pixels livres. Depois de se qualificar para um nível, você nunca será rebaixado. À medida que seu uso e seus gastos aumentam, o Atlas promoverá você automaticamente para o próximo nível de uso, aumentando os limites de taxa em todos os modelos.
Para saber mais, consulte Limites de taxa e níveis de uso.
Limites de taxa padrão
Esta seção descreve os limites de taxa padrão para cada nível de uso que são aplicados no nível da organização . Descreve também os limites de taxa que você pode configurar para cada projeto.
Limites de taxa de organização
As tabelas a seguir mostram os limites de taxa padrão (TPM e RPM) com base no nível de uso para cada modelo de incorporação do Voyage AI.
Modelo | Tokens Per Min (TPM) | Solicitações por minuto (RPM) |
|---|---|---|
| 16,000,000 | 2,000 |
| 8,000,000 | 2,000 |
| 3,000,000 | 2,000 |
| 3,000,000 | 2,000 |
| 2,000,000 | 2,000 |
| 4,000,000 | 2,000 |
| 2,000,000 | 2,000 |
Os limites de taxa do nível de uso 2 são o dobro do nível de uso 1.
Modelo | Tokens Per Min (TPM) | Solicitações por minuto (RPM) |
|---|---|---|
| 32,000,000 | 4,000 |
| 16,000,000 | 4,000 |
| 6,000,000 | 4,000 |
| 6,000,000 | 4,000 |
| 4,000,000 | 4,000 |
| 8,000,000 | 4,000 |
| 4,000,000 | 4,000 |
Os limites de taxa do nível de uso 3 são três vezes maiores que os do nível de uso 1.
Modelo | Tokens Per Min (TPM) | Solicitações por minuto (RPM) |
|---|---|---|
| 48,000,000 | 6,000 |
| 24,000,000 | 6,000 |
| 9,000,000 | 6,000 |
| 9,000,000 | 6,000 |
| 6,000,000 | 6,000 |
| 12,000,000 | 6,000 |
| 6,000,000 | 6,000 |
Limites de taxa do projeto
Por padrão, os projetos herdam os limites de taxa com base nos limites de taxa da organização. No entanto, você pode definir limites diferentes para cada projeto no nível do projeto . Os limites de taxa no nível do projeto não podem exceder os limites de taxa da organização. Os limites de taxa definidos no nível do projeto se aplicam a todas as chaves de API de modelo do projeto. No entanto, se o limite de taxa da organização for atingido primeiro, os projetos poderão ser limitados a uma taxa mais baixa. Isso pode ocorrer quando a soma de todos os limites de taxa do projeto exceder o limite da organização .
Exemplo
Considere um limite de taxa da organização O com três projetos com limites de taxa P,1 P2 e P. A tabela abaixo ilustra três cenários em que a soma dos limites de taxa do projeto é menor, igual ou maior que o limite de taxa da organização . Para cada cenário, a tabela indica se o limite da organização pode ser atingido e se o uso de um projeto pode impacto 3outro.
Scenario 1 P1 + P2 + P3 < O | Scenario 2 P1 + P2 + P3 = O | Scenario 3 P1 + P2 + P3 > O | |
|---|---|---|---|
Descrição do cenário | A soma de todos os limites de taxa do projeto é menor que o limite da organização . | A soma de todos os limites de taxa do projeto é igual ao limite da organização . | A soma de todos os limites de taxa do projeto é maior que o limite da organização . |
O limite da organização pode ser atingido? | Não, mesmo que todos os projetos atinjam seus limites de taxa, o limite de taxa da organização não será excedido. | Sim, se todos os projetos atingirem seus limites de taxa, o limite da organização também será atingido. | Sim, como a soma de todos os limites de taxa do projeto excede o limite da organização , o limite da organização pode ser atingido antes que os projetos individuais atinjam seus próprios limites. |
O uso de um projeto pode impacto outro? | No. | No. | Sim. Se os projetos consumirem coletivamente uso suficiente para atingir o limite da organização antes que um ou todos os projetos atinjam seus limites individuais, os projetos poderão ser limitados a uma taxa mais baixa do que seus limites individuais. |
Melhores práticas
Os limites de taxa garantem uma utilização equilibrada e eficiente dos recursos da API, evitando o tráfego excessivo que pode impacto o desempenho geral e a acessibilidade do serviço. Especificamente, os limites de taxa servem aos seguintes fins essenciais:
Os limites de taxa promover o acesso equitativo à API para todos os usuários. Se um indivíduo ou organização gerar um volume excessivo de solicitações, isso poderá impedir o desempenho da API para outros. Por meio da limitação de taxa, garantimos que um número maior de usuários possa utilizar a API sem encontrar problemas de desempenho.
Os limites de taxa permitem que a Voyage AI gerencie efetivamente o volume de trabalho em sua infraestrutura. Picos súbitas e volumosas nas solicitações de API podem sobrecarregar os recursos do servidor e levar à degradação do desempenho. Ao estabelecer limites de taxa, a Voyage AI pode manter efetivamente uma experiência consistente e confiável para todos os usuários.
Elas agem como uma proteção contra possíveis violações ou uso indevido da API. Por exemplo, atores mal-intencionados podem tentar afundar a API com solicitações excessivas para sobrecarregá-la ou interromper seus serviços. Ao instituir limites de taxa, a Voyage AI pode impedir essas atividades obsoletas.
Para evitar e gerenciar erros de limite de taxa, recomendamos as seguintes práticas recomendadas.
Usar lotes grandes
Se você tiver muitos documentos para incorporar, poderá aumentar o número de documentos incorporados por solicitação e aumentar o rendimento geral enviando lotes maiores. Um "lote" é a coleção de documentos que você está incorporando em uma solicitação, e o " tamanho do lote " é o número de documentos no lote, ou seja, o comprimento da lista de documentos.
Exemplo
Suponha que você queira vetorizar 512 documentos. Se você usasse um tamanho de lote de,1 isso exigiria 512 solicitações e você poderia atingir seu limite de RPM. No entanto, se você usasse um tamanho de lote de,128 isso exigiria apenas 4 solicitações e você não atingiria seu limite de RPM. Você pode controlar o tamanho do lote alterando o número de documentos fornecidos na solicitação e, o uso de tamanhos de lote maiores reduzirá seu RPM geral para um determinado número de documentos.
Você deve considerar o tamanho máximo do lote da API e os tokens ao selecionar o tamanho do lote . Não é possível exceder o tamanho máximo do lote da API. Se você tiver documentos mais longos, o limite de token por solicitação poderá restringir você a um tamanho de lote menor.
Definir um período de espera
Faça solicitações com menos frequência. Você pode fazer isso marcando o passo de suas solicitações, e a abordagem mais direta é inserir um período de espera entre cada solicitação.
Executar backoff exponencial
Backoff depois de atingir seu limite de taxa (ou seja, receber um erro 429). Você pode esperar um tempo exponencialmente maior depois de receber um erro de limite de taxa antes de tentar novamente. Aguarde até que a solicitação seja bem-sucedida ou até que um número máximo de tentativas seja atingido.
Exemplo
Se o seu tempo de espera inicial for de um segundo e você tiver três erros consecutivos de limite de taxa antes do sucesso, aguarde um, dois e quatro segundos após cada erro de limite de taxa, respectivamente, antes de reenviar a solicitação.