Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Menu Docs
Página inicial do Docs
/ /

Modelos para incorporação automatizada

A incorporação automatizada usa os modelos de incorporação da Voyage AI, que o Atlas hospeda e gerencia no Plano de Dados em um ambiente de vários inquilinos.

A incorporação automatizada é compatível com os seguintes modelos de incorporação do Voyage AI:

Modelo de incorporação
Descrição
Preço por 1M de tokens

voyage-4-lite

Otimizado para aplicativos de alto volume e sensíveis ao custo.

$0.02

voyage-4

(Recomendado) Desempenho balanceado para pesquisa geral de texto.

$0.06

voyage-4-large

Máxima precisão para relacionamentos semânticos complexos.

$0.12

voyage-code-3

Especificamente para pesquisa de código e documentação técnica.

$0.18

Uma janela de contexto é a quantidade máxima de texto (medida em tokens, não caracteres) que uma incorporação ou modelo LLM pode considerar em uma única solicitação. O tamanho máximo da janela de contexto para cada modelo é o seguinte:

Modelo de incorporação
Tamanho da janela de contexto

voyage-4-large

32,000 tokens

voyage-4

32,000 tokens

voyage-4-lite

32,000 tokens

voyage-code-3

32,000 tokens

Se o campo de texto indexado for maior que a janela de contexto, o texto será automaticamente truncado para o tamanho da janela de contexto do modelo. Se o texto da query exceder esta janela de contexto para o modelo, a $vectorSearch query falhará com um context-limit-exceeded erro.

Os tokens de modelo são consumidos durante operações de índice (criação inicial, inserções, atualização) e operações de query. Para as operações de índice, somente os campos no documento MongoDB que são indexados como o tipo autoEmbed são usados para geração de incorporação e incorrem em um uso de token. Para a operação de query, o texto de query fornecido é usado para geração de incorporação e incorre no uso de token. O custo dos tokens para cada modelo é o seguinte:

Modelo de incorporação
Cost per 1K Tokens
Custo por 1M de tokens

voyage-4-large

$0.00012

$0.12

voyage-4

$0.00006

$0.06

voyage-4-lite

$0.00002

$0.02

voyage-code-3

$0.00018

$0.18

Para cada modelo, o Atlas inclui uma alocação única de 200 milhões de tokens gratuitos no nível da organização . A organização compartilha tokens gratuitos em todos os projetos e clusters do Atlas dentro da organização.

Para cada modelo, o MongoDB Vector Search inclui uma alocação única de 200 milhões de tokens gratuitos. Os tokens gratuitos são compartilhados entre todos os clusters do sistema.

Os tokens gratuitos não são atualizados.

Os limites de taxa são restrições à frequência e ao número de tokens que você pode solicitar da Incorporação automatizada dentro de um período de tempo especificado. O MongoDB impõe limites de taxa na geração de incorporação para garantir o uso leal entre todos os usuários no ambiente de vários inquilinos. Os limites de taxa são baseados em solicitações por minuto (RPM) e tokens por minuto (TPM). Esses limites de taxa se aplicam no nível do Cluster MongoDB e são compartilhados entre todos os índices desse cluster usando a Incorporação automatizada. Para solicitar limites de taxa mais altos, entre em contato com sua equipe de contas do MongoDB ou entre em contato com o suporte do MongoDB .

Os limites de taxa são aplicados separadamente a queries, construções iniciais de índices e operações de atualização de índices (inserções e atualizações de documento ), fornecendo isolamento do tráfego. As operações de construção de indexação são estritamente isoladas do tráfego de consulta em tempo real.

Os limites da taxa de construção de índice pela primeira vez restringem a frequência máxima e o número de tokens em que as incorporações são geradas. Para grandes volumes de trabalho durante a compilação inicial do índice (sincronização inicial), a incorporação automatizada usa um mecanismo de inferência separado que não está limitado pelos limites de taxa padrão. Esse mecanismo é otimizado para a taxa de transferência para lidar com a criação do índice inicial, fornece os seguintes benefícios:

  • Sincronização inicial mais rápida: dimensione a taxa de transferência de geração de incorporação dinamicamente para lidar com intermitências massivas.

  • Taxa de transferência ilimitada: explode até a capacidade disponível da CPU e elimina as solicitações manuais de aumento do limite da taxa.

  • Compartilhamento leal de recursos: As compilações de índice concorrente convergem para alocação semelhante de token por segundo, evitando a falta de ingestão.

  • Ramp-Up seguro: Começa em baixa simultaneidade e cresce somente em sinais explícitos de sucesso interno dinamicamente.

Os limites de taxa de índice restringem a frequência máxima e o número de tokens nos quais as incorporações são geradas durante determinadas operações nos índices de incorporação automatizada do MongoDB Vector Search . Essas operações incluem inserções (novos dados são adicionados ao seu índice) ou atualizações (alterações de dados existentes que exigem nova incorporação).

Modelo
Solicitações por minuto (RPM)
Tokens por minuto (TPM)

voyage-4-large

2,000

3,000,000

voyage-4

2,000

8,000,000

voyage-4-lite

2,000

16,000,000

voyage-code-3

2,000

3,000,000

Os limites de taxa de query controlam a frequência máxima de geração de incorporação e o número de tokens para todas as queries que utilizam as $vectorSearch operações de em seus índices de Incorporação Automatizada do MongoDB Vector Search .

Para otimizar o desempenho dentro dos limites de taxa:

  1. Usar texto mais curto: limite o texto indexado ao conteúdo relevante para reduzir o consumo de token.

  2. Atualizações em lote: se você estiver realizando atualizações em massa, espace-as para evitar atingir os limites de taxa.

  3. Monitore o uso: acompanhe o uso da geração de incorporação por meio do painel da Voyage AI para identificar padrões e otimizar.

  4. Atualize quando necessário: se você atingir os limites de taxa de forma consistente, considere a possibilidade de atualizar para uma camada paga para obter cotas mais altas.

Voltar

Começar

Nesta página