/ /

Modelos para embedding automatizada

A incorporação automatizada usa os embedding models da Voyage AI, que o Atlas hospeda e gerencia no Plano de Dados em um ambiente de vários inquilinos.

Modelos suportados

A incorporação automatizada é compatível com os seguintes embedding models do Voyage AI:

Modelo de incorporação	Descrição	Preço por 1M de tokens
`voyage-4-lite`	Otimizado para aplicativos de alto volume e sensíveis ao custo.	$0.02
`voyage-4`	(Recomendado) Desempenho balanceado para pesquisa geral de texto.	$0.06
`voyage-4-large`	Máxima precisão para relacionamentos semânticos complexos.	$0.12
`voyage-code-3`	Especificamente para pesquisa de código e documentação técnica.	$0.18

Tamanhos de janelas de contexto

Uma janela de contexto é a quantidade máxima de texto (medida em tokens, não caracteres) que um embedding ou model LLM pode considerar em uma única solicitação. O tamanho máximo da janela de contexto para cada model é o seguinte:

Modelo de incorporação	Tamanho da janela de contexto
`voyage-4-large`	32,000 tokens
`voyage-4`	32,000 tokens
`voyage-4-lite`	32,000 tokens
`voyage-code-3`	32,000 tokens

Se o campo de texto indexado for maior que a janela de contexto, o texto será automaticamente truncado para o tamanho da janela de contexto do model. Se o texto da query exceder esta janela de contexto para o model, a $vectorSearch query falhará com um erro context-limit-exceeded.

Custo dos model

Os tokens de Model são consumidos durante operações de índice (criação inicial, inserções, atualização) e operações de query. Para as operações de índice, somente os campos no documento MongoDB que são indexados como o tipo autoEmbed são usados para geração de embedding e incorrem em um uso de token. Para a operação de query, o texto de query fornecido é usado para geração de embedding e incorre no uso de token. O custo dos tokens para cada model é o seguinte:

Modelo de incorporação	Cost per 1K Tokens	Custo por 1M de tokens
`voyage-4-large`	$0.00012	$0.12
`voyage-4`	$0.00006	$0.06
`voyage-4-lite`	$0.00002	$0.02
`voyage-code-3`	$0.00018	$0.18

Tokens grátis

Para cada model, o Atlas inclui uma alocação única de 200 milhões de tokens gratuitos no nível da organização . A organização compartilha tokens gratuitos em todos os projetos e clusters do Atlas dentro da organização.

Para cada model, o MongoDB pesquisa vetorial inclui uma alocação única de 200 milhões de tokens gratuitos. Os tokens gratuitos são compartilhados entre todos os clusters da implantação.

Os tokens gratuitos não são atualizados.

Limites de taxa

Os limites de taxa são restrições à frequência e ao número de tokens que você pode solicitar da Automated embedding dentro de um período de tempo especificado. O MongoDB impõe limites de taxa na geração de embedding para garantir o uso leal entre todos os usuários no ambiente de vários inquilinos. Os limites de taxa são baseados em Requests Per Minute (RPM) e Tokens Per Minute (TPM). Esses limites de taxa se aplicam no nível do Cluster MongoDB e são compartilhados entre todos os índices desse cluster usando o embedding automatizado. Para solicitar limites de taxa mais altos, entre em contato com sua equipe de contas do MongoDB ou entre em contato com o suporte do MongoDB .

Os limites de taxa são aplicados separadamente a queries, construções iniciais de índices e operações de atualização de índices (inserções e atualizações de document ), fornecendo isolamento do tráfego. As operações de construção de indexação são estritamente isoladas do tráfego de consulta em tempo real.

Limites de taxa de construção de índice inicial

Os limites da taxa de construção de índice pela primeira vez restringem a frequência máxima e o número de tokens em que as incorporações são geradas. Para grandes cargas de trabalho durante a construção de índice (sincronização inicial), a Automated Embedding usa um mecanismo de inferência separado que não está limitado pelos limites de taxa padrão. Esse mecanismo é otimizado para a taxa de transferência para lidar com a construção de índice inicial, fornece os seguintes benefícios:

Sincronização inicial mais rápida: dimensione a taxa de transferência de geração de embedding dinamicamente para lidar com intermitências massivas.
Taxa de transferência ilimitada: explode até a capacidade disponível da GPU e elimina as solicitações manuais de aumento do limite da taxa.
Compartilhamento leal de recurso: As construções de índice concorrente convergem para alocação semelhante de token por segundo, evitando a falta de ingestão.
Ramp-Up seguro: Começa em baixa simultaneidade e cresce somente em sinais explícitos de sucesso interno dinamicamente.

Limites de taxa de inserção e atualizar de índice

Os limites de taxa de índice restringem a frequência máxima e o número de tokens nos quais os embeddings são gerados durante determinadas operações nos índices de embedding automatizada do MongoDB pesquisa vetorial. Essas operações incluem inserções (novos dados são adicionados ao seu índice) ou atualizações (alterações de dados existentes que exigem re-embedding).

Modelo	Solicitações por minuto (RPM)	Tokens por minuto (TPM)
`voyage-4-large`	2,000	3,000,000
`voyage-4`	2,000	8,000,000
`voyage-4-lite`	2,000	16,000,000
`voyage-code-3`	2,000	3,000,000

Limites de taxa de operações de query

Os limites de taxa de query controlam a frequência máxima de geração de embedding e o número de tokens para todas as queries que utilizam as operações de$vectorSearch em seus índices de Embedding Automatizada do MongoDB pesquisa vetorial.

Cluster gratuito

Limites de taxa para clusters M0 sem um método de pagamento

Modelo	Solicitações por minuto (RPM)	Tokens por minuto (TPM)
`voyage-4-large`	3	2,000
`voyage-4`	3	2,000
`voyage-4-lite`	3	2,000
`voyage-code-3`	3	2,000

Cluster pago

Limites de taxa para clusters M0 com forma de pagamento, clusters flexíveis e clusters dedicados

Modelo	Solicitações por minuto (RPM)	Tokens por minuto (TPM)
`voyage-4-large`	2,000	3,000,000
`voyage-4`	2,000	8,000,000
`voyage-4-lite`	2,000	16,000,000
`voyage-code-3`	2,000	3,000,000

Melhores práticas

Para otimizar o desempenho dentro dos limites de taxa:

Crie um índice em coleções pré-preenchidas quando possível: a construção de índice de primeira vez (sincronização inicial) se beneficia de um mecanismo de inferência especial que não é limitado por taxa de transferência. Portanto, recomendamos preencher previamente sua coleção antes de criar um índice.
Atualizações em lote: se você estiver executando atualizações em massa, monitore a taxa de transferência da atualização do índice na página Usage do painel de embedding automatizada e espaço-las para evitar atingir os limites de taxa.
Monitorar o uso: acompanhe sua geração de embedding na página Usage do dashboard de embedding automatizada para identificar padrões e otimizar.
Atualize quando necessário: se você atingir os limites de taxa consistentemente, considere adicionar um método de pagamento para cotas mais altas ou entrar em contato com a equipe de conta do MongoDB para obter limites de taxa mais altos.

Voltar

Começar

Gerenciar embedding automatizada