Menu Docs
Página inicial do Docs
/

Tokenização

Dado um input, a primeira etapa do processo de incorporação e reclassificação é divisão -lo em uma lista de tokens. Nossos servidores executam automaticamente esta etapa de tokenização quando você chama a API. O cliente Python inclui métodos que permitem que você experimente o tokenizador antes de chamar a API.

Utilize o método tokenize para tokenizar uma lista de textos para um modelo específico.

Exemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
"The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
"Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Tokenize the texts
tokenized = vo.tokenize(texts, model="voyage-4-large")
for i in range(len(texts)):
print(tokenized[i].tokens)
['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.']
['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']

Utilize o método count_tokens para contar o número de tokens em uma lista de textos para um modelo específico.

Exemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
"The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
"Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Count total tokens
total_tokens = vo.count_tokens(texts, model="voyage-4-large")
print(total_tokens)
32

Utilize o método count_usage para contar o número de tokens e pixels em uma lista de entradas para um modelo específico.

Observação

Os modelos de incorporação de viagem têm limites de comprimento de contexto. Se o seu texto exceder o limite, trunca o texto antes de chamar a API ou especifique o truncation argumento True para.

Exemplo

import voyageai
import PIL
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
# Create input with text and image
inputs = [
["This is a banana.", PIL.Image.open('banana.jpg')]
]
# Count tokens and pixels
usage = vo.count_usage(inputs, model="voyage-multimodal-3.5")
print(usage)
{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}

Considere o seguinte ao usar o tokenizador:

  • Os modelos modernos de NLP normalmente convertem uma string de texto em uma lista de tokens. Palavras frequentes, como "você" e "maçã", são tokens por si mesmas. Por outro lado, palavras raras ou longas são divididas em vários tokens, por exemplo, "uncharacteristicamente" é dissecado em quatro tokens, "un", "character", "ist" e "icalmente". Uma palavra corresponde aproximadamente a 1.2 a 1.5 tokens em média, dependendo da complexidade do domínio.

    Os tokens produzidos pelo nosso tokenizador têm uma média de 5 caracteres, sugerindo que você pode estimar aproximadamente o número de tokens dividindo o número de caracteres na string de texto por 5. Para determinar o número exato de tokens, utilize o método count_tokens().

  • Os tokenizadores da Voyage também estão disponíveis no Abraçando Face. Você pode acessar o tokenizador associado a um modelo específico usando o seguinte código:

    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large')
  • tiktoken é um tokenizador de código aberto popular. Os modelos de viagem usam tokenizadores diferentes. Portanto, nosso tokenizador gera uma lista diferente de tokens para um determinado texto em comparação com tiktoken. Estaticamente, o número de tokens produzidos pelo nosso tokenizador é, em média, 1.1 a 1.2 vezes maior que o de tiktoken. Para determinar o número exato de tokens, use o método count_tokens().

Voltar

RAG

Nesta página