Tokenização

A API de incorporação e reclassificação está na visualização. O recurso e a documentação correspondente podem mudar a qualquer momento durante o período de pré-visualização.

Dado um input, a primeira etapa do processo de incorporação e reclassificação é divisão -lo em uma lista de tokens. Nossos servidores executam automaticamente esta etapa de tokenização quando você chama a API. O cliente Python inclui métodos que permitem que você experimente o tokenizador antes de chamar a API.

`tokenize` Método

Utilize o método tokenize para tokenizar uma lista de textos para um modelo específico.

Exemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
    "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
    "Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Tokenize the texts
tokenized = vo.tokenize(texts, model="voyage-4-large")
for i in range(len(texts)):
    print(tokenized[i].tokens)

['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.']
['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']

Parâmetros

Visualize os parâmetros do método de tokenização.

Parâmetro	Tipo	Obrigatório	Descrição
`texts`	Array de strings (`List[str]`)	Sim	Uma lista de textos a serem tokenizados.
`model`	String	Sim	Nome do modelo para o qual será tokenizado. Valores válidos: `voyage-4-large`, `voyage-4`, `voyage-4-lite`, `rerank-2.5`, `rerank-2.5-lite`, `voyage-multimodal-3.5`, `voyage-multimodal-3`.

Resposta

Visualize a resposta do método de tokenização.

Este método retorna uma lista de tokenizers.Encoding objetos:

Atributo	Tipo	Descrição
`tokens`	Lista de tokenizadores.Encoding	Uma lista de objetos `tokenizers.Encoding`, cada um representando os resultados tokenizados de uma string de texto de entrada.

`count_tokens` Método

Utilize o método count_tokens para contar o número de tokens em uma lista de textos para um modelo específico.

Exemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
    "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
    "Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Count total tokens
total_tokens = vo.count_tokens(texts, model="voyage-4-large")
print(total_tokens)

Parâmetros

Visualizar os parâmetros do método count_tokens.

Parâmetro	Tipo	Obrigatório	Descrição
`texts`	Array de strings (`List[str]`)	Sim	Uma lista de textos para contar os tokens.
`model`	String	Sim	Nome do modelo para o qual ser contado. Valores válidos: `voyage-4-large`, `voyage-4`, `voyage-4-lite`, `rerank-2.5`, `rerank-2.5-lite`, `voyage-multimodal-3.5`, `voyage-multimodal-3`.

Resposta

Visualize a resposta do método count_tokens.

Este método retorna um número inteiro:

Atributo	Tipo	Descrição
`total_tokens`	Inteiro	O número total de tokens nos textos de entrada.

`count_usage` Método

Utilize o método count_usage para contar o número de tokens e pixels em uma lista de entradas para um modelo específico.

Observação

Os modelos de incorporação Voyage têm limites de comprimento de contexto. Se o seu texto exceder o limite, trunca o texto antes de chamar a API ou especifique o argumento truncation para True.

Exemplo

import voyageai
import PIL
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
# Create input with text and image
inputs = [
    ["This is a banana.", PIL.Image.open('banana.jpg')]
]
# Count tokens and pixels
usage = vo.count_usage(inputs, model="voyage-multimodal-3.5")
print(usage)

{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}

Parâmetros

Visualizar os parâmetros do método count_usage.

Parâmetro	Tipo	Obrigatório	Descrição
`inputs`	Lista de dicionários ou Lista de listas (`List[dict]` ou `List[List[Union[str, PIL.Image.Image]]]`)	Sim	Uma lista de sequências de texto, imagem e vídeo para as quais contar tokens de texto, pixels de imagem, armações de vídeo e tokens totais. Os elementos da lista seguem o mesmo formato do parâmetro `inputs` de `voyageai.Client.multimodal_embed()`, exceto pelo fato de que URLs de imagens não são suportadas. Para saber mais, consulte Incorporações multimodais.
`model`	String	Sim	Nome do modelo (que afeta como as entradas são contadas). Os modelos suportados são `voyage-multimodal-3.5` (recomendado) e `voyage-multimodal-3`. Para outros modelos que suportam somente texto, utilize a função `voyageai.Client.count_tokens()` para calcular contagens de token.

Resposta

Visualize a resposta do método count_usage.

Este método retorna um dicionário contendo os seguintes atributos:

Atributo	Tipo	Descrição
`text_tokens`	Inteiro	O número total de tokens de texto na lista de entradas.
`image_pixels`	Inteiro	O número total de pixels da imagem na lista de entradas.
`video_pixels`	Inteiro	O número total de pixels de vídeo na lista de entradas.
`total_tokens`	Inteiro	O total combinado de tokens de texto, imagem e vídeo. Cada 560 pixels de imagem conta como um token, enquanto cada 1120 pixels de vídeo conta como um token.

Considerações

Considere o seguinte ao usar o tokenizador:

Os modelos modernos de NLP normalmente convertem uma string de texto em uma lista de tokens. Palavras frequentes, como "você" e "maçã", são tokens por si mesmas. Por outro lado, palavras raras ou longas são divididas em vários tokens, por exemplo, "uncharacteristicamente" é dissecado em quatro tokens, "un", "character", "ist" e "icalmente". Uma palavra corresponde aproximadamente a 1.2 a 1.5 tokens em média, dependendo da complexidade do domínio.
Os tokens produzidos pelo nosso tokenizador têm uma média de 5 caracteres, sugerindo que você pode estimar aproximadamente o número de tokens dividindo o número de caracteres na string de texto por 5. Para determinar o número exato de tokens, utilize o método count_tokens().
Os tokenizadores da Voyage também estão disponíveis no Abraçando Face. Você pode acessar o tokenizador associado a um modelo específico usando o seguinte código:
```
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large')
```
tiktoken é um tokenizador de código aberto popular. Os modelos Voyage usam tokenizadores diferentes. Portanto, nosso tokenizador gera uma lista diferente de tokens para um determinado texto em comparação com tiktoken. Estaticamente, o número de tokens produzidos pelo nosso tokenizador é, em média, 1.1 a 1.2 vezes maior que o de tiktoken. Para determinar o número exato de tokens, use o método count_tokens().

Voltar

RAG

Dimensões flexíveis e quantização

Exemplo

Parâmetros

Resposta

count_tokens Método

Exemplo

Parâmetros

Resposta

count_usage Método

Observação

Exemplo

Parâmetros

Resposta

Considerações

`count_tokens` Método

`count_usage` Método