Dado um input, a primeira etapa do processo de incorporação e reclassificação é divisão -lo em uma lista de tokens. Nossos servidores executam automaticamente esta etapa de tokenização quando você chama a API. O cliente Python inclui métodos que permitem que você experimente o tokenizador antes de chamar a API.
tokenize Método
Utilize o método tokenize para tokenizar uma lista de textos para um modelo específico.
Exemplo
import voyageai # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() texts = [ "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.", "Photosynthesis in plants converts light energy into glucose and produces essential oxygen." ] # Tokenize the texts tokenized = vo.tokenize(texts, model="voyage-4-large") for i in range(len(texts)): print(tokenized[i].tokens)
['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.'] ['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Array de strings ( | Sim | Uma lista de textos a serem tokenizados. |
| String | Sim | Nome do modelo para o qual será tokenizado. Valores válidos: |
Este método retorna uma lista de tokenizers.Encoding objetos:
Atributo | Tipo | Descrição |
|---|---|---|
| Lista de tokenizadores.Encoding | Uma lista de objetos |
count_tokens Método
Utilize o método count_tokens para contar o número de tokens em uma lista de textos para um modelo específico.
Exemplo
import voyageai # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() texts = [ "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.", "Photosynthesis in plants converts light energy into glucose and produces essential oxygen." ] # Count total tokens total_tokens = vo.count_tokens(texts, model="voyage-4-large") print(total_tokens)
32
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Array de strings ( | Sim | Uma lista de textos para contar os tokens. |
| String | Sim | Nome do modelo para o qual ser contado. Valores válidos: |
count_usage Método
Utilize o método count_usage para contar o número de tokens e pixels em uma lista de entradas para um modelo específico.
Observação
Os modelos de incorporação de viagem têm limites de comprimento de contexto. Se o seu texto exceder o limite, trunca o texto antes de chamar a API ou especifique o truncation argumento True para.
Exemplo
import voyageai import PIL # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() # Create input with text and image inputs = [ ["This is a banana.", PIL.Image.open('banana.jpg')] ] # Count tokens and pixels usage = vo.count_usage(inputs, model="voyage-multimodal-3.5") print(usage)
{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Lista de dicionários ou Lista de listas ( | Sim | Uma lista de sequências de texto, imagem e vídeo para as quais contar tokens de texto, pixels de imagem, armações de vídeo e tokens totais. Os elementos da lista seguem o mesmo formato do |
| String | Sim | Nome do modelo (que afeta como as entradas são contadas). Os modelos suportados são |
Este método retorna um dicionário contendo os seguintes atributos:
Atributo | Tipo | Descrição |
|---|---|---|
| Inteiro | O número total de tokens de texto na lista de entradas. |
| Inteiro | O número total de pixels da imagem na lista de entradas. |
| Inteiro | O número total de pixels de vídeo na lista de entradas. |
| Inteiro | O total combinado de tokens de texto, imagem e vídeo. Cada 560 pixels de imagem conta como um token, enquanto cada 1120 pixels de vídeo conta como um token. |
Considerações
Considere o seguinte ao usar o tokenizador:
Os modelos modernos de NLP normalmente convertem uma string de texto em uma lista de tokens. Palavras frequentes, como "você" e "maçã", são tokens por si mesmas. Por outro lado, palavras raras ou longas são divididas em vários tokens, por exemplo, "uncharacteristicamente" é dissecado em quatro tokens, "un", "character", "ist" e "icalmente". Uma palavra corresponde aproximadamente a 1.2 a 1.5 tokens em média, dependendo da complexidade do domínio.
Os tokens produzidos pelo nosso tokenizador têm uma média de 5 caracteres, sugerindo que você pode estimar aproximadamente o número de tokens dividindo o número de caracteres na string de texto por 5. Para determinar o número exato de tokens, utilize o método
count_tokens().Os tokenizadores da Voyage também estão disponíveis no Abraçando Face. Você pode acessar o tokenizador associado a um modelo específico usando o seguinte código:
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large') tiktokené um tokenizador de código aberto popular. Os modelos de viagem usam tokenizadores diferentes. Portanto, nosso tokenizador gera uma lista diferente de tokens para um determinado texto em comparação comtiktoken. Estaticamente, o número de tokens produzidos pelo nosso tokenizador é, em média, 1.1 a 1.2 vezes maior que o detiktoken. Para determinar o número exato de tokens, use o métodocount_tokens().