Dado um input, a primeira etapa do processo de incorporação e reclassificação é divisão -lo em uma lista de tokens. Nossos servidores executam automaticamente esta etapa de tokenização quando você chama a API. O cliente Python inclui métodos que permitem que você experimente o tokenizador antes de chamar a API.
tokenize Método
Utilize o método tokenize para tokenizar uma lista de textos para um modelo específico.
Exemplo
import voyageai # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() texts = [ "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.", "Photosynthesis in plants converts light energy into glucose and produces essential oxygen." ] # Tokenize the texts tokenized = vo.tokenize(texts, model="voyage-4-large") for i in range(len(texts)): print(tokenized[i].tokens)
['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.'] ['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Array de strings ( | Sim | Uma lista de textos a serem tokenizados. |
| String | Sim | Nome do modelo para o qual será tokenizado. Valores válidos: |
Este método retorna uma lista de tokenizers.Encoding objetos:
Atributo | Tipo | Descrição |
|---|---|---|
| Lista de tokenizadores.Encoding | Uma lista de objetos |
count_tokens Método
Utilize o método count_tokens para contar o número de tokens em uma lista de textos para um modelo específico.
Exemplo
import voyageai # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() texts = [ "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.", "Photosynthesis in plants converts light energy into glucose and produces essential oxygen." ] # Count total tokens total_tokens = vo.count_tokens(texts, model="voyage-4-large") print(total_tokens)
32
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Array de strings ( | Sim | Uma lista de textos para contar os tokens. |
| String | Sim | Nome do modelo para o qual ser contado. Valores válidos: |
count_usage Método
Utilize o método count_usage para contar o número de tokens e pixels em uma lista de entradas para um modelo específico.
Observação
Os modelos de incorporação Voyage têm limites de comprimento de contexto. Se o seu texto exceder o limite, trunca o texto antes de chamar a API ou especifique o argumento truncation para True.
Exemplo
import voyageai import PIL # Initialize client (uses VOYAGE_API_KEY environment variable) vo = voyageai.Client() # Create input with text and image inputs = [ ["This is a banana.", PIL.Image.open('banana.jpg')] ] # Count tokens and pixels usage = vo.count_usage(inputs, model="voyage-multimodal-3.5") print(usage)
{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| Lista de dicionários ou Lista de listas ( | Sim | Uma lista de sequências de texto, imagem e vídeo para as quais contar tokens de texto, pixels de imagem, armações de vídeo e tokens totais. Os elementos da lista seguem o mesmo formato do parâmetro |
| String | Sim | Nome do modelo (que afeta como as entradas são contadas). Os modelos suportados são |
Este método retorna um dicionário contendo os seguintes atributos:
Atributo | Tipo | Descrição |
|---|---|---|
| Inteiro | O número total de tokens de texto na lista de entradas. |
| Inteiro | O número total de pixels da imagem na lista de entradas. |
| Inteiro | O número total de pixels de vídeo na lista de entradas. |
| Inteiro | O total combinado de tokens de texto, imagem e vídeo. Cada 560 pixels de imagem conta como um token, enquanto cada 1120 pixels de vídeo conta como um token. |
Considerações
Considere o seguinte ao usar o tokenizador:
Os modelos modernos de NLP normalmente convertem uma string de texto em uma lista de tokens. Palavras frequentes, como "você" e "maçã", são tokens por si mesmas. Por outro lado, palavras raras ou longas são divididas em vários tokens, por exemplo, "uncharacteristicamente" é dissecado em quatro tokens, "un", "character", "ist" e "icalmente". Uma palavra corresponde aproximadamente a 1.2 a 1.5 tokens em média, dependendo da complexidade do domínio.
Os tokens produzidos pelo nosso tokenizador têm uma média de 5 caracteres, sugerindo que você pode estimar aproximadamente o número de tokens dividindo o número de caracteres na string de texto por 5. Para determinar o número exato de tokens, utilize o método
count_tokens().Os tokenizadores da Voyage também estão disponíveis no Abraçando Face. Você pode acessar o tokenizador associado a um modelo específico usando o seguinte código:
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large') tiktokené um tokenizador de código aberto popular. Os modelos Voyage usam tokenizadores diferentes. Portanto, nosso tokenizador gera uma lista diferente de tokens para um determinado texto em comparação comtiktoken. Estaticamente, o número de tokens produzidos pelo nosso tokenizador é, em média, 1.1 a 1.2 vezes maior que o detiktoken. Para determinar o número exato de tokens, use o métodocount_tokens().