Docs Menu
Docs Home
/

Tokenización

Dada una entrada, el primer paso del proceso de incrustación y reclasificación es dividirla en una lista de Tokens. Nuestros servidores realizan automáticamente este paso de tokenización al llamar a la API. El cliente Python incluye métodos que permiten probar el tokenizador antes de llamar a la API.

Utilice el método tokenize para tokenizar una lista de textos para un modelo específico.

Ejemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
"The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
"Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Tokenize the texts
tokenized = vo.tokenize(texts, model="voyage-4-large")
for i in range(len(texts)):
print(tokenized[i].tokens)
['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.']
['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']

Utilice el método count_tokens para contar la cantidad de tokens en una lista de textos para un modelo específico.

Ejemplo

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
"The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
"Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Count total tokens
total_tokens = vo.count_tokens(texts, model="voyage-4-large")
print(total_tokens)
32

Utilice el método count_usage para contar la cantidad de tokens y píxeles en una lista de entradas para un modelo específico.

Nota

Los modelos de incrustación de viajes tienen límites de longitud de contexto. Si el texto supera el límite, trunca el texto antes de llamar a la API o especifica el truncation argumento True en.

Ejemplo

import voyageai
import PIL
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
# Create input with text and image
inputs = [
["This is a banana.", PIL.Image.open('banana.jpg')]
]
# Count tokens and pixels
usage = vo.count_usage(inputs, model="voyage-multimodal-3.5")
print(usage)
{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}

Tenga en cuenta lo siguiente al utilizar el tokenizador:

  • Los modelos modernos de PLN suelen convertir una cadena de texto en una lista de tokens. Palabras frecuentes, como "tú" y "manzana", son tokens por sí mismas. En cambio, las palabras raras o largas se dividen en múltiples tokens; por ejemplo, "uncharacteristically" se divide en cuatro tokens: "un", "character", "ist" y "ically". Una palabra corresponde aproximadamente a un promedio de 1.2 a 1.5 tokens, dependiendo de la complejidad del dominio.

    Los tokens generados por nuestro tokenizador tienen un promedio de 5 caracteres, lo que sugiere que se puede estimar aproximadamente el número de tokens dividiendo el número de caracteres de la cadena de texto entre 5. Para determinar el número exacto de tokens, utilice el método count_tokens().

  • Los tokenizadores de Voyage también están disponibles en Hugging Face. Puedes acceder al tokenizador asociado a un modelo específico usando el siguiente código:

    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large')
  • tiktoken Es un popular tokenizador de código abierto. Los modelos de viaje utilizan diferentes tokenizadores. Por lo tanto, nuestro tokenizador genera una lista de tokens diferente para un texto dado que tiktoken. Estadísticamente, la cantidad de tokens generados por nuestro tokenizador es, en promedio, de 1.1 a 1.2 veces mayor que tiktoken. Para determinar la cantidad exacta de tokens, utilice el método count_tokens().

Volver

RAG

En esta página