トークン化

埋め込みと再ランク付けAPI はプレビュー段階です。機能および関連するドキュメントは、プレビュー期間中にいつでも変更される可能性があります。

入力がある場合、埋め込みと再ランク付けプロセスの最初のステップは、それをトークンのリストに分裂することです。APIを呼び出すと、サーバーはこのトークン化ステップを自動的に実行します。Pythonクライアントには、 APIを呼び出す前にトークナイザを試行できるメソッドが含まれています。

`tokenize` 方式

特定のモデルのテキストのリストをトークン化するには、tokenize メソッドを使用します。

例

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
    "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
    "Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Tokenize the texts
tokenized = vo.tokenize(texts, model="voyage-4-large")
for i in range(len(texts)):
    print(tokenized[i].tokens)

['The', 'ĠMediterranean', 'Ġdiet', 'Ġemphasizes', 'Ġfish', ',', 'Ġolive', 'Ġoil', ',', 'Ġand', 'Ġvegetables', ',', 'Ġbelieved', 'Ġto', 'Ġreduce', 'Ġchronic', 'Ġdiseases', '.']
['Photos', 'ynthesis', 'Ġin', 'Ġplants', 'Ġconverts', 'Ġlight', 'Ġenergy', 'Ġinto', 'Ġglucose', 'Ġand', 'Ġproduces', 'Ġessential', 'Ġoxygen', '.']

パラメーター

トークン化メソッドのパラメーターを表示します。

Parameter	タイプ	必須	説明
`texts`	文字列の配列（`List[str]`）	はい	トークン化するテキストのリスト。
`model`	文字列	はい	トークン化するモデルの名前。有効な値は `voyage-4-large`、`voyage-4`、`voyage-4-lite`、`rerank-2.5`、`rerank-2.5-lite`、`voyage-multimodal-3.5`、`voyage-multimodal-3`

応答

tokenize メソッドのレスポンスを表示します。

このメソッドは tokenizers.Encoding オブジェクトのリストを返します。

属性	タイプ	説明
`tokens`	トークナイザのリスト。Encoding	入力テキスト string のトークン化された結果をそれぞれが表す `tokenizers.Encoding` オブジェクトのリスト。

`count_tokens` 方式

特定のモデルのテキストリスト内のトークンの数をカウントするには、count_tokens メソッドを使用します。

例

import voyageai
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
texts = [
    "The Mediterranean diet emphasizes fish, olive oil, and vegetables, believed to reduce chronic diseases.",
    "Photosynthesis in plants converts light energy into glucose and produces essential oxygen."
]
# Count total tokens
total_tokens = vo.count_tokens(texts, model="voyage-4-large")
print(total_tokens)

パラメーター

count_tokens メソッドのパラメーターを表示します。

Parameter	タイプ	必須	説明
`texts`	文字列の配列（`List[str]`）	はい	トークンをカウントするテキストのリスト。
`model`	文字列	はい	カウントするモデルの名前。有効な値は `voyage-4-large`、`voyage-4`、`voyage-4-lite`、`rerank-2.5`、`rerank-2.5-lite`、`voyage-multimodal-3.5`、`voyage-multimodal-3`

応答

count_tokens メソッドのレスポンスを表示します。

このメソッドは整数を返します。

属性	タイプ	説明
`total_tokens`	整数	入力テキスト内のトークンの合計数。

`count_usage` 方式

特定のモデルの入力リスト内のトークンとドットの数をカウントするには、 count_usage メソッドを使用します。

注意

Voyage 埋め込みモデルにはコンテキストの長さ制限があります。テキストが制限を超える場合は、 APIを呼び出す前にテキストを切り捨てるか、True への truncation 引数を指定します。

例

import voyageai
import PIL
# Initialize client (uses VOYAGE_API_KEY environment variable)
vo = voyageai.Client()
# Create input with text and image
inputs = [
    ["This is a banana.", PIL.Image.open('banana.jpg')]
]
# Count tokens and pixels
usage = vo.count_usage(inputs, model="voyage-multimodal-3.5")
print(usage)

{'text_tokens': 5, 'image_pixels': 2000000, 'total_tokens': 3576}

パラメーター

count_usage メソッドのパラメーターを表示します。

Parameter	タイプ	必須	説明
`inputs`	辞書のリストまたはリストのリスト（`List[dict]` または `List[List[Union[str, PIL.Image.Image]]]`）	はい	テキストトークン、イメージドット、ビデオフレーム、合計トークンをカウントするテキスト、イメージ、ビデオシーケンスのリスト。リスト要素は、イメージ URL がサポートされていないことを除いて、`voyageai.Client.multimodal_embed()` の `inputs` パラメータと同じ形式に従います。詳細については、マルチモーダル埋め込みを参照してください。
`model`	文字列	はい	モデルの名前（入力のカウント方法に影響する）。サポートされているモデルは、`voyage-multimodal-3.5`（推奨）と `voyage-multimodal-3` です。テキストのみをサポートする他のモデルでは、`voyageai.Client.count_tokens()` 関数を使用してトークン数を計算します。

応答

count_usage メソッドのレスポンスを表示します。

このメソッドは、次の属性を含む辞書を返します。

属性	タイプ	説明
`text_tokens`	整数	入力リスト内のテキストトークンの合計数。
`image_pixels`	整数	入力リスト内のイメージドットの合計数。
`video_pixels`	整数	入力リスト内のビデオドットの合計数。
`total_tokens`	整数	テキスト、画像、ビデオトークンの合計。すべての 560 イメージドットはトークンとしてカウントされ、すべての 1120 ビデオドットはトークンとしてカウントされます。

Considerations

トークナイザを使用する場合は、次の点を考慮してください。

最新の NHP モデルは通常、テキスト string をトークンのリストに変換します。「自分」や「Apple」などの使用頻度の高い単語は、単独でトークンになります。対照的に、まれに使われる単語や長い単語は複数のトークンに分割されます。例、「un characters」は 4 つのトークンに分割され、"un"、" characters"、"list"、" イベントで" となります。1 単語は、ドメインの複雑度に応じて、平均 1.2 から 1.5 トークンにほぼ対応します。
トークナイザによって生成されたトークンの平均は 5 文字であり、テキスト string の文字数を 5 で割るとトークン数をおおよそ推定できます。トークンの正確な数を判別するには、count_tokens() メソッドを使用します。
Voyage のトークナイザは、Hugging Face でも利用できます。次のコードを使用して、特定のモデルに関連付けられているトークナイザにアクセスできます。
```
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('voyageai/voyage-4-large')
```
tiktoken は、一般的なオープンソーストークナイザです。Voyageモデルでは異なるトークナイザが使用されます。そのため、トークナイザは、特定のテキストに対して、tiktoken とは異なるトークンのリストを生成します。統計的に、当社のトークナイザが生成するトークンの数は平均 1.1 から 1.2 の tiktoken 倍であり、トークンの正確な数を判別するには、count_tokens() メソッドを使用します。

戻る

RAG

柔軟な次元と数量化

例

パラメーター

応答

count_tokens 方式

例

パラメーター

応答

count_usage 方式

注意

例

パラメーター

応答

Considerations

`count_tokens` 方式

`count_usage` 方式