レート制限の管理

埋め込みと再ランク付けAPI はプレビュー段階です。機能および関連するドキュメントは、プレビュー期間中にいつでも変更される可能性があります。

レート制限は、指定された期間内に Voyage AIからリクエストできるトークンの頻度と数の制限です。レート制限の詳細については、ベストプラクティスを参照してください。

Atlas はモデルAPIキーの使用量（1 分あたりのリクエスト（RPM）と 1 分あたりのトークン数（TPM））に基づいてレート制限を強制します。直近 1 分間のリクエストまたはトークンの数を超えると、API は後続の追加リクエストを拒否し、429（レート制限を超え） HTTPステータスコードを返します。

レート制限の管理

次のセクションでは、 Atlas UIでレート制限を管理する方法について説明します。

必要な権限

プロジェクトレベルでレート制限を設定およびリセットするには、Atlas への Project Owner 以上のアクセス権が必要です。

レート制限を表示するには

組織レベルとプロジェクトレベルで、Atlas への Organization Read Only 以上のアクセス権が必要です。
プロジェクトレベルのみで、Atlas への Project Read Only 以上のアクセス権が必要です。

レート制限の設定

プロジェクトレベルでは、プロジェクトごとに異なる制限を設定できます。プロジェクトレベルのレート制限は、組織のレート制限を超えることはできません。プロジェクトレベルで設定されたレート制限は、プロジェクトのすべてのモデルAPIキーに適用されます。

Atlas にログインします。

Atlas UIの AI Models ページにGo。

まだ表示されていない場合は、以下から目的の組織を選択しますナビゲーションバーのOrganizationsメニュー
まだ表示されていない場合は、ナビゲーションバーのProjectsメニューから目的のプロジェクトを選択します。
プロジェクトレベルで、ナビゲーションバーの Services ヘッダーの下の AI Models をクリックします。

プロジェクトのレート制限を設定します。

ナビゲーションバーから Rate Limits を選択します。
レート制限を変更する埋め込みモデルに対応する Actions 列で、をクリックします。
TPM と RPM の値を変更します。
各モデルのプロジェクトレベルのレート制限は、組織のレート制限以下の任意の値に設定できます。
例
使用階層 1 では、プロジェクトの voyage-4 埋め込みモデルのレート制限を 2000 RPM および 8,000,000 TPM 以下に設定できます。
レート制限を適用するには、をクリックします。

レート制限の表示

レート制限は、組織とプロジェクトレベルで表示できます。

Atlas にログインします。

Atlas UIの AI Models ページにGo。

まだ表示されていない場合は、以下から目的の組織を選択しますナビゲーションバーのOrganizationsメニュー
組織レベルで、ナビゲーションバーの Services ヘッダーの下の Rate Limits をクリックします。

ページには、次の情報が表示されます。

名前	説明
Model	Voyage AI埋め込みモデルのリスト。
Tokens Per Minute (TPM)	埋め込み API エンドポイントとなる接続されたデバイスおよび再ランク付けAPIエンドポイントとなる接続されたデバイスから 1 分以内にリクエスト可能なトークンの数。
Requests Per Min (RPM)	埋め込み API エンドポイントとなる接続されたデバイスと再ランク付けAPIエンドポイントとなる接続されたデバイスに 1 分以内に送信できるAPIリクエストの数。

Atlas にログインします。

Atlas UIの AI Models ページにGo。

まだ表示されていない場合は、以下から目的の組織を選択しますナビゲーションバーのOrganizationsメニュー
まだ表示されていない場合は、ナビゲーションバーのProjectsメニューから目的のプロジェクトを選択します。
プロジェクトレベルで、ナビゲーションバーの Services ヘッダーの下の AI Models をクリックします。

左側のナビゲーションから Rate Limits を選択します。

ページには、レート制限に関する次の情報が表示されます。

列名	列の説明
Model	Voyage AI埋め込みモデルのリスト。
Tokens Per Minute (TPM)	Voyage AI Embedding および Reranking API エンドポイントから 1 分以内にリクエストできるトークンの数。
Requests Per Min (RPM)	1 分以内に Voyage AI埋め込みと検索APIエンドポイントに送信できるリクエストの数。
Actions	実行可能なアクション。ここでは、次の作業が可能です。プロジェクトの 1 分あたりのトークンとリクエストの数を減らします。設定しながら、1 分あたりのカスタム数のトークンとリクエストを元に戻します。

カスタム制限を設定している場合、ページにはすべてのカスタムレート制限を組織のデフォルトに戻すための Reset all limits ボタンも表示されます。

すべてのレート制限をリセット

プロジェクトに設定したすべてのカスタム制限はいつでもリセットできます。制限をリセットすると、プロジェクトのレート制限は組織のデフォルトのレート制限に戻ります。

Atlas にログインします。

Atlas UIの AI Models ページにGo。

まだ表示されていない場合は、以下から目的の組織を選択しますナビゲーションバーのOrganizationsメニュー
まだ表示されていない場合は、ナビゲーションバーのProjectsメニューから目的のプロジェクトを選択します。
プロジェクトレベルで、ナビゲーションバーの Services ヘッダーの下の AI Models をクリックします。

カスタムレート制限をリセットします。

ナビゲーションバーから Rate Limits を選択します。
ページで、右上隅の Reset all limits をクリックします。

使用階層

レート制限は階層化されたシステムに従い、上位階層では制限が大きくなります。階層の資格は、請求使用量（無料トークンを除く）に基づいています。Atlas は各モデルに対して 20000 万の無料トークンを提供します。マルチモーダルモデルには、15000 億の無料ドットも含まれています。一度階層の資格を取得すると、ダウングレードされることはありません。使用量と支出が増加すると、Atlas は自動的に次の使用階層に引き上げ、すべてのモデルでレート制限を引き上げます。

詳細については、「レート制限と使用状況階層」を参照してください。

デフォルトのレート制限

このセクションでは、組織レベルで適用される各使用階層のデフォルトのレート制限について説明します。また、各プロジェクトに対して設定できるレート制限について説明します。

組織レート制限

次の表は、各Voyage AI埋め込みモデルの使用階層に基づくデフォルトのレート制限（TPM および RPM）を示しています。

モデル	Tokens Per Min (TPM)	1 分あたりのリクエスト数（RPM）
`voyage-4-lite`, `voyage-3.5-lite`	16,000,000	2,000
`voyage-4`, `voyage-3.5`	8,000,000	2,000
`voyage-4-large`	3,000,000	2,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	3,000,000	2,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	2,000,000	2,000
`rerank-2-lite`, `rerank-2.5-lite`	4,000,000	2,000
`rerank-2`, `rerank-2.5`	2,000,000	2,000

使用階層 2 のレート制限は、使用階層 1 の 2 倍です。

モデル	Tokens Per Min (TPM)	1 分あたりのリクエスト数（RPM）
`voyage-4-lite`, `voyage-3.5-lite`	32,000,000	4,000
`voyage-4`, `voyage-3.5`	16,000,000	4,000
`voyage-4-large`	6,000,000	4,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	6,000,000	4,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	4,000,000	4,000
`rerank-2-lite`, `rerank-2.5-lite`	8,000,000	4,000
`rerank-2`, `rerank-2.5`	4,000,000	4,000

使用階層 3 のレート制限は、使用階層 1 の 3 倍です。

モデル	Tokens Per Min (TPM)	1 分あたりのリクエスト数（RPM）
`voyage-4-lite`, `voyage-3.5-lite`	48,000,000	6,000
`voyage-4`, `voyage-3.5`	24,000,000	6,000
`voyage-4-large`	9,000,000	6,000
`voyage-3-large`, `voyage-context-3`, `voyage-code-3`, `voyage-code-2`, `voyage-law-2`, `voyage-finance-2`	9,000,000	6,000
`voyage-multimodal-3.5`, `voyage-multimodal-3`	6,000,000	6,000
`rerank-2-lite`, `rerank-2.5-lite`	12,000,000	6,000
`rerank-2`, `rerank-2.5`	6,000,000	6,000

プロジェクトレートの制限

デフォルトでは、プロジェクトは組織のレート制限に基づいてレート制限を継承します。ただし、プロジェクトレベルではプロジェクトごとに異なる制限を設定できます。プロジェクトレベルのレート制限は、組織のレート制限を超えることはできません。プロジェクトレベルで設定されたレート制限は、プロジェクトのすべてのモデルAPIキーに適用されます。ただし、組織のレート制限に最初に達した場合、プロジェクトはより低いレートに制限される可能性があります。これは、すべてのプロジェクトレート制限の合計が組織の制限を超える場合に発生する可能性があります。

例

レート制限 P1 、P2 、P3 を持つ 3 つのプロジェクトを持つ組織レート制限 O を検討します。以下の表は、プロジェクトのレート制限の合計が組織のレート制限以下であるか、組織のレート制限より大きい 3 つのシナリオを示しています。各シナリオごとに、組織の制限に達できるかどうか、およびプロジェクトの使用が別のプロジェクトに影響かどうかを示します。

	Scenario 1 P1 + P2 + P3 < O	Scenario 2 P1 + P2 + P3 = O	Scenario 3 P1 + P2 + P3 > O
シナリオの説明	すべてのプロジェクトレート制限の合計が組織の制限より小さいです。	すべてのプロジェクトレート制限の合計は、組織の制限と等しくなります。	すべてのプロジェクトレート制限の合計が組織の制限を超えています。
組織の制限に達できますか。	いいえ、すべてのプロジェクトがレート制限に達した場合でも、組織のレート制限は超えることはありません。	はい、すべてのプロジェクトがレート制限に達すると、組織の制限にも達します。	はい、すべてのプロジェクトレート制限の合計が組織の制限を超えるため、個々のプロジェクトが自分の制限に達する前に組織の制限に達する可能性があります。
あるプロジェクトの使用は、他のプロジェクトに影響を与えますか。	No.	No.	はい。プロジェクトが個別の制限に達する前に、組織の制限に達するのに十分な使用量を消費する場合、プロジェクトは個々の制限よりも低いレートに制限できます。

ベストプラクティス

レート制限により、APIのリソースのバランスの取れた効率的な使用が確保され、サービス全体のパフォーマンスとアクセスに影響可能性のある過剰なトラフィックを防ぎます。具体的には、レート制限は次の重要な目的で役立ちます。

レート制限により、すべてのユーザーがAPIに均等にアクセスできるようになります。1 つの個人または組織が過剰な量のリクエストを生成すると、他のユーザーのAPIのパフォーマンスが影響を受ける可能性があります。レート制限により、より多くのユーザーがパフォーマンスの問題が発生することなくAPIを利用できるようになります。
レート制限により、Voyage AI はインフラストラクチャ上のワークロードを効果的に管理できるようになります。およびAPIリクエストの大幅な急増により、サーバーのリソースに負担がかかり、パフォーマンスの低下につながる恐れがあります。レート制限を設定することで、Voyage AI はすべてのユーザーに対してコンシステントな信頼性の高いエクスペリエンスを効果的に維持できます。
これらはAPIの潜在的な誤使用または誤使用を防ぐために機能します。インスタンス、悪意のあるアクターは、過剰なリクエストでAPIを埋め込み、過剰な負荷を与えたり、そのサービスを中断しようとしたりする可能性があります。レート制限を設定することで、Voyage AI はこのような望ましくないアクティビティを回避できます。

レート制限エラーを回避および管理するために、次のベストプラクティスを使用することをお勧めします。

大きなバッチを使用する

埋め込むドキュメントが多い場合は、リクエストごとに埋め込むドキュメントの数を増やし、より大きなバッチを送信することで全体的なスループットを向上させることができます。「バッチする」は 1 回のリクエストに埋め込むドキュメントのコレクションであり、「バッチするサイズ」はバッチする内のドキュメントの数、つまりドキュメントのリストの長さを意味します。

例

512 ドキュメントをベクトル化するとします。1 のバッチするサイズを使用した場合、これには 512 リクエストが必要になり、RPM 制限に達する可能性があります。ただし、128 のバッチするサイズを使用した場合は、4 リクエストのみが必要になり、RPM 制限に達することはありません。リクエストで提供するドキュメント数を変更することでバッチするサイズを制御できます。バッチするサイズを使用すると、特定のドキュメント数の全体的な RPM が削減されます。

バッチするサイズを選択する際には、API の最大バッチするサイズとトークンを考慮する必要があります。API の最大バッチするサイズを超えることはできません。より長いドキュメントがある場合、リクエストあたりのトークン制限によって小さなバッチするサイズに制約される可能性があります。

待機期間の設定

リクエストの頻度を減らします。リクエストをページ分割することで、これを実現できます。最も簡単なアプローチとして、各リクエストの間に待機期間を挿入する方法があります。

指数バックオフの実行

レート制限に達したら、バックオフします（つまり、429 エラーを受け取ります）。レート制限エラーを受け取った後、再度試行する前に、時間が指数的に増加するのを待ってください。リクエストが成功するまで、または最大再試行回数に達するまで待機します。

例

最初の待機時間が 1 秒で、成功する前に 3 回連続でレート制限エラーが発生した場合は、リクエストを再送信する前に、それぞれ 1 秒、2 秒、4 秒後に待機します。

戻る

使用状況のモニター

請求

レート制限の管理

必要な権限

レート制限の設定

Atlas にログインします。

Atlas UIの .leafygreen-ui-8n27nz{font-style:normal;font-weight:700;}AI Models ページにGo。

プロジェクトのレート制限を設定します。

例

レート制限の表示

Atlas にログインします。

Atlas UIの AI Models ページにGo。

Atlas にログインします。

Atlas UIの AI Models ページにGo。

左側のナビゲーションから Rate Limits を選択します。

すべてのレート制限をリセット

Atlas にログインします。

Atlas UIの AI Models ページにGo。

カスタム レート制限をリセットします。

使用階層

デフォルトのレート制限

組織レート制限

プロジェクト レートの制限

例

ベストプラクティス

大きなバッチを使用する

例

待機期間の設定

指数バックオフの実行

例

Atlas UIの AI Models ページにGo。

カスタムレート制限をリセットします。

プロジェクトレートの制限