使用 Google Cloud Model Garden 部署 Voyage AI模型

Embedding and Reranking API处于预览版中。在预览期间，该功能和相应的文档可能随时更改。

您可以从 Google Cloud Model Garden 中探索和部署Voyage AI by MongoDB模型。

Model Garden 管理 Voyage AI by MongoDB模型的许可证，并使用按需硬件或现有 Compute Engine 预留提供部署选项。

Voyage AI by MongoDB模型是自行部署的合作模型，这意味着您需要为模型使用量和消耗的 Vertex AI基础架构付费。 Vertex AI负责处理部署并提供端点管理功能。

可用型号

要查看可以部署哪些模型，请在 Google Cloud Model Garden 中搜索“Voyage”。

要学习；了解有关 Voyage AI模型的详情，请参阅模型概述。

定价

Google Cloud Model Garden 中的 Voyage AI by MongoDB模型的定价包括：

模型使用费：使用 Voyage AI模型容器的费用，按小时计费。使用费取决于您选择用于部署的特定模型和硬件配置。有关详细的定价信息，请参阅 Google Cloud Marketplace 中模型列表页面的定价部分。
您所在地区的 Google Cloud根本的实例：特定地区的根本的Google Cloud GPU实例（例如 NVIDIA L4 、A100 或 H100 ）的费用按月计费，并按vCPU。要学习；了解更多信息，请参阅 Google Cloud Compute Engine 定价。

所有账单费用均会在您的 Google Cloud 账单上显示为使用 Vertex AI 。

要查看特定 Voyage AI模型的定价：

Go“模型花园”。

搜索模型。

在 Model Garden搜索框中搜索模型。

单击模型。

单击要查看的模型，打开其详细信息页面。

导航至定价部分。

在 Overview标签页中，滚动到 Pricing 部分。

查看详细定价。

单击链接进入该模型的 Google Cloud Marketplace 列表。列表条目中的 Pricing标签页显示详细的定价信息。

Quotas

部署Voyage AI模型时，您会消耗受配额限制的 Vertex AI资源。您可以在Quotas Google Cloud Console IAM 页面的部分查看和管理配额。有关更多信息，请参阅查看项目的配额。在同一页面中，您可以右键单击任何当前配额，单击Edit quota ，然后根据需要提交增加配额的请求。

先决条件

要开始通过 Google Cloud Vertex AI使用 Voyage AI by MongoDB模型，您必须：

设置 Google Cloud项目和开发环境。有关说明，请参阅设置项目和开发环境。
启用 Vertex AI API。有关说明，请参阅安装程序。

硬件配置

Model Garden 中的每个模型都列出了其推荐的硬件配置。有关每个 Voyage 模型的推荐硬件规格，请参阅适用于 Vertex AI的 Google Cloud Model Garden。

示例，对于 voyage-4 模型，请使用 Vertex AI Model Garden 建议的以下推荐实例进行部署。这些建议可能会发生变化，我们建议您查阅特定 Voyage AI模型的官方 Google Cloud Model Garden 页面，了解其推荐的硬件。

2a2-highgpu-1ga2-ultragpu-1g带有 A100 GPU 的 A 实例，例如或，是默认选择。
建议使用配备 H 3GPU 的实例（例如）来满足更高的性能需求。a3-highgpu-1g100

支持区域

模型花园列出了每个 Voyage AI模型的支持地区。如果您需要其他地区针对任何模型的支持，联系MongoDB支持。

最佳实践和限制

端点类型：所有 Voyage AI模型都需要专用的公共端点类型。有关更多信息，请参阅选择端点类型。
了解 input_type：查询与文档： input_type参数优化检索任务的嵌入。使用"query" 进行搜索查询，使用"document" 表示正在搜索的内容。此优化提高了检索准确性。要学习；了解有关input_type 参数的更多信息，请参阅嵌入和重新排名API概述。
使用不同的输出维度：Voyage4 模型支持多种输出维度：256 、512 、1024 （默认）和2048 。较小的维度可降低存储和计算成本，而较大的维度可提供更高的准确性。选择最能平衡准确性要求与资源限制的维度。

找到 Voyage AI模型

要在 Model Garden 中查找 Voyage AI by MongoDB模型，请执行以下操作：

Go“模型花园”。

GoModel Garden 控制台。

搜索 Voyage 模型。

在 Search Models字段中，输入“Voyage”以显示 Voyage AI by MongoDB模型列表。

注意

Google Cloud Marketplace 有两个搜索框：一个用于整个 Marketplace，另一个位于 Vertex AI Model Garden站点内。要查找 Voyage AI by MongoDB模型，请使用 Vertex AI Model Garden站点上的搜索框。

或者，您可以通过 Model Garden > Model Collections > Partner Models 导航到 Voyage AI模型，然后选择其中列出的任何 Voyage AI 模型。

您还可以向下滚动到 Task-specific solutions 以查找 Voyage AI模型，您可以按原样使用这些模型，也可以根据需要进行自定义。

在 Vertex AI中部署 Voyage AI模型

要使用 Voyage AI by MongoDB模型进行预测，您必须将其部署到私有专用端点以进行在线推理。部署将物理资源与模型关联起来，以实现低延迟和高吞吐量的在线预测。您可以将多个模型部署到一个端点，也可以将同一模型部署到多个端点。

部署模型时，请考虑以下选项：

端点位置
模型容器
计算运行模型所需的资源

部署模型后，就无法更改这些设置。如果需要修改任何部署配置，则必须取消部署模型，然后使用新设置重新部署。

Voyage AI模型需要专用的公共端点。有关更多信息，请参阅 Google Cloud Vertex AI文档中的创建公共端点。

要使用控制台在 Google Cloud Vertex AI中部署模型，请执行以下操作：

找到模型。

GoModel Garden 控制台并在字段中搜索“Voyage”，以显示Search Models Voyage AI by MongoDB模型的列表。

单击要部署的模型，打开其详细信息页面。

启用模型并接受协议。

单击Enable 。 MongoDB Marketplace 最终用户协议打开。查看并接受协议以启用模型并获取必要的商业使用许可证。

查看部署选项。

接受协议后，模型页面将显示以下选项：

Deploy a model：将模型保存到模型注册表并将其部署到 Google Cloud 中的端点。继续执行以下步骤，使用控制台进行部署。
Create an Open Notebook for Voyage Embedding Models Family：允许您在协作环境中微调和自定义模型，并混合和匹配模型以实现最佳费用和性能。请参阅适用于 Voyage AI 的Vertex AI Notebook 示例。
View Code：显示用于部署和使用模型的代码示例。要使用代码以编程方式部署，请参阅使用代码部署。

查看模型详细信息。

查看模型的地区、硬件要求、注意事项、使用案例和定价信息。

单击Deploy model 。

单击 Deploy model 按钮开始部署进程。

填写部署表。

将打开一个表单，允许您查看和编辑部署选项。 Vertex AI提供针对模型优化的默认设置，但您可以根据需要进行自定义。示例，您可以选择机器类型、GPU 类型和副本数量。以下示例显示了 voyage-4 模型的默认设置，但这些设置可能会发生变化，因此在部署之前请仔细查看设置。

字段	说明
Resource ID	从下拉菜单中选择（预选）。
Model Name	从下拉菜单中选择（预选）。
Region	选择所需的地区，例如 `us-central1`。
Endpoint name	提供端点的名称，例如 `mongodb_voyage-4_latest-mg-one-click-deploy`。
Serving spec	选择机器类型，例如 `g2-standard-4`。
Accelerator type	选择 GPU 类型，例如 `NVIDIA_L4`。
Accelerator count	指定 GPU 的数量，例如 `1`。
Replica count	指定副本的最小和最大数量，例如 `1 - 1`。
Reservation type	选择预留类型，例如 `No reservation`。
VM provisioning model	选择预配模型，例如 `Standard`。
Endpoint access	选择 Public (Dedicated endpoint) 。

查看设置。

Vertex AI会优化默认默认下显示的设置。要自定义设置，请单击 Edit settings。示例，您可以选择更强大的机器类型或 GPU。

Check quotas.

配置屏幕会显示可用的配额。如果需要，请使用指向 Quotas 的链接来管理配额。

部署模型。

单击 Deploy 开始部署进程。

等待完成。

部署完成后，您将收到通知。部署完成后，您可以单击 Google Cloud Vertex AI、Deploy、Endpoints 列表来查找您的部署。

使用代码进行部署

如果您从模型详细信息页面选择 View Code，则可以使用 Vertex AI SDK 以编程方式部署模型。这种方法可以通过代码完全控制部署配置。

有关 Google Cloud Vertex AI SDK 的更多信息，请参阅适用于Python 的Vertex AI SDK 文档。

注意

本部分中的代码示例适用于 voyage-4 模型，可能会有更改。有关最新代码示例，请参阅模型花园中模型页面上的 View Code标签页。对于其他 Voyage AI模型，代码类似，但请检查模型花园中的模型页面，了解特定于模型的详细信息。

要使用代码部署模型，请执行以下操作：

初始化模型。

首先，从 Model Garden 初始化模型并查看部署选项：

from vertexai import model_garden
MODEL_NAME = "mongodb/voyage-4@latest"
model = model_garden.OpenModel(MODEL_NAME)
deploy_options = model.list_deploy_options(concise=True)
print(deploy_options)

部署到端点。

选择是部署新模型还是使用现有端点：

# Choose whether to deploy a new model or use an existing endpoint:
deployment_option = "deploy_new"  # ["deploy_new", "use_existing"]
# If using existing endpoint, provide the endpoint ID:
ENDPOINT_ID = ""  # {type:"string"}
if deployment_option == "deploy_new":
    print("Deploying new model...")
    endpoint = model.deploy(
        machine_type="a3-highgpu-1g",
        accelerator_type="NVIDIA_H100_80GB",
        accelerator_count=1,
        accept_eula=True,
        use_dedicated_endpoint=True,
    )
    print(f"Endpoint deployed: {endpoint.display_name}")
    print(f"Endpoint resource name: {endpoint.resource_name}")
else:
    if not ENDPOINT_ID:
        raise ValueError("Please provide an ENDPOINT_ID when using existing endpoint")
    from google.cloud import aiplatform
    print(f"Connecting to existing endpoint: {ENDPOINT_ID}")
    endpoint = aiplatform.Endpoint(
        endpoint_name=f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/{ENDPOINT_ID}"
    )
    print(f"Using endpoint: {endpoint.display_name}")
    print(f"Endpoint resource name: {endpoint.resource_name}")

重要

将 use_dedicated_endpoint 设置为 True，因为 Voyage AI模型需要专用的公共端点。

Vertex AI会将模型部署到托管端点，您可以通过 Google Cloud 控制台或 Vertex AI API访问权限该端点以进行在线推理或批处理推理。

有关更多信息，请参阅 Google Cloud Vertex AI文档中的将模型部署到端点。

进行预测。

部署后，您可以使用 Vertex AI端点进行预测。

有关所有端点参数和预测选项，请参阅嵌入和重新排名API概述。

import json
# Multiple texts to embed
texts = [
    "Machine learning enables computers to learn from data.",
    "Natural language processing helps computers understand human language.",
    "Computer vision allows machines to interpret visual information.",
    "Deep learning uses neural networks with multiple layers."
]
# Prepare the batch request and make invoke call
body = {
    "input": texts,
    "output_dimension": 1024,
    "input_type": "document"
}
response = endpoint.invoke(
    request_path="/embeddings",
    body=json.dumps(body).encode("utf-8"),
    headers={"Content-Type": "application/json"}
)
# Extract embeddings
result = response.json()
embeddings = [item["embedding"] for item in result["data"]]
print(f"Number of texts embedded: {len(embeddings)}")
print(f"Embedding dimension: {len(embeddings[0])}")
print(f"\nFirst embedding (first 5 values): {embeddings[0][:5]}")
print(f"Second embedding (first 5 values): {embeddings[1][:5]}")

取消部署模型并删除端点

要删除已部署的模型及其端点，请执行以下操作：

从端点取消部署模型。
（可选）删除端点本身。

有关详细说明，请参阅 Google Cloud Vertex AI文档中的取消部署模型并删除端点。

重要

只有在从端点取消部署所有模型后，才能删除端点。取消部署模型并删除端点会停止该端点的所有推理服务和计费。

后退

Azure Marketplace