您可以从 Google Cloud Model Garden 中探索和部署Voyage AI by MongoDB模型。
Model Garden 管理 Voyage AI by MongoDB模型的许可证,并使用按需硬件或现有 Compute Engine 预留提供部署选项。
Voyage AI by MongoDB模型是自行部署的合作模型,这意味着您需要为模型使用量和消耗的 Vertex AI基础架构付费。 Vertex AI负责处理部署并提供端点管理功能。
可用型号
要查看可以部署哪些模型,请在 Google Cloud Model Garden 中搜索“Voyage”。
要学习;了解有关 Voyage AI模型的详情,请参阅 模型概述。
定价
Google Cloud Model Garden 中的 Voyage AI by MongoDB模型的定价包括:
模型使用费:使用 Voyage AI模型容器的费用,按小时计费。使用费取决于您选择用于部署的特定模型和硬件配置。有关详细的定价信息,请参阅 Google Cloud Marketplace 中模型列表页面的定价部分。
您所在地区的 Google Cloud根本的实例:特定地区的根本的Google Cloud GPU实例(例如 NVIDIA L4 、A100 或 H100 )的费用按月计费,并按vCPU。要学习;了解更多信息,请参阅 Google Cloud Compute Engine 定价。
所有账单费用均会在您的 Google Cloud 账单上显示为使用 Vertex AI 。
要查看特定 Voyage AI模型的定价:
Quotas
部署Voyage AI模型时,您会消耗受配额限制的 Vertex AI资源。您可以在Quotas Google Cloud Console IAM 页面的 部分查看和管理配额。有关更多信息,请参阅查看项目的配额。在同一页面中,您可以右键单击任何当前配额,单击Edit quota ,然后根据需要提交增加配额的请求。
先决条件
要开始通过 Google Cloud Vertex AI使用 Voyage AI by MongoDB模型,您必须:
硬件配置
Model Garden 中的每个模型都列出了其推荐的硬件配置。有关每个 Voyage 模型的推荐硬件规格,请参阅适用于 Vertex AI的 Google Cloud Model Garden。
示例,对于 voyage-4 模型,请使用 Vertex AI Model Garden 建议的以下推荐实例进行部署。这些建议可能会发生变化,我们建议您查阅特定 Voyage AI模型的官方 Google Cloud Model Garden 页面,了解其推荐的硬件。
2
a2-highgpu-1ga2-ultragpu-1g带有 A100 GPU 的 A 实例,例如 或 ,是默认选择。建议使用配备 H 3GPU 的 实例(例如 )来满足更高的性能需求。
a3-highgpu-1g100
支持区域
模型花园列出了每个 Voyage AI模型的支持地区。如果您需要其他地区针对任何模型的支持,联系MongoDB支持。
最佳实践和限制
了解 input_type:查询与文档:
input_type参数优化检索任务的嵌入。使用"query"进行搜索查询,使用"document"表示正在搜索的内容。此优化提高了检索准确性。要学习;了解有关input_type参数的更多信息,请参阅嵌入和重新排名API概述。使用不同的输出维度:Voyage4 模型支持多种输出维度:256 、512 、1024 (默认)和2048 。较小的维度可降低存储和计算成本,而较大的维度可提供更高的准确性。选择最能平衡准确性要求与资源限制的维度。
找到 Voyage AI模型
要在 Model Garden 中查找 Voyage AI by MongoDB模型,请执行以下操作:
搜索 Voyage 模型。
在 Search Models字段中,输入“Voyage”以显示 Voyage AI by MongoDB模型列表。
注意
Google Cloud Marketplace 有两个搜索框:一个用于整个 Marketplace,另一个位于 Vertex AI Model Garden站点内。要查找 Voyage AI by MongoDB模型,请使用 Vertex AI Model Garden站点上的搜索框。
或者,您可以通过 Model Garden > Model Collections > Partner Models 导航到 Voyage AI模型,然后选择其中列出的任何 Voyage AI 模型。
您还可以向下滚动到 Task-specific solutions 以查找 Voyage AI模型,您可以按原样使用这些模型,也可以根据需要进行自定义。
在 Vertex AI中部署 Voyage AI模型
要使用 Voyage AI by MongoDB模型进行预测,您必须将其部署到私有专用端点以进行在线推理。部署将物理资源与模型关联起来,以实现低延迟和高吞吐量的在线预测。您可以将多个模型部署到一个端点,也可以将同一模型部署到多个端点。
部署模型时,请考虑以下选项:
端点位置
模型容器
计算运行模型所需的资源
部署模型后,就无法更改这些设置。如果需要修改任何部署配置,则必须取消部署模型,然后使用新设置重新部署。
Voyage AI模型需要专用的公共端点。有关更多信息,请参阅 Google Cloud Vertex AI文档中的创建公共端点。
要使用控制台在 Google Cloud Vertex AI中部署模型,请执行以下操作:
找到模型。
GoModel Garden 控制台并在 字段中搜索“Voyage”,以显示Search Models Voyage AI by MongoDB模型的列表。
启用模型并接受协议。
单击Enable 。 MongoDB Marketplace 最终用户协议打开。查看并接受协议以启用模型并获取必要的商业使用许可证。
查看部署选项。
接受协议后,模型页面将显示以下选项:
Deploy a model:将模型保存到模型注册表并将其部署到 Google Cloud 中的端点。继续执行以下步骤,使用控制台进行部署。
Create an Open Notebook for Voyage Embedding Models Family:允许您在协作环境中微调和自定义模型,并混合和匹配模型以实现最佳费用和性能。请参阅适用于 Voyage AI 的Vertex AI Notebook 示例。
填写部署表。
将打开一个表单,允许您查看和编辑部署选项。 Vertex AI提供针对模型优化的默认设置,但您可以根据需要进行自定义。示例,您可以选择机器类型、GPU 类型和副本数量。以下示例显示了 voyage-4 模型的默认设置,但这些设置可能会发生变化,因此在部署之前请仔细查看设置。
字段 | 说明 |
|---|---|
Resource ID | 从下拉菜单中选择(预选)。 |
Model Name | 从下拉菜单中选择(预选)。 |
Region | 选择所需的地区,例如 |
Endpoint name | 提供端点的名称,例如 |
Serving spec | 选择机器类型,例如 |
Accelerator type | 选择 GPU 类型,例如 |
Accelerator count | 指定 GPU 的数量,例如 |
Replica count | 指定副本的最小和最大数量,例如 |
Reservation type | 选择预留类型,例如 |
VM provisioning model | 选择预配模型,例如 |
Endpoint access | 选择 Public (Dedicated endpoint) 。 |
使用代码进行部署
如果您从模型详细信息页面选择 View Code,则可以使用 Vertex AI SDK 以编程方式部署模型。这种方法可以通过代码完全控制部署配置。
有关 Google Cloud Vertex AI SDK 的更多信息,请参阅适用于Python 的Vertex AI SDK 文档。
注意
本部分中的代码示例适用于 voyage-4 模型,可能会有更改。有关最新代码示例,请参阅模型花园中模型页面上的 View Code标签页。对于其他 Voyage AI模型,代码类似,但请检查模型花园中的模型页面,了解特定于模型的详细信息。
要使用代码部署模型,请执行以下操作:
部署到端点。
选择是部署新模型还是使用现有端点:
# Choose whether to deploy a new model or use an existing endpoint: deployment_option = "deploy_new" # ["deploy_new", "use_existing"] # If using existing endpoint, provide the endpoint ID: ENDPOINT_ID = "" # {type:"string"} if deployment_option == "deploy_new": print("Deploying new model...") endpoint = model.deploy( machine_type="a3-highgpu-1g", accelerator_type="NVIDIA_H100_80GB", accelerator_count=1, accept_eula=True, use_dedicated_endpoint=True, ) print(f"Endpoint deployed: {endpoint.display_name}") print(f"Endpoint resource name: {endpoint.resource_name}") else: if not ENDPOINT_ID: raise ValueError("Please provide an ENDPOINT_ID when using existing endpoint") from google.cloud import aiplatform print(f"Connecting to existing endpoint: {ENDPOINT_ID}") endpoint = aiplatform.Endpoint( endpoint_name=f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/{ENDPOINT_ID}" ) print(f"Using endpoint: {endpoint.display_name}") print(f"Endpoint resource name: {endpoint.resource_name}")
重要
将 use_dedicated_endpoint 设置为 True,因为 Voyage AI模型需要专用的公共端点。
Vertex AI会将模型部署到托管端点,您可以通过 Google Cloud 控制台或 Vertex AI API访问权限该端点以进行在线推理或批处理推理。
进行预测。
部署后,您可以使用 Vertex AI端点进行预测。
有关所有端点参数和预测选项,请参阅嵌入和重新排名API概述。
import json # Multiple texts to embed texts = [ "Machine learning enables computers to learn from data.", "Natural language processing helps computers understand human language.", "Computer vision allows machines to interpret visual information.", "Deep learning uses neural networks with multiple layers." ] # Prepare the batch request and make invoke call body = { "input": texts, "output_dimension": 1024, "input_type": "document" } response = endpoint.invoke( request_path="/embeddings", body=json.dumps(body).encode("utf-8"), headers={"Content-Type": "application/json"} ) # Extract embeddings result = response.json() embeddings = [item["embedding"] for item in result["data"]] print(f"Number of texts embedded: {len(embeddings)}") print(f"Embedding dimension: {len(embeddings[0])}") print(f"\nFirst embedding (first 5 values): {embeddings[0][:5]}") print(f"Second embedding (first 5 values): {embeddings[1][:5]}")
取消部署模型并删除端点
要删除已部署的模型及其端点,请执行以下操作:
从端点取消部署模型。
(可选)删除端点本身。
有关详细说明,请参阅 Google Cloud Vertex AI文档中的取消部署模型并删除端点。
重要
只有在从端点取消部署所有模型后,才能删除端点。取消部署模型并删除端点会停止该端点的所有推理服务和计费。