Google Cloud 모델 가든을 사용하여 Voyage AI 모델 배포

Embedding 및 Reranking API Preview에 있습니다. 기능 및 해당 설명서는 미리 보기 기간에 언제든지 변경될 수 있습니다.

Google Cloud 모델 가든에서MongoDB 의 Voyage AI 모델을 탐색하고 배포 할 수 있습니다.

모델 가든은 MongoDB 모델을 통한 보야지 AI 의 라이선스를 관리하고, 온디맨드 hardware 또는 기존 Compute Engine 예약을 사용하여 배포서버 옵션을 제공합니다.

MongoDB 의Voyage AI 모델은 자체 배포된 제휴하다 모델이므로 모델 사용량과 사용한 Vertex AI 인프라에 대한 비용을 모두 지불해야 합니다. Vertex AI 배포서버 처리하고 엔드포인트 관리 기능을 제공합니다.

사용 가능한 모델

배포 할 수 있는 모델을 확인하려면 Google Cloud 모델 가든에서 'Voyage'를 검색 .

Voyage AI 모델에 대해 자세히 학습 모델 개요를 참조하세요.

가격

Google Cloud 모델 가든에서 제공하는 MongoDB 의 Voyage AI 모델 가격은 다음과 같습니다.

모델 사용 요금: 시간당 요금으로 청구되는 Voyage AI 모델 컨테이너 사용 비용 입니다. 사용 요금은 배포서버 위해 선택한 특정 모델 및 hardware 구성에 따라 달라집니다. 자세한 가격 정보는 Google Cloud Marketplace 모델 목록 페이지의 가격 섹션을 참조하세요.
해당 리전 의 Google Cloud 기본 인스턴스: 특정 리전 에 특정한 기본 Google Cloud GPU 인스턴스 (예:4 N, A100 또는 H)의 비용100 은 월 단위로 청구되며 다음 기준에 따라 가격이 책정됩니다. vCPU.자세한 학습 은 Google Cloud Compute Engine 가격을 참조하세요.

모든 청구 요금은 Google Cloud 청구서에 Vertex AI 사용으로 표시됩니다.

특정 Voyage AI 모델의 가격을 보려면 다음 단계를 따르세요.

모델가든으로 고 (Go) .

모델을 검색합니다.

Model Garden 검색 상자에서 모델을 검색합니다.

모델을 클릭합니다.

보려는 모델을 클릭하여 세부 정보 페이지를 엽니다.

가격 섹션으로 이동합니다.

Overview 탭 에서 Pricing 섹션으로 스크롤합니다.

자세한 가격을 확인하세요.

모델의 Google Cloud Marketplace 목록으로 연결되는 링크를 클릭합니다. 목록 항목의 Pricing 탭 에는 자세한 가격 정보가 표시됩니다.

Quotas

Voyage AI 모델을 배포 때는 할당량의 적용을 받는 Vertex AI 리소스를 사용하게 됩니다.Quotas Google Cloud Console의 IAM 페이지의 섹션에서 할당량을 보고 관리 할 수 있습니다. 자세한 내용은 프로젝트 할당량 보기를 참조하세요. 같은 페이지에서 현재 할당량을 마우스 오른쪽 버튼으로 클릭하고 를 클릭한 다음,Edit quota 필요한 경우 할당량 증가 요청 제출 수 있습니다.

전제 조건

Google Cloud Vertex AI 를 통해 MongoDB 의 Voyage AI 사용을 시작하려면 다음을 수행해야 합니다.

Google Cloud 프로젝트 및 개발 환경을 설정합니다. 지침은 프로젝트 및 개발 환경 설정을 참조하세요.
Vertex AI API 활성화합니다. 자세한 내용은 설정을 참조하세요.

하드웨어 구성

모델 가든의 각 모델에는 권장 hardware 구성이 나열되어 있습니다. 각 Voyage 모델의 권장 hardware 사양은 Vertex AI 용 Google Cloud 모델 가든을 참조하세요.

예시, voyage-4 모델의 경우 Vertex AI Model Garden이 배포서버 위해 제안하는 다음 권장 인스턴스를 사용합니다. 이러한 권장 사항은 변경될 수 있으며, 특정 Voyage AI 모델의 공식 Google Cloud 모델 가든 페이지에서 권장 hardware 확인하는 것이 좋습니다.

A2 인스턴스(예:a2-highgpu-1g 또는)와 a2-ultragpu-1g A100 GPU가 기본값 선택됩니다.
더 높은 성능 요구 사항에는3 H GPU를 사용하는 a3-highgpu-1g 와 같은 A 인스턴스를 사용하는 것이 좋습니다.100

지원되는 리전

모델 가든에는 각 Voyage AI 모델에 대해 지원되는 리전이 나열되어 있습니다. 다른 리전 에서 모델에 대해 지원 필요한 경우 MongoDB 지원 문의 .

모범 사례 및 제한 사항

엔드포인트 유형: 모든 Voyage AI 모델에는 전용 공개 엔드포인트 유형이 필요합니다. 자세한 내용은 엔드포인트 유형 선택을 참조하세요.
input_type 이해: 쿼리 대 문서: 매개 변수는 input_type 검색 작업을 위한 임베딩을 최적화합니다. 검색 쿼리에는 를 사용하고 검색 "query" 중인 콘텐츠에는 "document" 를 사용합니다. 이 최적화는 검색 정확도를 향상시킵니다.input_type 매개변수에 대해 자세히 학습 임베딩 및 API 재지정 개요를 참조하세요.
다른 출력 차원사용: Voyage 4 256 512모델은,,( 1024 기본값 ), 등 여러 출력 차원을 지원 2048. 차원이 작을수록 저장 및 계산 비용이 줄어들고, 차원이 클수록 정확도가 향상될 수 있습니다. 정확도 요구 사항과 리소스 제약 조건의 균형을 가장 잘 맞추는 차원을 선택하세요.

Voyage AI 모델 찾기

모델 가든에서 MongoDB 모델의 Voyage AI 찾으려면 다음을 수행합니다.

모델가든으로 고 (Go) .

모델 가든 콘솔로 고 (Go) .

Voyage 모델을 검색합니다.

Search Models 필드 에 "Voyage"를 입력하여 MongoDB 모델의Voyage AI 목록을 표시합니다.

참고

Google Cloud Marketplace에는 전체 Marketplace에 대한 검색창과 Vertex AI Model Garden 사이트 내의 검색 창이 있습니다. MongoDB 의Voyage AI 모델을 찾으려면 Vertex AI 모델가든 사이트 의 검색 창을 사용하세요.

또는 Model Garden > Model Collections > Partner Models를 통해Voyage AI 모델로 이동한 다음 여기에 나열된 Voyage AI 모델 중 하나를 선택할 수 있습니다.

Task-specific solutions 까지 아래로 스크롤하여 있는 그대로 사용하거나 필요에 맞게 사용자 지정할 수 있는 Voyage AI 모델을 찾을 수도 있습니다.

Vertex AI 에 Voyage AI 모델 배포

MongoDB 의 Voyage AI 모델을 사용하여 예측하려면 온라인 추론을 위해 이를 비공개 전용 엔드포인트에 배포 해야 합니다. 배포는 지연 시간이 짧고 처리량이 높은 온라인 예측을 위해 물리적 리소스를 모델과 연결합니다. 여러 모델을 하나의 엔드포인트에 배포 하거나 동일한 모델을 여러 엔드포인트에 배포할 수 있습니다.

모델을 배포 때 다음 옵션을 고려하세요.

엔드포인트 위치
모델 컨테이너
모델 실행 에 필요한 컴퓨팅 리소스

모델을 배포 후에는 이러한 설정을 변경할 수 없습니다. 배포서버 구성을 수정해야 하는 경우 모델의 배포를 취소하고 새 설정으로 다시 배포해야 합니다.

Voyage AI 모델에는 전용 공용 엔드포인트가 필요합니다. 자세한 내용은 Google Cloud Vertex AI 문서에서 공개 엔드포인트 만들기를 참조하세요.

콘솔을 사용하여 Google Cloud Vertex AI 에 모델을 배포 하려면 다음을 수행합니다.

모델을 찾습니다.

모델 가든 콘솔로 고 (Go) 필드 에서 'Voyage'를 Search Models 검색 MongoDB 모델의 'Voyage AI' 목록을 표시합니다.

배포 하려는 모델을 클릭하여 세부 정보 페이지를 엽니다.

모델을 활성화하고 계약에 동의합니다.

Enable를 클릭합니다.MongoDB Marketplace 최종 사용자 계약이 열립니다. 계약을 검토하고 동의하여 모델을 활성화 하고 필요한 상업용 라이선스를 받습니다.

배포서버 옵션을 검토합니다.

계약에 동의하면 모델 페이지에 다음 옵션이 표시됩니다.

Deploy a model: 모델을 모델 레지스트리에 저장하고 Google Cloud의 엔드포인트에 배포합니다. 콘솔을 사용하여 배포 하려면 다음 단계를 계속 진행합니다.
Create an Open Notebook for Voyage Embedding Models Family: 협업 환경에서 모델을 미세 조정 및 사용자 지정하고 최적의 비용 과 성능을 위해 모델을 혼합할 수 있습니다.Voyage AI 용 Vertex AI 노트북 샘플 을 참조하세요.
View Code: 모델 배포 및 사용을 위한 코드 샘플을 표시합니다. 코드를 사용하여 프로그래밍 방식으로 배포 하려면 코드를 사용하여 배포를 참조하세요.

모델 세부 정보를 검토합니다.

모델의 리전, hardware 요구 사항, 고려 사항, 사용 사례 및 가격 정보를 검토합니다.

Deploy model를 클릭합니다.

Deploy model 버튼을 클릭하여 배포서버 프로세스 시작합니다.

배포서버 양식을 작성합니다.

배포서버 옵션을 검토 하고 편집할 수 있는 양식이 열립니다. Vertex AI 모델에 최적화된 기본값 설정을 제공하지만 필요에 따라 사용자 지정할 수 있습니다. 예시 를 들어 머신 유형, GPU 유형, 복제본 수를 선택할 수 있습니다. 다음 예시 voyage-4 모델의 기본값 설정을 보여주지만 변경될 수 있으므로 배포하기 전에 설정을 신중하게 검토 .

필드	설명
Resource ID	드롭다운 메뉴에서 선택합니다(미리 선택됨).
Model Name	드롭다운 메뉴에서 선택합니다(미리 선택됨).
Region	원하는 리전(예: `us-central1`)을 선택합니다.
Endpoint name	엔드포인트의 이름(예: `mongodb_voyage-4_latest-mg-one-click-deploy`)을 입력합니다.
Serving spec	머신 유형(예: `g2-standard-4`)을 선택합니다.
Accelerator type	`NVIDIA_L4`과 같은 GPU 유형을 선택합니다.
Accelerator count	`1`와(과) 같이 GPU 수를 지정합니다.
Replica count	복제본의 최소 및 최대 수(예: `1 - 1`)를 지정합니다.
Reservation type	예약 유형(예: `No reservation`)을 선택합니다.
VM provisioning model	프로비저닝 모델(예: `Standard`)을 선택합니다.
Endpoint access	Public (Dedicated endpoint)0}을 선택합니다.

설정을 검토합니다.

Vertex AI 기본값 으로 적용되는 설정을 최적화합니다. 설정을 사용자 지정하려면 Edit settings을 클릭합니다. 예시 를 들어 더 강력한 머신 유형 또는 GPU를 선택할 수 있습니다.

Check quotas.

구성 화면에는 사용 가능한 할당량이 표시됩니다. 필요한 경우 할당량을 관리하려면 Quotas 링크를 사용하세요.

모델을 배포합니다.

배포서버 프로세스 시작하려면 Deploy 를 클릭합니다.

완료될 때까지 기다립니다.

배포서버 완료되면 알림을 받게 됩니다. 배포서버 완료되면 Google Cloud Vertex AI, Deploy, Endpoints 목록을 클릭하여 배포서버 찾을 수 있습니다.

코드를 사용하여 배포

모델 세부 정보 페이지에서 View Code 를 선택한 경우 Vertex AI SDK를 사용하여 프로그래밍 방식으로 모델을 배포 할 수 있습니다. 이 접근 방식은 코드를 통해 배포서버 구성을 완전히 제어할 수 있습니다.

Google Cloud Vertex AI SDK에 대한 자세한 내용은 Python 용 Vertex AI SDK 설명서를 참조하세요.

참고

이 섹션의 코드 예시는 voyage-4 모델용이며 변경될 수 있습니다. 최신 코드 예제는 모델 가든의 모델 페이지에 있는 View Code 탭 참조하세요. 다른Voyage AI 모델의 경우 코드가 비슷하지만 모델별 세부 정보는 Model Garden에서 해당 모델의 페이지를 확인하세요.

코드를 사용하여 모델을 배포 하려면 다음을 수행합니다.

모델을 초기화합니다.

먼저 모델 가든에서 모델을 초기화하고 배포서버 옵션을 확인합니다.

from vertexai import model_garden
MODEL_NAME = "mongodb/voyage-4@latest"
model = model_garden.OpenModel(MODEL_NAME)
deploy_options = model.list_deploy_options(concise=True)
print(deploy_options)

엔드포인트에 배포합니다.

새 모델을 배포 할지, 아니면 기존 엔드포인트를 사용할지 선택합니다.

# Choose whether to deploy a new model or use an existing endpoint:
deployment_option = "deploy_new"  # ["deploy_new", "use_existing"]
# If using existing endpoint, provide the endpoint ID:
ENDPOINT_ID = ""  # {type:"string"}
if deployment_option == "deploy_new":
    print("Deploying new model...")
    endpoint = model.deploy(
        machine_type="a3-highgpu-1g",
        accelerator_type="NVIDIA_H100_80GB",
        accelerator_count=1,
        accept_eula=True,
        use_dedicated_endpoint=True,
    )
    print(f"Endpoint deployed: {endpoint.display_name}")
    print(f"Endpoint resource name: {endpoint.resource_name}")
else:
    if not ENDPOINT_ID:
        raise ValueError("Please provide an ENDPOINT_ID when using existing endpoint")
    from google.cloud import aiplatform
    print(f"Connecting to existing endpoint: {ENDPOINT_ID}")
    endpoint = aiplatform.Endpoint(
        endpoint_name=f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/{ENDPOINT_ID}"
    )
    print(f"Using endpoint: {endpoint.display_name}")
    print(f"Endpoint resource name: {endpoint.resource_name}")

중요

Voyage AI 모델에는 전용 공개 엔드포인트가 필요하므로 use_dedicated_endpoint 를 True 로 설정합니다.

Vertex AI Google Cloud 콘솔 또는 Vertex AI API 통해 온라인 추론 또는 배치 추론을 수행하기 위해 액세스 할 수 있는 managed 엔드포인트에 모델을 배포합니다.

자세한 내용은 Google Cloud Vertex AI 문서에서 엔드포인트에 모델 배포를 참조하세요.

예측합니다.

배포서버 후에는 Vertex AI 엔드포인트를 사용하여 예측을 수행할 수 있습니다.

모든 엔드포인트 매개변수 및 예측 옵션에 대해서는 임베딩 및 API 재순위 지정 개요를 참조하세요.

import json
# Multiple texts to embed
texts = [
    "Machine learning enables computers to learn from data.",
    "Natural language processing helps computers understand human language.",
    "Computer vision allows machines to interpret visual information.",
    "Deep learning uses neural networks with multiple layers."
]
# Prepare the batch request and make invoke call
body = {
    "input": texts,
    "output_dimension": 1024,
    "input_type": "document"
}
response = endpoint.invoke(
    request_path="/embeddings",
    body=json.dumps(body).encode("utf-8"),
    headers={"Content-Type": "application/json"}
)
# Extract embeddings
result = response.json()
embeddings = [item["embedding"] for item in result["data"]]
print(f"Number of texts embedded: {len(embeddings)}")
print(f"Embedding dimension: {len(embeddings[0])}")
print(f"\nFirst embedding (first 5 values): {embeddings[0][:5]}")
print(f"Second embedding (first 5 values): {embeddings[1][:5]}")

모델 배포 취소 및 엔드포인트 삭제

배포된 모델과 해당 엔드포인트를 제거 하려면 다음을 수행합니다.

엔드포인트에서 모델 배포를 취소합니다.
선택적으로 엔드포인트 자체를 삭제 .

자세한 지침은 Google Cloud Vertex AI 문서에서 모델 배포 취소 및 엔드포인트 삭제 참조하세요.

중요

엔드포인트에서 모든 모델의 배포가 취소된 후에만 엔드포인트를 삭제 수 있습니다. 모델 배포를 취소하고 엔드포인트를 삭제하면 해당 엔드포인트에 대한 모든 추론 서비스 및 청구가 중지됩니다.

돌아가기

Azure Marketplace