Docs Menu

/

/

/

멀티모달 임베딩

Embedding 및 Reranking API는 Preview에 있습니다. 기능 및 해당 설명서는 미리 보기 기간에 언제든지 변경될 수 있습니다.

멀티모달 임베딩 모델은 여러 모달리티의 구조화되지 않은 데이터를 공유 벡터 공간으로 변환합니다. Voyage 멀티모달 임베딩 모델은 텍스트, 이미지 및 동영상(예: 그림, 사진, 슬라이드 데크, 문서 스크린샷, 동영상 클립)을 지원 . 이렇게 하면 텍스트 추출 또는 ETL 파이프라인이 필요하지 않습니다.

텍스트, 이미지, 동영상을 별도로 프로세스 CLIP과 같은 멀티모달 모델과 달리, Voyage 멀티모달 임베딩 모델은 인터리브 처리된 텍스트, 이미지, 동영상이 포함된 입력을 벡터화합니다. 텍스트, 이미지 및 비디오 벡터는 동일한 양식의 관련 없는 항목과 정렬되는 경우가 많으므로 CLIP의 아키텍처는 혼합 양식 검색에 사용할 수 없습니다. Voyage 멀티모달 임베딩 모델은 단일 백본을 통해 모든 입력을 처리 하여 이러한 편향을 줄입니다.

사용 가능한 모델

모델	컨텍스트 길이	차원	설명
`voyage-multimodal-3.5`	32,000 tokens	1024 (기본값), 256, 512, 2048	PDF, 슬라이드, 표, 그림, 동영상 등의 스크린샷과 같이 인터리브 처리된 텍스트와 시각 데이터를 벡터화할 수 있는 풍부한 멀티모달 임베딩 모델입니다. 자세한 학습 은 블로그 포스트참조하세요.

이전 모델

다음의 이전 모델은 여전히 API 에서 액세스할 수 있지만, 더 나은 품질과 효율성 위해 위의 새 모델을 사용하는 것이 좋습니다.

모델	컨텍스트 길이	차원	설명
`voyage-multimodal-3`	32,000 tokens	1024	텍스트와 이미지를 통합 임베딩으로 처리합니다. 50,000 ~ 2 백만 픽셀의 이미지를 지원합니다. 자세한 학습 은 블로그 포스트 참조하세요.

튜토리얼

멀티모달 임베딩 사용에 대한 튜토리얼은 Voyage AI 임베딩을 사용한 시맨틱 검색을 참조하세요.

사용법

Language

돌아가기

상황별 청크 임베딩

다음

순위 재지정

이 페이지 평가하기

이 페이지의 내용

사용 가능한 모델

이전 모델
튜토리얼
사용법

이 페이지의 내용

사용 가능한 모델
이전 모델
튜토리얼
사용법