Docs Menu
Docs Home
/

멀티모달 임베딩

멀티모달 임베딩 모델은 여러 모달리티의 구조화되지 않은 데이터를 공유 벡터 공간으로 변환합니다. Voyage 멀티모달 임베딩 모델은 텍스트, 이미지 및 동영상(예: 그림, 사진, 슬라이드 데크, 문서 스크린샷, 동영상 클립)을 지원 . 이렇게 하면 텍스트 추출 또는 ETL 파이프라인이 필요하지 않습니다.

텍스트, 이미지, 동영상을 별도로 프로세스 CLIP과 같은 멀티모달 모델과 달리, Voyage 멀티모달 임베딩 모델은 인터리브 처리된 텍스트, 이미지, 동영상이 포함된 입력을 벡터화합니다. 텍스트, 이미지 및 비디오 벡터는 동일한 양식의 관련 없는 항목과 정렬되는 경우가 많으므로 CLIP의 아키텍처는 혼합 양식 검색에 사용할 수 없습니다. Voyage 멀티모달 임베딩 모델은 단일 백본을 통해 모든 입력을 처리 하여 이러한 편향을 줄입니다.

모델
컨텍스트 길이
차원
설명

voyage-multimodal-3.5

32,000 tokens

1024 (기본값), 256, 512, 2048

PDF, 슬라이드, 표, 그림, 동영상 등의 스크린샷과 같이 인터리브 처리된 텍스트와 시각 데이터를 벡터화할 수 있는 풍부한 멀티모달 임베딩 모델입니다.

자세한 학습 은 블로그 포스트 참조하세요.

멀티모달 임베딩 사용에 대한 튜토리얼은 Voyage AI 임베딩을 사용한 시맨틱 검색을 참조하세요.

돌아가기

상황별 청크 임베딩

이 페이지의 내용