시맨틱 비디오 검색으로 미디어 경험 향상

MongoDB Atlas 및 Voyage AI의 멀티모달 임베딩 모델을 사용하여 미디어 애플리케이션에서 동영상 검색 기능을 구현 방법을 알아보세요.

사용 사례: Gen AI

산업 분야: 미디어

제품: MongoDB Atlas, MongoDB Atlas Vector Search, Voyage AI 멀티모달 임베딩

솔루션 개요

미디어 및 엔터테이먼트 업계는 성장 전략을 주도하기 위해 디지털 트랜스포메이션을 도입하고 있습니다. PWC 연구에 따르면 업계 수익은 3.7% 증가할 것으로 예상됩니다. 2029에서 2025 에서 2029로, 복합 연간 성장률이 US$2.9 조에서 US$3.5 조로 증가했습니다. 미디어 회사의 경우 이러한 성장의 동인은 소셜 비디오 플랫폼, 온디맨드 스트리밍 및 뉴스 채널을 통해 생성된 비디오 엔터테인먼트입니다.

미국에서만 소비자가 하루 평균 6시간을 미디어 및 엔터테이먼트 콘텐츠에 소비하며, 그 중 절반 이상을 동영상에 할애하고 있습니다. 미디어 회사는 고객에게 프리미엄 비디오 경험을 제공하고 운영을 간소화하기 위해 이 비디오 데이터를 활용해야 합니다. 비디오 데이터를 활용하면 시맨틱 비디오 검색 과 같은 혁신적인 애플리케이션을 개발할 수 있습니다.

시맨틱 동영상 검색 사용하면 사용자가 문맥상의 의미에 따라 동영상에서 특정 콘텐츠를 찾을 수 있습니다. 이 기술은 임베딩 및 벡터 검색 기능을 사용하여 비디오 콘텐츠를 계산 알고리즘으로 처리할 수 있는 숫자 값으로 변환합니다. 예시 들어, 사용자는 도로 위의 경찰차와 같은 쿼리 동영상 검색 애플리케이션 에 제공할 수 있으며, 이 애플리케이션은 동영상에서 해당 장면을 찾습니다.

이 솔루션은 미디어 애플리케이션 위한 시맨틱 비디오 검색 서비스를 구현 방법을 보여줍니다. 이 서비스에서 MongoDB Atlas 데이터 저장 및 벡터 검색 기능을 지원하고,Voyage AI 멀티모달 임베딩을 제공합니다. 이 기능은 다음과 같은 이점을 제공합니다.

향상된 콘텐츠 검색으로 더 나은 사용자 경험을 가능하게 합니다.
긴 동영상에서 정보를 검색하는 데 소요되는 시간을 줄여 효율성 높입니다.
신규 고객 그룹을 유인하고 기존 고객 그룹의 로열티를 높여 수익 증대합니다.

이 솔루션의 개념을 보험, 통신, 소매 등 다른 산업으로 확장할 수 있습니다.

참조 아키텍처

이 프레임워크 데이터 저장 및 시맨틱 검색 에 MongoDB Atlas , 임베딩에 Voyage AI , 음성을 텍스트로 변환하는 Open AI 사용합니다. 이 구현 비디오와 오디오를 사전 처리한 다음 시맨틱 검색 구성 요소를 사용합니다. 그림 1 은 동영상 및 이미지 전처리를 나타냅니다.

그림 1. 비디오 처리 프레임워크

워크플로는 다음과 같이 작동합니다.

moviepy Python 라이브러리는 MP4 영화 파일 이미지 프레임과 MP3 오디오 파일 로 변환합니다.
pydub 라이브러리는 오디오를 청크로 변환합니다.
음성 텍스트 변환 제공자 오디오 청크를 텍스트로 변환합니다.
Voyage AI 멀티모달 임베딩 모델을 사용하여 텍스트와 이미지 쌍을 임베딩으로 변환합니다. 임베딩은 이러한 양식을 단일 변환기에서 인코딩하여 시각 자료와 텍스트의 의미를 함께 캡처하는 통합된 벡터 표현을 생성합니다.
MongoDB Atlas 벡터와 해당 메타데이터 개별 문서를 식별하는 타임스탬프가 있는 문서로 저장합니다.

전처리 후 벡터 검색 인덱스를 생성하고 애플리케이션 에서 시맨틱 검색 수행할 수 있습니다. 아래 이미지는 이 프로세스 나타냅니다.

그림 2. MongoDB 사용한 동영상 검색 프로세스

이 워크플로에서 Vector Search는 가장 일치하는 비디오의 메타데이터 와 해당 타임스탬프를 찾습니다. 애플리케이션 이 정보를 사용하여 적절한 비디오 오프셋에 결과를 표시합니다.

이제 배구, 카 플레이울트라 등 동영상에 표시된 콘텐츠를 검색 할 수 있습니다. 이 애플리케이션 에서 솔루션은 사용 가능한 두 개의 비디오 중 하나를 선택하고 적절한 비디오 오프셋에서 재생합니다.

데이터 모델 접근 방식

벡터 임베딩은 텍스트, 음성 및 문장을 의미를 나타내는 숫자 값으로 변환합니다. 이 개념을 기반으로 하는 멀티모달 임베딩 모델은 인터리브된 텍스트와 이미지를 동일한 차원을 가진 단일 벡터 공간으로 벡터화합니다.

문서 모델 의 유연성을 사용하여 멀티모달 임베딩을 메타데이터 와 함께 단일 문서 에 저장 수 있습니다. 다음 코드는 샘플 문서 보여줍니다.

{
  "movie": "mymovie" ,
  "offset": 0,
  "text_offset": 0,
  "embedding": [<list of floats>]
}

embedding 필드 에는 내장된 이미지 및 텍스트의 결합 정보가 포함되어 있습니다. 메타데이터 에는 비디오 이름, 이미지 오프셋 및 음성 오프셋이 포함됩니다. 이 구조를 특정 요구 사항에 맞게 조정할 수 있습니다.

솔루션 빌드

다음 단계에 따라 MongoDB ist.media Github 리포지토리 사용하여 동영상 검색 솔루션을 복제합니다. 이 프레임워크 참고하여 나만의 맞춤형 솔루션을 빌드 할 수 있습니다.

환경 변수 설정

다음 명령을 실행 하여 이 솔루션의 다양한 구성 요소에 대한 환경 변수를 설정합니다.

MongoDB Atlas cluster:
```
export MONGODB_IST_MEDIA=<your token>
```
Voyage AI 임베딩:
```
export VOYAGE_API_KEY=<your_token>
```
Open AI token:
```
export OPENAI_API_KEY=<your_token>
```

`ist.media` 데모 배포

ist.media Github 리포지토리 복제하고 README 지침에 따라 데모를 배포 .

데모에서 비디오 검색 기능 테스트

비디오 검색 탭 으로 고 (Go) 비디오 검색 기능을 테스트합니다. 경찰 또는 그리스와 같은 추천 단어를 사용하여 비디오 검색 애플리케이션 작동하는 것을 실험해 볼 수 있습니다.

그림 3. IST 미디어 데모의 동영상 검색 서비스

자신의 동영상 사용

The Github 리포지토리 의 동영상 폴더 는 동영상 검색 서비스를 제어합니다. README 로 고 (Go) 헬퍼 스크립트의 지침에 따라 솔루션을 필요에 맞게 조정하세요.

주요 학습 사항

메타데이터 와 임베딩을 함께 저장: MongoDB의 유연한 문서 모델 사용하여 임베딩과 해당 메타데이터 단일 문서 에 저장합니다. 이 구조는 시맨틱 비디오 검색 과 같은 고급 기능을 통해 AI 기반 애플리케이션을 강화합니다.
멀티모달 임베딩 모델 사용: 멀티모달 임베딩 모델을 사용하여 이미지 및 텍스트와 같은 여러 모달리티의 구조화되지 않은 데이터를 공유 벡터 공간으로 변환합니다. Voyage AI의 voyage-multimodal-3 모델을 사용하여 인터리브 처리된 텍스트와 이미지가 포함된 입력을 직접 벡터화할 수 있습니다.
시맨틱 검색 기능 활성화: 벡터 검색을 사용하여 벡터 데이터를 인덱스 하고 쿼리 . 벡터 검색을 사용하면 의미론적 의미를 기반으로 데이터를 쿼리 동영상 검색 애플리케이션 과 가장 관련성이 높은 결과를 검색할 수 있습니다.

작성자

Benjamin Lorenz, MongoDB
Diego Canales, MongoDB

자세히 알아보기

돌아가기

GenAI 기반 동영상 요약

텍스트를 오디오 뉴스로 변환