Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/

Mejore sus experiencias multimedia con la búsqueda semántica de vídeos

Descubra cómo puede implementar capacidades de búsqueda de video en sus aplicaciones multimedia utilizando los modelos de integración multimodal de MongoDB Atlas y Voyage AI.

caso de uso: Gen AI

Industrias: Medios

Productos: MongoDB Atlas, MongoDB Atlas búsqueda vectorial, Embeddings multimodales de Voyage IA

emparejar: Open IA para la conversión de voz a texto

La industria de los medios y el entretenimiento está adoptando la transformación digital para impulsar las estrategias de crecimiento. Según un estudio PWC, se espera que las ganancias de la industria crezcan a una tasa de 3.7% tasa de crecimiento anual compuesta de 2025 a 2029, aumentando de US$2.9 billones a US$3.5 billones en 2029. Para las empresas de medios, una fuerza impulsora de este crecimiento es el entretenimiento en video generado a través de plataformas de video social, transmisión bajo demanda y canales de noticias.

Solo en EE. UU., los consumidores dedican un promedio de seis horas diarias a contenido multimedia y de entretenimiento, más de la mitad de las cuales se dedican al video. Las empresas de medios deben aprovechar estos datos de video para ofrecer experiencias de video premium a sus clientes y optimizar sus operaciones. El aprovechamiento de los datos de video permite el desarrollo de aplicaciones innovadoras, como la búsqueda semántica de video.

La búsqueda semántica de videos permite a los usuarios encontrar contenido específico en los videos en función de su significado contextual. Esta técnica utiliza incrustaciones y capacidades de búsqueda vectorial para transformar el contenido de video en valores numéricos que pueden ser procesados por algoritmos computacionales. Por ejemplo, los usuarios pueden proporcionar una query, como coches policiales en la carretera, a la aplicación de búsqueda de videos, que luego localiza la escena correspondiente en el video.

Esta solución muestra cómo se puede implementar un servicio de búsqueda semántica de vídeos para una aplicación de medios. En este servicio, MongoDB Atlas ofrece soporte para almacenamiento de datos y búsqueda vectorial, mientras que Voyage AI provee incrustaciones multimodales. Esta funcionalidad proporciona los siguientes beneficios:

  • Habilita mejores experiencias de usuario con un descubrimiento de contenido mejorado.

  • Reduce el tiempo dedicado a buscar información en videos extensos, mejorando la eficiencia.

  • Genera ganancia al atraer nuevos grupos de clientes y aumentar la lealtad entre los ya existentes.

Puedes extender los conceptos de esta solución a otras industrias, como seguros, telecomunicaciones o venta minorista.

Este marco utiliza MongoDB Atlas para almacenamiento de datos y búsqueda semántica, Voyage IA para incrustaciones y Open IA para convertir voz en texto. La implementación realiza un preprocesamiento de video y audio, y luego utiliza un componente de búsqueda semántica. La Figura 1 representa el preprocesamiento de video e imágenes.

visualización para la conversión de texto a audio

Figura 1. Marco de procesamiento de vídeo

El flujo de trabajo funciona de la siguiente manera:

  1. La moviepy La librería Python transforma el archivo de película MP4 en fotogramas de imagen y un archivo de audio MP3.

  2. La librería pydub convierte audio en fragmentos.

  3. Un proveedor de "speech-to-text" convierte fragmentos de audio en texto.

  4. Voyage IA transforma pares de texto e imágenes en embeddings con un modelo de embeddings multimodal. Las incrustaciones codifican estas modalidades en un solo transformador, creando una representación vectorial unificada que captura el significado de imágenes y texto juntos.

  5. MongoDB Atlas almacena los vectores y sus metadatos como documentos con marcas temporales que identifican documentos individuales.

Después del preprocesamiento, puedes crear tus índices de búsqueda vectorial y realizar búsquedas semánticas en tu aplicación. La imagen de abajo representa este proceso:

Visualización de un proceso de búsqueda de vídeo con MongoDB

Figura 2. Proceso de búsqueda de video con MongoDB

En este flujo de trabajo, búsqueda vectorial encuentra los metadatos del vídeo más relevante y su timestamp. Con esta información, la aplicación muestra los resultados en el punto adecuado del vídeo.

Ahora puedes buscar contenido mostrado en el video como básquetbol o car play ultra. En esta aplicación, la solución elige uno de los dos videos disponibles y lo reproduce desde el desplazamiento de video adecuado.

Las incrustaciones vectoriales convierten texto, voz y oraciones en valores numéricos que representan su significado. Basándose en este concepto, los modelos de incrustación multimodal vectorizan texto e imágenes intercalados en un único espacio vectorial con la misma dimensionalidad.

Puede aprovechar la flexibilidad del modelo de documento para almacenar incrustaciones multimodales junto con sus metadatos en un solo documento. El siguiente código muestra un documento de ejemplo:

{
"movie": "mymovie" ,
"offset": 0,
"text_offset": 0,
"embedding": [<list of floats>]
}

El campo embedding contiene la información conjunta de imágenes incrustadas y texto. Los metadatos incluyen el nombre del video, el desplazamiento de la imagen y el desplazamiento de la voz. Puedes adaptar esta estructura a tus necesidades específicas.

Siga estos pasos para replicar la solución de búsqueda de videos utilizando la ist.media MongoDB repositorio de GitHub. Puedes usar este marco como inspiración para compilar tu propia solución personalizada.

1

Configure las variables de entorno para los diferentes componentes de esta solución ejecutando los siguientes comandos:

  • MongoDB Atlas cluster:

    export MONGODB_IST_MEDIA=<your token>
  • Embeddings de Voyage IA:

    export VOYAGE_API_KEY=<your_token>
  • Open AI token:

    export OPENAI_API_KEY=<your_token>
2

Clona el repositorio de ist.media en GitHub y sigue las instrucciones de README para implementar la demostración.

3

Go a la pestaña de búsqueda de videos y prueba las capacidades de búsqueda de videos. Utilice palabras sugeridas, como policía o Grecia, para experimentar con el funcionamiento de su aplicación de búsqueda de vídeos.

visualización para la demostración de medios de ist

Figura 3. Servicio de búsqueda de videos en la demostración de IST medios

4

La carpeta de video en el repositorio de GitHub controla el servicio de búsqueda de videos. Ve al README y sigue las instrucciones para los scripts de asistente para adaptar la solución a tus necesidades.

  • Almacenar los metadatos y las embeddings juntos: Almacena tus embeddings y sus metadatos en un solo documento con el modelo orientado a documentos de MongoDB. Esta estructura potencia aplicaciones impulsadas por IA con capacidades avanzadas como la búsqueda semántica de videos.

  • Utilice modelos de incrustación multimodal: transforme datos no estructurados de múltiples modalidades, como imágenes y texto, en un espacio vectorial compartido con modelos de incrustación multimodal. Puede usar el modelo voyage-multimodal-3 de Voyage AI para vectorizar directamente entradas que contengan texto e imágenes intercalados.

  • Habilitar capacidades de búsqueda semántica: Usar la Búsqueda Vectorial para indexar y consultar los datos vectoriales. La búsqueda vectorial permite hacer query de datos en función de su significado semántico, recuperando los resultados más relevantes para tu aplicación de búsqueda de videos.

  • Benjamin Lorenz, MongoDB

  • Diego Canales, MongoDB

  • Personalización de Medios Impulsada por IA con MongoDB y Búsqueda Vectorial

  • Chatbot impulsado por IA para la gestión de redes

  • Conversión de noticias de texto a audio con IA generativa

Volver

Resumen de video impulsado por IA generativa

En esta página