Descubra cómo puede implementar capacidades de búsqueda de video en sus aplicaciones multimedia utilizando los modelos de integración multimodal de MongoDB Atlas y Voyage AI.
Casos de uso: Gen AI
Industrias: Medios de comunicación
Productos: MongoDB Atlas, Búsqueda vectorial deMongoDB Atlas, Integracionesmultimodalesde Voyage AI
Asociados: Open IA para la conversión de voz a texto
Resumen de la solución
La industria de los medios de comunicación y el entretenimiento está adoptando la transformación digital para impulsar sus estrategias de crecimiento. Según un estudio de PWC, se espera que los ingresos de la industria crezcan a 3 una7tasa anual compuesta del, % 2025 entre 2029 y, pasando de,2 9 billones de dólares estadounidenses a,3 5 billones de dólares estadounidenses 2029 en. Para las empresas de medios, un factor clave de este crecimiento es el entretenimiento en video generado a través de plataformas de video social, streaming a la carta y canales de noticias.
Solo en EE. UU., los consumidores dedican un promedio de seis horas diarias a contenido multimedia y de entretenimiento, más de la mitad de las cuales se dedican al video. Las empresas de medios deben aprovechar estos datos de video para ofrecer experiencias de video premium a sus clientes y optimizar sus operaciones. El aprovechamiento de los datos de video permite el desarrollo de aplicaciones innovadoras, como la búsqueda semántica de video.
La búsqueda semántica de videos permite a los usuarios encontrar contenido específico en los videos según su significado contextual. Esta técnica utiliza incrustaciones y funciones de búsqueda vectorial para transformar el contenido de video en valores numéricos que pueden procesarse mediante algoritmos computacionales. Por ejemplo, los usuarios pueden realizar una consulta, como "coches de policía en la carretera", a la aplicación de búsqueda de videos, que localiza la escena correspondiente en el video.
Esta solución muestra cómo se puede implementar un servicio de búsqueda semántica de vídeos para una aplicación de medios. En este servicio, MongoDB Atlas ofrece soporte para almacenamiento de datos y búsqueda vectorial, mientras que Voyage AI provee incrustaciones multimodales. Esta funcionalidad proporciona los siguientes beneficios:
Permite mejores experiencias de usuario con un descubrimiento de contenido mejorado.
Reduce el tiempo empleado en buscar información en vídeos largos, mejorando la eficiencia.
Impulsa los ingresos atrayendo nuevos grupos de clientes y aumentando la lealtad de los existentes.
Puede ampliar los conceptos de esta solución a otras industrias, como seguros, telecomunicaciones o comercio minorista.
Arquitecturas de Referencia
Este framework utiliza MongoDB Atlas para el almacenamiento de datos y la búsqueda semántica, Voyage AI para las incrustaciones y Open AI para la conversión de voz a texto. La implementación preprocesa vídeo y audio, y luego utiliza un componente de búsqueda semántica. La figura 1 representa el preprocesamiento de vídeo e imagen.
Figura 1. Marco de procesamiento de vídeo
El flujo de trabajo funciona de la siguiente manera:
El
moviepyLa biblioteca de Python transforma el archivo de película MP4 en fotogramas de imagen y un archivo de audio MP3.La librería
pydubconvierte audio en fragmentos.Un proveedor de conversión de voz a texto convierte fragmentos de audio en texto.
Voyage AI transforma pares de texto e imágenes en incrustaciones mediante un modelo de incrustación multimodal. Las incrustaciones codifican estas modalidades en un único transformador, creando una representación vectorial unificada que captura el significado de las imágenes y el texto conjuntamente.
MongoDB Atlas almacena vectores y sus metadatos como documentos con marcas de tiempo que identifican documentos individuales.
Tras el preprocesamiento, puede crear sus índices de búsqueda vectorial y realizar búsquedas semánticas en su aplicación. La siguiente imagen representa este proceso:
Figura 2. Proceso de búsqueda de video con MongoDB
En este flujo de trabajo, Vector Search encuentra los metadatos del vídeo más coincidente y su marca de tiempo. Con esta información, la aplicación muestra los resultados con la diferencia de tiempo de vídeo adecuada.
Ahora puedes buscar contenido mostrado en el video, como baloncesto o carreras de autos ultra. En esta aplicación, la solución selecciona uno de los dos videos disponibles y lo reproduce desde la posición de video adecuada.
Enfoque del modelo de datos
Las incrustaciones vectoriales convierten texto, voz y oraciones en valores numéricos que representan su significado. Basándose en este concepto, los modelos de incrustación multimodal vectorizan texto e imágenes intercalados en un único espacio vectorial con la misma dimensionalidad.
Puede aprovechar la flexibilidad del modelo de documento para almacenar incrustaciones multimodales junto con sus metadatos en un solo documento. El siguiente código muestra un documento de ejemplo:
{ "movie": "mymovie" , "offset": 0, "text_offset": 0, "embedding": [<list of floats>] }
El campo embedding contiene la información conjunta de las imágenes y el texto incrustados. Los metadatos incluyen el nombre del vídeo, la distancia entre la imagen y la voz. Puede adaptar esta estructura a sus necesidades específicas.
Construir la solución
Sigue estos pasos para replicar la solución de búsqueda de vídeos usando el ist.media repositorio de GitHub de MongoDB. Puedes usar este framework como inspiración para crear tu propia solución personalizada.
Configurar sus variables de entorno
Configure las variables de entorno para los diferentes componentes de esta solución ejecutando los siguientes comandos:
MongoDB Atlas cluster:
export MONGODB_IST_MEDIA=<your token> Integraciones de inteligencia artificial de Voyage:
export VOYAGE_API_KEY=<your_token> Open AI token:
export OPENAI_API_KEY=<your_token>
Utiliza tus propios videos
La carpeta de videos del repositorio de GitHub controla el servicio de búsqueda de videos. Vaya a README y siga las instrucciones de los scripts auxiliares para adaptar la solución a sus necesidades.
Aprendizajes clave
Almacenar los metadatos y las embeddings juntos: Almacena tus embeddings y sus metadatos en un solo documento con el modelo orientado a documentos de MongoDB. Esta estructura potencia aplicaciones impulsadas por IA con capacidades avanzadas como la búsqueda semántica de videos.
Utilice modelos de incrustación multimodal: transforme datos no estructurados de múltiples modalidades, como imágenes y texto, en un espacio vectorial compartido con modelos de incrustación multimodal. Puede usar el modelo voyage-multimodal-3 de Voyage AI para vectorizar directamente entradas que contengan texto e imágenes intercalados.
Habilite las funciones de búsqueda semántica: Utilice la Búsqueda Vectorial para indexar y consultar sus datos vectoriales. La Búsqueda Vectorial le permite consultar datos según su significado semántico, recuperando los resultados más relevantes para su aplicación de búsqueda de videos.
Autores
Benjamin Lorenz, MongoDB
Diego Canales, MongoDB