Descubra como você pode implementar recursos de pesquisa de vídeo em seus aplicativos de mídia usando os modelos de incorporação multimodal do MongoDB Atlas e Voyage AI.
Casos de uso: Gen AI
Setores: mídia
Produtos: MongoDB Atlas, MongoDB Atlas Vector Search, Voyage AI Multimodal Embeddings
Parceiros: IA aberta para conversão de voz para texto
Visão Geral da Solução
O setor de mídia e entretenimento está adotando a transformação digital para impulsionar estratégias de crescimento. De acordo com um pesquisa da PWC, espera-se que as receitas do setor cresçam a uma 3 7taxa de crescimento 2025 anual 2029 composta de. %2 9 35 de para, aumentando de US$. triliões para US$. triliões 2029 em. Para as empresas de mídia, a força motriz desse crescimento é o entretenimento em vídeo gerado por plataformas de vídeo social, streaming on-demand e canais de notícias.
Somente nos EUA, os consumidores gastam uma média de seis horas por dia com conteúdo de mídia e passatempo, mais da metade das quais é dedicada a vídeo. As empresas de mídia devem capitalizar esses dados de vídeo para oferecer experiências de vídeo premium para seus clientes e simplificar as operações. O uso de dados de vídeo permite o desenvolvimento de aplicativos inovadores, como a pesquisa semântica de vídeos.
A pesquisa semântica de vídeo permite que os usuários encontrem conteúdo específico em vídeos com base em seu significado contextual. Essa técnica usa incorporações e recursos de pesquisa vetorial para transformar o conteúdo de vídeo em valores numéricos que podem ser processados por algoritmos computacionais. Por exemplo, os usuários podem fornecer uma query , como viaturas da policia na viatura , para a aplicação de pesquisa de vídeo , que então localiza a sequência correspondente no vídeo.
Esta solução mostra como implementar um serviço de pesquisa semântica de vídeo para um aplicação de mídia. Nesse serviço, o MongoDB Atlas oferece suporte a recursos de armazenamento de dados e pesquisa vetorial, enquanto o Voyage AI fornece incorporações multimodais. Essa funcionalidade oferece os seguintes benefícios:
Permite melhores experiências de usuário com descoberta aprimorada de conteúdo.
Reduz o tempo gasto procurando informações em vídeos longos, melhorando a eficiência.
Gera receita ao chamar novos grupos de cliente e aumentar a fidelidade dos existentes.
Você pode estender os conceitos desta solução a outros setores, como seguros, comunicações ou varejo.
Arquiteturas de referência
Essa estrutura usa o MongoDB Atlas para armazenamento de dados e pesquisa semântica, o Voyage AI para incorporações e o Open AI para converter voz em texto. A implementação pré-processa vídeo e áudio e, em seguida, usa um componente de pesquisa semântica. A figura 1 representa o pré-processamento de vídeo e imagem.
figura 1. Framework de processamento de vídeo
O fluxo de trabalho funciona da seguinte forma:
A biblioteca Python do
moviepy
transforma o arquivo de filme MP4 em armações de imagem e um arquivo de áudio MP3.A biblioteca
pydub
converte áudio em chunks.Um fornecedor de voz para texto converte chunks de áudio em texto.
A Voyage AI transforma pares de texto e imagens em incorporações com um modelo de incorporação multimodal. As incorporações codificam essas formas em um único transformação, criando uma representação vetorial unificada que captura o significado de imagens e texto juntos.
O MongoDB Atlas armazena vetores e seus metadados como documentos com carimbos de data/hora que identificam documentos individuais.
Após o pré-processamento, você pode criar seus índices do Vector Search e realizar pesquisas semânticas em seu aplicação. A imagem abaixo representa este processo:
figura 2. Processo de pesquisa de vídeo com MongoDB
Nesse fluxo de trabalho, o Vector Search encontra os metadados do melhor vídeo correspondente e seu registro de data e hora. Com essas informações, o aplicação exibe os resultados no deslocamento de vídeo apropriado.
Agora você pode pesquisar conteúdo exibido no vídeo, como beisebol ou car joga ultra. Nesse aplicação, a solução seleciona um dos dois vídeos disponíveis e o reproduz a partir do deslocamento de vídeo apropriado.
Abordagem do modelo de dados
As incorporações vetoriais convertem texto, voz e frases em valores numéricos que representam seu significado. Com base nesse conceito, os modelos de incorporação multimodal vetorizam texto e imagens intercalados em um único espaço vetorial com a mesma dimensionalidade.
Você pode usar a flexibilidade do modelo de documento para armazenar incorporações multimodais junto com seus metadados em um único documento. O seguinte código mostra um documento de amostra:
{ "movie": "mymovie" , "offset": 0, "text_offset": 0, "embedding": [<list of floats>] }
O campo embedding
contém as informações conjuntos de imagens e texto incorporados. Os metadados incluem o nome do vídeo, o deslocamento da imagem e o deslocamento da voz. Você pode adaptar essa estrutura às suas necessidades específicas.
Construir a solução
Siga estas etapas para replicar a solução de pesquisa de vídeo usando o ist.media
repositório GitHub do MongoDB . Você pode usar essa estrutura como expiração para criar sua própria solução personalizada.
Configurar suas variáveis de ambiente
Defina suas variáveis de ambiente para diferentes componentes desta solução executando os seguintes comandos:
MongoDB Atlas cluster:
export MONGODB_IST_MEDIA=<your token> Incorporações do Voyage AI:
export VOYAGE_API_KEY=<your_token> Open AI token:
export OPENAI_API_KEY=<your_token>
Implemente a ist.media
demonstraçãodo
Clone o repositório do ist.media
GitHub e siga as instruções do README
para implantar a demonstração.
Teste os recursos de pesquisa de vídeo na demonstração
Vá para a guia pesquisa de vídeo e teste os recursos de pesquisa de vídeo. Use palavras sugeridas, como policia ou Grego, para experimentar os trabalhos do seu aplicação de pesquisa de vídeo.
figura 3. Serviço de pesquisa de vídeo na demonstração de mídia IST
Use seus próprios vídeos
A pasta de vídeo no repositório GitHub controla o serviço de pesquisa de vídeo. Vá para README
e siga as instruções dos scripts de assistente para adaptar a solução às suas necessidades.
Principais Aprendizados
Armazene metadados e incorporações juntos: armazene suas incorporações e seus metadados em um único documento com o modelo de documento flexível do MongoDB. Essa estrutura alimenta aplicativos orientados por IA com recursos avançados, como pesquisa de vídeo semântica.
Use modelos de incorporação multimodais: transforme dados não estruturados de múltiplas modos, como imagens e texto, em um espaço vetorial compartilhado com modelos de incorporação multimodais. Você pode usar o modelo priority-multimodal-3 da Voyage AI para vetorizar diretamente entradas contendo texto e imagens intercaladas.
Habilite os recursos de pesquisa semântica: use o Vector Search para indexar e consultar seus dados vetoriais. O Vector Search permite consultar dados com base em seu significado semântica, recuperando os resultados mais relevantes para seu aplicação de pesquisa de vídeo.
Autores
Benjamin Lorenz, MongoDB
Diego Canales, MongoDB