Join us Sept 17 at .local NYC! Use code WEB50 to save 50% on tickets. Learn more >
MongoDB Event
Menu Docs
Página inicial do Docs
/ /
Centro de Arquitetura Atlas
/ / /

Aprimore as experiências de mídia com a pesquisa semântica de vídeos

Descubra como você pode implementar recursos de pesquisa de vídeo em seus aplicativos de mídia usando os modelos de incorporação multimodal do MongoDB Atlas e Voyage AI.

Casos de uso: Gen AI

Setores: mídia

Produtos: MongoDB Atlas, MongoDB Atlas Vector Search, Voyage AI Multimodal Embeddings

Parceiros: IA aberta para conversão de voz para texto

O setor de mídia e entretenimento está adotando a transformação digital para impulsionar estratégias de crescimento. De acordo com um pesquisa da PWC, espera-se que as receitas do setor cresçam a uma 3 7taxa de crescimento 2025 anual 2029 composta de. %2 9 35 de para, aumentando de US$. triliões para US$. triliões 2029 em. Para as empresas de mídia, a força motriz desse crescimento é o entretenimento em vídeo gerado por plataformas de vídeo social, streaming on-demand e canais de notícias.

Somente nos EUA, os consumidores gastam uma média de seis horas por dia com conteúdo de mídia e passatempo, mais da metade das quais é dedicada a vídeo. As empresas de mídia devem capitalizar esses dados de vídeo para oferecer experiências de vídeo premium para seus clientes e simplificar as operações. O uso de dados de vídeo permite o desenvolvimento de aplicativos inovadores, como a pesquisa semântica de vídeos.

A pesquisa semântica de vídeo permite que os usuários encontrem conteúdo específico em vídeos com base em seu significado contextual. Essa técnica usa incorporações e recursos de pesquisa vetorial para transformar o conteúdo de vídeo em valores numéricos que podem ser processados por algoritmos computacionais. Por exemplo, os usuários podem fornecer uma query , como viaturas da policia na viatura , para a aplicação de pesquisa de vídeo , que então localiza a sequência correspondente no vídeo.

Esta solução mostra como implementar um serviço de pesquisa semântica de vídeo para um aplicação de mídia. Nesse serviço, o MongoDB Atlas oferece suporte a recursos de armazenamento de dados e pesquisa vetorial, enquanto o Voyage AI fornece incorporações multimodais. Essa funcionalidade oferece os seguintes benefícios:

  • Permite melhores experiências de usuário com descoberta aprimorada de conteúdo.

  • Reduz o tempo gasto procurando informações em vídeos longos, melhorando a eficiência.

  • Gera receita ao chamar novos grupos de cliente e aumentar a fidelidade dos existentes.

Você pode estender os conceitos desta solução a outros setores, como seguros, comunicações ou varejo.

Essa estrutura usa o MongoDB Atlas para armazenamento de dados e pesquisa semântica, o Voyage AI para incorporações e o Open AI para converter voz em texto. A implementação pré-processa vídeo e áudio e, em seguida, usa um componente de pesquisa semântica. A figura 1 representa o pré-processamento de vídeo e imagem.

visualização para conversão de texto em áudio

figura 1. Framework de processamento de vídeo

O fluxo de trabalho funciona da seguinte forma:

  1. A biblioteca Python do moviepy transforma o arquivo de filme MP4 em armações de imagem e um arquivo de áudio MP3.

  2. A biblioteca pydub converte áudio em chunks.

  3. Um fornecedor de voz para texto converte chunks de áudio em texto.

  4. A Voyage AI transforma pares de texto e imagens em incorporações com um modelo de incorporação multimodal. As incorporações codificam essas formas em um único transformação, criando uma representação vetorial unificada que captura o significado de imagens e texto juntos.

  5. O MongoDB Atlas armazena vetores e seus metadados como documentos com carimbos de data/hora que identificam documentos individuais.

Após o pré-processamento, você pode criar seus índices do Vector Search e realizar pesquisas semânticas em seu aplicação. A imagem abaixo representa este processo:

visualização de um processo de pesquisa de vídeo com MongoDB

figura 2. Processo de pesquisa de vídeo com MongoDB

Nesse fluxo de trabalho, o Vector Search encontra os metadados do melhor vídeo correspondente e seu registro de data e hora. Com essas informações, o aplicação exibe os resultados no deslocamento de vídeo apropriado.

Agora você pode pesquisar conteúdo exibido no vídeo, como beisebol ou car joga ultra. Nesse aplicação, a solução seleciona um dos dois vídeos disponíveis e o reproduz a partir do deslocamento de vídeo apropriado.

As incorporações vetoriais convertem texto, voz e frases em valores numéricos que representam seu significado. Com base nesse conceito, os modelos de incorporação multimodal vetorizam texto e imagens intercalados em um único espaço vetorial com a mesma dimensionalidade.

Você pode usar a flexibilidade do modelo de documento para armazenar incorporações multimodais junto com seus metadados em um único documento. O seguinte código mostra um documento de amostra:

{
"movie": "mymovie" ,
"offset": 0,
"text_offset": 0,
"embedding": [<list of floats>]
}

O campo embedding contém as informações conjuntos de imagens e texto incorporados. Os metadados incluem o nome do vídeo, o deslocamento da imagem e o deslocamento da voz. Você pode adaptar essa estrutura às suas necessidades específicas.

Siga estas etapas para replicar a solução de pesquisa de vídeo usando o ist.media repositório GitHub do MongoDB . Você pode usar essa estrutura como expiração para criar sua própria solução personalizada.

1

Defina suas variáveis de ambiente para diferentes componentes desta solução executando os seguintes comandos:

  • MongoDB Atlas cluster:

    export MONGODB_IST_MEDIA=<your token>
  • Incorporações do Voyage AI:

    export VOYAGE_API_KEY=<your_token>
  • Open AI token:

    export OPENAI_API_KEY=<your_token>
2

Clone o repositório do ist.media GitHub e siga as instruções do README para implantar a demonstração.

3

Vá para a guia pesquisa de vídeo e teste os recursos de pesquisa de vídeo. Use palavras sugeridas, como policia ou Grego, para experimentar os trabalhos do seu aplicação de pesquisa de vídeo.

visualização para a demonstração das ist media

figura 3. Serviço de pesquisa de vídeo na demonstração de mídia IST

4

A pasta de vídeo no repositório GitHub controla o serviço de pesquisa de vídeo. Vá para README e siga as instruções dos scripts de assistente para adaptar a solução às suas necessidades.

  • Armazene metadados e incorporações juntos: armazene suas incorporações e seus metadados em um único documento com o modelo de documento flexível do MongoDB. Essa estrutura alimenta aplicativos orientados por IA com recursos avançados, como pesquisa de vídeo semântica.

  • Use modelos de incorporação multimodais: transforme dados não estruturados de múltiplas modos, como imagens e texto, em um espaço vetorial compartilhado com modelos de incorporação multimodais. Você pode usar o modelo priority-multimodal-3 da Voyage AI para vetorizar diretamente entradas contendo texto e imagens intercaladas.

  • Habilite os recursos de pesquisa semântica: use o Vector Search para indexar e consultar seus dados vetoriais. O Vector Search permite consultar dados com base em seu significado semântica, recuperando os resultados mais relevantes para seu aplicação de pesquisa de vídeo.

  • Benjamin Lorenz, MongoDB

  • Diego Canales, MongoDB

  • Personalização de mídia impulsionada por AI com a MongoDB e pesquisa vetorial

  • Chatbot com tecnologia de IA para gerenciamento de rede

  • Conversão de notícias de texto para áudio com IA generativa

Voltar

Resumo de vídeo com tecnologia GenAI

Nesta página