Conversão de notícias de texto para áudio com IA generativa

Combine a IA generativa para criação de podcasts e o MongoDB para armazenamento de dados a fim de automatizar e dimensionar a transmissão de notícias.

Casos de uso: Gen AI

Setores: mídia

Produtos: MongoDB Atlas, Framework de agregação do MongoDB Atlas, MongoDB Atlas Vector Search

Parceiros: Google NotebookLM

Visão Geral da Solução

O aumento na demanda por conteúdo de áudio levou as organizações de notícias a buscar maneiras eficientes de entregar resumos diários. Por exemplo, os podcasts têm 9 milhões de ouvintes por ano somente nos EUA. No entanto, automatizar esse processo é desafiador, pois envolve gerenciar dados dinâmicos de artigos e convertê-los em experiências de áudio de alta qualidade.

Com o MongoDB e a IA generativa, é possível desenvolver uma solução de automação de notícias para otimizar e dimensionar a criação de podcasts. O MongoDB serve como a camada central de dados do sistema, gerenciando com eficiência artigos de notícias como documentos flexíveis e sem esquema em uma única coleção. Esses documentos capturam informações estáticas, como título, conteúdo e data de publicação, e métricas dinâmicas que monitoram o desempenho e a popularidade do artigo ao longo do tempo, como o número de leituras qualificadas. Você também pode armazenar insights derivados, como análise de sentimentos e entidades importantes, em sua coleção do MongoDB e enriquecê-las com um pipeline de IA generativa.

Essa estrutura adaptável fornece um framework robusto para query e extração das últimas notícias e metadados. Você pode transformar essas informações em podcasts de áudio integrando modelos de linguagem avançados. Com essa base estabelecida, é possível desbloquear oportunidades de negócios orientadas por AI, atrair novos clientes e aumentar os fluxos de receita.

Arquiteturas de referência

Para implementar esse framework, é necessário o MongoDB para armazenamento de dados e a síntese de voz com AI para a criação de áudio. Você pode usar o modelo NotebookLM do Google para refinar o texto de notícias com entoação e ritmo precisos. O diagrama a seguir descreve o fluxo de trabalho para converter resumos de notícias em áudio:

visualização para conversão de texto em áudio

Figura 1. Arquitetura de conversão de texto para áudio com base em AI

Recuperar artigos: use a agregação e o Atlas Vector Search para buscar artigos de notícias relevantes do banco de dados.
Gerar script de podcast: passe os artigos por um pipeline de AI para criar um script de podcast estruturado e com várias vozes.
Converter em áudio: utilize modelos avançados de conversão de texto em fala para transformar o script em áudio de alta qualidade, armazenado como um arquivo .wav.
Otimizar a entrega: armazene o podcast gerado em cache para garantir uma reprodução perfeita e sob demanda para os usuários.

Esse framework fornece narração de alta qualidade e semelhante à humana no formato MP3, proporcionando aos usuários uma experiência de escuta profissional e envolvente.

Construir a solução

Siga estas etapas para criar uma solução de texto para áudio usando o repositório do MongoDB ist.mídia no Github. Você pode usar esse framework como inspiração para criar seu próprio pipeline personalizado de texto para áudio.

Implantar a demo do ist.mídia

Clone o repositório ist.mídia no Github e siga as instruções README para implantar a demo.

Criar um feed de notícias

Execute a demonstração e verifique se o ponto de extremidade /feed fornece o feed de notícias para o dia atual. Como alternativa, se você preferir não usar os mecanismos de coleção de notícias do ist.mídia, pode fornecer seus próprios dados, que são servidos estaticamente pelo ponto de extremidade no mesmo formato.

Gerar conversão de texto em áudio

Execute o script podcast.py na demo ist.mídia. Esse script utiliza a API AutoContent para gerar o podcast. Em seguida, ele o baixa e salva com a data (dia/mês/ano) no nome do arquivo.

Principais Aprendizados

Para criar uma solução de mídia que converta dados de notícias em conteúdo de áudio, é necessário um sistema que seja flexível, rápido e capaz de dimensionar facilmente. O MongoDB torna isso possível por meio dos seguintes pontos fortes:

O document model lida com diversos atributos: os dados de notícias combinam vários atributos, incluindo campos estáticos, como ID, título, data e corpo; metadados dinâmicos, como contagem de leituras; insights gerados por AI, como palavras-chave e sentimento do artigo; e incorporações para pesquisa semântica. O document model oferece suporte a todos esses elementos, removendo as limitações do banco de dados e permitindo que o sistema evolua sem problemas.
A velocidade garante eficiência operacional: ao processar documentos completos e autônomos, o MongoDB evita operações complexas, permitindo análises mais rápidas e a transformação quase em tempo real de artigos em conteúdo de áudio.
Os sistemas dimensionáveis permitem o crescimento: o MongoDB Atlas lida com pequenas alterações e grandes volumes de dados de modo suave, garantindo alto desempenho e confiabilidade à medida que seu aplicativo de mídia cresce.
Os sistemas flexíveis capacitam os desenvolvedores: sem esquemas fixos, os desenvolvedores podem facilmente adicionar novas informações, como insights de AI, métricas de público ou atualizações editoriais. Isso simplifica a adaptação e a resposta à evolução do consumo de notícias.

Autores

Benjamin Lorenz, MongoDB
Diego Canales, MongoDB

Saiba mais

Voltar

Pesquisa semântica de vídeo

Amplie marcas em tempo real para o crescimento do varejo