Combine IA generativa para la creación de podcasts y MongoDB para el almacenamiento de datos para automatizar y escalar la transmisión de noticias.
Casos de uso: Gen AI
Industrias: Medios de comunicación
Productos: MongoDB Atlas, Marco de agregación deMongoDB,Búsqueda vectorial de MongoDB Atlas
Socios: Google NotebookLM
Resumen de la solución
El aumento de la demanda de contenido de audio ha impulsado a las organizaciones de noticias a buscar formas eficientes de ofrecer resúmenes diarios. Por ejemplo, los podcasts tienen 9 millones de oyentes al año solo en EE. UU. Sin embargo, automatizar este proceso es un desafío, ya que implica gestionar datos dinámicos de artículos y convertirlos en experiencias de audio de alta calidad.
Con MongoDB e IA generativa, puedes construir una solución automatizada de noticias para agilizar y escalar la creación de podcasts. MongoDB sirve como la capa central de datos del sistema, gestionando eficientemente los artículos de noticias como documentos flexibles y sin esquema dentro de una única colección. Estos documentos capturan tanto información estática—como título, contenido y fecha de publicación—como métricas dinámicas que supervisan el rendimiento del artículo y su popularidad a lo largo del tiempo, como el número de lecturas calificadas. También puedes almacenar perspectivas derivadas, como análisis de sentimiento y entidades clave, en tu colección de MongoDB y enriquecerlas con una pipeline de IA generativa.
Esta estructura adaptable proporciona un marco robusto para consultar y extraer las últimas noticias y metadatos. Posteriormente, puede transformar esta información en podcasts de audio mediante la integración de modelos de lenguaje avanzados. Con esta base, puede aprovechar oportunidades de negocio impulsadas por la IA, atraer nuevos clientes y aumentar sus ingresos.
Arquitecturas de Referencia
Para implementar este marco, necesita MongoDB para el almacenamiento de datos y síntesis de voz con IA para la creación de audio. Puede usar el modelo NotebookLM de Google para refinar el texto de las noticias con una entonación y un ritmo precisos. El siguiente diagrama describe el flujo de trabajo para convertir resúmenes de noticias en audio:
Figura 1. Arquitectura de conversión de texto a audio basada en IA
Recuperar artículos: Utiliza agregación y Atlas Vector Search para recuperar artículos de noticias relevantes de la base de datos.
Generar guión de podcast: pase los artículos a través de un proceso de inteligencia artificial para crear un guión de podcast estructurado y con múltiples voces.
Convertir a audio: utilice modelos avanzados de texto a voz para transformar el guión en audio de alta calidad, almacenado como un
.wav.env.Optimizar la entrega: almacene en caché el podcast generado para garantizar una reproducción fluida y a pedido para los usuarios.
Este marco ofrece una narración de alta calidad y con calidad humana en formato MP3, brindando a los usuarios una experiencia auditiva profesional y atractiva.
Construir la solución
Sigue estos pasos para crear una solución de texto a audio con el repositorio de GitHub ist.media de MongoDB. Puedes usar este framework como inspiración para crear tu propia canalización de texto a audio personalizada.
Implementar la demostración de ist.media
Clone el repositorio github ist.media y siga las README instrucciones para implementar la demostración.
Crear un feed de noticias
Ejecute la demostración y verifique que el punto final /feed proporcione las noticias del día actual. Si prefiere no usar los mecanismos de recopilación de noticias de ist.media, puede proporcionar sus propios datos, que el punto final proporciona estáticamente en el mismo formato.
Generar conversión de texto a audio
Ejecute el script podcast.py en la demostración de ist.media. Este script utiliza la API AutoContent para generar el podcast. Luego, lo descarga y lo guarda con la fecha (día/mes/año) en el nombre del archivo.
Aprendizajes clave
Para crear una solución multimedia que convierta datos de noticias en contenido de audio, se necesita un sistema flexible, rápido y escalable. MongoDB lo hace posible gracias a estas fortalezas fundamentales:
El modelo de documento gestiona diversos atributos: los datos de noticias combinan varios atributos, incluyendo campos estáticos como ID, título, fecha y cuerpo; metadatos dinámicos como el recuento de lecturas; información generada por IA, como palabras clave y opiniones sobre los artículos; e incrustaciones para búsqueda semántica. El modelo de documento admite todos estos elementos, eliminando las limitaciones de la base de datos y permitiendo que el sistema evolucione fluidamente.
La velocidad garantiza la eficiencia operativa: al procesar documentos completos e independientes, MongoDB evita operaciones complejas, lo que permite un análisis más rápido y una transformación casi en tiempo real de artículos en contenido de audio.
Los sistemas escalables permiten el crecimiento: MongoDB Atlas maneja sin problemas tanto pequeños cambios como grandes cantidades de datos, lo que garantiza un alto rendimiento y confiabilidad a medida que su aplicación multimedia crece.
Los sistemas flexibles potencian a los desarrolladores: Sin esquemas fijos, pueden añadir fácilmente nueva información, como información de IA, métricas de audiencia o actualizaciones editoriales. Esto facilita la adaptación y la respuesta a la evolución del consumo de noticias.
Autores
Benjamin Lorenz, MongoDB
Diego Canales, MongoDB