Docs 菜单
Docs 主页
/

使用生成式人工智能实现文本到音频的新闻转换

将用于播客创建的生成式 AI 与用于数据存储的 MongoDB 相结合,实现自动化新闻播报并扩展播报范围。

使用案例: Gen AI

行业: 媒体

产品: MongoDB AtlasMongoDB 聚合框架MongoDB Atlas Vector Search

合作伙伴: Google NotebookLM

对音频内容的需求激增促使新闻机构寻求高效的方法来播报每日新闻摘要。比如,仅在美国,每年就有 9 百万播客听众。然而,实现此过程的自动化颇具挑战,因为它涉及管理动态文章数据并将数据转换为高质量的音频体验。

借助 MongoDB 和生成式 AI,您可以构建一个新闻自动化解决方案,以简化播客的创建,扩展播客的听众范围。MongoDB 作为系统的核心数据层,能够将新闻文章作为单个集合中的灵活、无模式文档进行高效管理。这些文档既记录了静态信息(如标题、内容和发布日期),又包含动态指标,用于监控文章随时间推移的质量和受欢迎程度,例如有效阅读次数。您还可以在 MongoDB 集合中存储得出的见解,例如情感分析和关键实体,并使用生成式 AI 管道来扩充此类内容。

这种具有较强适应性的结构提供了一个强大的框架来查询和提取最新的新闻和元数据。然后,您可以通过集成先进的语言模型将这些信息转换为音频播客。在此基础上,您便可以解锁 AI 驱动的商机,吸引新客户并增加收入来源。

要实现此框架,您需要将 MongoDB 用于数据存储,并需要 AI 驱动的语音合成来创建音频。您可以使用 Google 的 NotebookLM 模型,以准确的语调和节奏来优化新闻文本。下图概述了将新闻摘要转换为音频的工作流程:

文本到音频转换的可视化

图1。基于 AI 的文本到音频转换架构

  1. 检索文章:使用聚合Atlas Vector Search 从数据库中获取相关的新闻文章。

  2. 生成播客脚本:将文章通过 AI 管道处理,以创建结构化的多语音播客脚本。

  3. 转换为音频:使用高级文本转语音模型将脚本转换为高质量音频,并存储为 .wav 文件。

  4. 优化交付:缓存生成的播客,确保用户能够根据需要流畅播放。

此框架以 MP3 格式提供高质量、类似人类的旁白,为用户提供专业且引人入胜的聆听体验。

按照以下步骤,使用 MongoDB ist.media GitHub 存储库构建文本到音频解决方案。您可以将此框架作为灵感,来构建自己的定制化文本到音频管道。

1

克隆 ist.media github 存储库,并按照README说明部署演示。

2

运行演示并验证 /feed 终结点是否提供当天的新闻源。或者,如果您不想使用 ist.media 新闻集合机制,可以提供自己的数据,这些数据将由终结点以静态形式按相同格式提供。

3

在 ist.media 演示中运行 podcast.py 脚本。此脚本使用 AutoContent API 来生成播客。然后将下载并保存播客文件,且文件名中包含日期(日/月/年)。

要创建一个将新闻数据转换为音频内容的媒体解决方案,您需要一个灵活、快速且易于扩展的系统。MongoDB 凭借以下核心优势满足了此类需求:

  • 文档模型可处理多样化属性:新闻数据结合了多种属性,包括 ID、标题、日期和正文等静态字段,阅读次数等动态元数据,AI 生成的见解,如关键字和文章情感,以及用于语义搜索的嵌入。文档模型支持所有这些元素,消除了数据库限制,使系统能够平稳推进。

  • 速度确保了运营效率:通过处理完整的自包含文档,MongoDB 避免了复杂的操作,从而实现更快速的分析和近乎实时的文章向音频内容的转换。

  • 可扩展系统促进增长:MongoDB Atlas 能够顺畅处理小规模变更和大量数据,确保在媒体应用程序增长过程中始终保持高性能和高可靠性。

  • 灵活系统为开发者赋能:无固定模式,开发者可以轻松添加新信息,如 AI 见解、受众指标或编辑更新。这样便可以轻松适应并响应不断变化的新闻消费趋势。

  • Benjamin Lorenz, MongoDB

  • Diego Canales, MongoDB

  • 使用 MongoDB 和向量搜索进行 AI 驱动的媒体个性化

  • 用于网络管理的 AI 驱动聊天机器人

  • 生成式 AI 驱动的视频摘要

后退

语义视频搜索

在此页面上