Join us Sept 17 at .local NYC! Use code WEB50 to save 50% on tickets. Learn more >
MongoDB Event
Docs Menu
Docs Home
/ /
Atlas Architecture Center
/ / /

生成系AIを用いたニュースのテキストから音声への変換

生成系 AI と MongoDB を組み合わせてポッドキャストを作成し、データ ストレージを活用してニュース放送の自動化とスケーリングを実現します。

ユースケース: Gen AI

業種:メディア

製品: MongoDB AtlasMongoDB 集計フレームワークMongoDB Atlas Vector Search

パートナー: Google ノートブックLM

音声コンテンツの需要の高まりにより、ニュース組織は日々の要約を効率的に提供する方法を模索しています。たとえば、ポッドキャストは米国だけで年間 900 万人以上のリスナーを獲得しています。ただし、このプロセスを自動化するのは困難です。なぜなら、それには動的な記事データの管理と、それを高品質な音声体験に変換する作業が伴うからです。

MongoDB と生成系 AI を活用することで、ニュース自動化ソリューションをビルドし、ポッドキャスト制作の効率化とスケーリングを実現できます。MongoDB は、システムの中核となるデータレイヤーとして機能し、柔軟でスキーマレスなドキュメントを単一のコレクション内で使用して、ニュース記事を効率的に管理します。これらのドキュメントは、タイトル、コンテンツ、公開日などの静的情報と、記事のパフォーマンスや時間経過による人気度(たとえば、有効な閲覧数など)を監視する動的メトリクスの両方を記録します。また、MongoDB のコレクション内に、感情分析や主要エンティティなどの派生インサイトを保存し、生成系 AI パイプラインでそれらを拡張することも可能です。

この柔軟な構造は、最新のニュースやメタデータをクエリして抽出するための堅牢なフレームワークを提供します。さらに、こうした情報を音声ポッドキャストに変換するために、高度な言語モデルを統合することができます。この基盤を構築することで、AI 主導のビジネス機会を活用し、新規顧客を獲得し、収益源を拡大することができます。

このフレームワークを実装するには、データストレージ用の MongoDB と、音声合成による音声コンテンツの生成に対応した AI 技術が必要です。Google の NotebookLM モデルを活用することで、ニュース原稿のイントネーションや話速を調整し、正確に最適化することが可能です。以下の図は、ニュース要約を音声に変換するためのワークフローを示しています:

テキストから音声への変換の可視化

図1。AIベースのテキストから音声への変換アーキテクチャ

  1. 記事の検索: 集計Atlas Vector Search を使用して、データベースから関連するニュース記事を取得します。

  2. ポッドキャスト スクリプトの生成: 記事を AI パイプラインに通し、構造化された複数話者によるポッドキャスト スクリプトを作成します。

  3. 音声に変換: 高度なテキスト読み上げモデルを使用して、スクリプトを高品質の音声に変換し、.wavファイルとして保存します。

  4. 配信の最適化: 生成されたポッドキャストをキャッシュして、ユーザーがシームレスにオンデマンドで再生できるようにします。

このフレームワークは、高品質で人間のようなナレーションを MP3 形式で提供し、ユーザーにプロフェッショナルで魅力的なリスニング体験を提供します。

MongoDB ist.media リポジトリを使用して、テキストから音声へのソリューションをビルドするには、以下のステップに従ってください。このフレームワークを参考にして、自社向けにカスタマイズしたテキストから音声へのソリューションをビルドすることができます。

1

list を複製します。メディアGithubリポジトリを参照し、 の手順に従ってデモを配置します。README

2

デモを実行し、/feed エンドポイントが当日のニュース フィードを提供していることを確認してください。ist.media のニュース コレクション メカニズムを使用したくない場合は、独自のデータを提供することも可能です。そのデータは、同じフォーマットでエンドポイント経由により静的に配信されます。

3

ist.media デモ内のpodcast.py スクリプトを実行します。このスクリプトは AutoContent API を使用して、ポッドキャストを生成します。その後、日付(⽇/⽉/年)をファイル名に付けて、ダウンロードおよび保存されます。

ニュース データを音声コンテンツに変換するメディア ソリューションを構築するには、柔軟性が高く、高速で、容易にスケール可能なシステムが必要です。MongoDB は、以下の中核的な強みを通じてこれを可能にします。

  • ドキュメント モデルは多様な属性を取り扱う: ニュース データは、ID、タイトル、日付、本文などの静的フィールドと、閲覧数などの動的メタデータ、キーワードや記事の感情、埋め込みなどの AI 生成のインサイト、意味検索向けの属性など、さまざまな属性を組み合わせています。ドキュメント モデルは、これらすべての要素をサポートしており、データベースの制限を排除し、システムが円滑に進化することを可能にします。

  • スピードが運用効率を確保する: 自己完結型のドキュメントを処理することで、MongoDB は複雑なオペレーションを回避し、高速な分析と、記事を音声コンテンツへと変換するほぼリアルタイムな処理を実現します。

  • スケーラブルなシステムが成長を可能にする: MongoDB Atlas は、小さな変更から大量データの処理までスムーズに対応し、メディア アプリケーションの拡大に伴っても高いパフォーマンスと信頼性を維持します。

  • 柔軟なシステムが開発者に力を与える: 固定されたスキーマがないため、開発者は AI インサイト、オーディエンス メトリクス、編集更新などの新しい情報を簡単に追加できます。これにより、進化するニュース消費への適応と対応が容易になります。

  • Benjamin Lorenz, MongoDB

  • Diego Canales, MongoDB

  • MongoDB と Vector Search を活用した、AI 主導のメディア パーソナライゼーション

  • AI を活用したネットワーク管理用チャットボット

  • 生成AIを活用した動画要約

戻る

セマンティック ビデオ検索

項目一覧