通过语义视频搜索增强媒体体验

了解如何使用MongoDB Atlas和 Voyage AI 的多模态嵌入模型在媒体应用程序中实现视频搜索功能。

使用案例： Gen AI

行业： 媒体

产品： MongoDB Atlas、MongoDB Atlas Vector Search、Voyage AI多模式嵌入

解决方案概述

媒体和娱乐行业正在采用数字化转型来推动增长战略。普华永道 (PWC) 的一项研究表明，行业收入预计将以.3 7% 的速度增长复合年增长率从 2025 提高到 2029，2029 的产值从 2.9 万亿美元增至 3.5 万亿美元。对于媒体公司来说，这种增长的驱动力是通过社交视频平台、按需流媒体和新闻频道产生的视频娱乐。

仅在美国，消费者每天平均花六个小时观看媒体和娱乐内容，其中一半以上用于视频。媒体公司必须利用这些视频数据，为客户提供优质的视频体验并简化运营。利用视频数据可以开发创新应用程序，例如语义视频搜索。

语义视频搜索使用户能够根据视频的上下文含义查找视频中的特定内容。该技术使用嵌入和向量搜索功能将视频内容转换为可以由计算算法处理的数值。示例，用户可以向视频搜索应用程序提供查询，例如道路上有警车，然后视频搜索应用程序会找到视频中的相应场景。

该解决方案展示了如何为媒体应用程序实现语义视频搜索服务。在此服务中， MongoDB Atlas支持数据存储和向量搜索功能，而 Voyage AI提供多模态嵌入。此功能具有以下优点：

通过增强的内容发现功能，实现更好的用户体验。
减少在冗长视频中搜索信息所花费的时间，从而提高效率。
通过吸引新客户群和提高现有客户群的忠诚度来增加收入。

您可以将此解决方案的概念扩展到其他行业，例如保险、电信或零售。

参考架构

该框架使用MongoDB Atlas进行数据存储和语义搜索，使用 Voyage AI进行嵌入，并使用 Open AI将语音转换为文本。该实施对视频和音频进行预处理，然后使用语义搜索组件。图 1 表示视频和图像预处理。

图 1。视频处理框架

工作流程如下：

moviepy Python库将 MP4 电影文件转换为图像帧和 MP3 音频文件。
pydub 库将音频转换为数据段。
语音转文本提供商将音频数据段转换为文本。
Voyage AI使用多模态嵌入模型将成对的文本和图像转换为嵌入。嵌入将这些模态编码在单个转换器中，创建一个统一的向量表示，同时捕获视觉和文本的含义。
MongoDB Atlas将向量及其元数据存储为文档，并带有可标识单个文档的时间戳。

预处理后，您可以创建向量搜索索引并在应用程序中执行语义搜索。下图展示了这个进程：

图 2。使用MongoDB进行视频搜索进程

在此工作流程中，Vector Search 会查找最匹配视频的元数据及其时间戳。有了这些信息，应用程序就会在适当的视频偏移处显示结果。

现在，您可以搜索视频中显示的内容，例如“篮球”或“汽车播放超级”。在此应用程序中，该解决方案选择两个可用视频之一，并从适当的视频偏移量播放。

数据模型方法

向量嵌入将文本、语音和句子转换为表示其含义的数值。在此概念的基础上，多模态嵌入模型将交错的文本和图像矢量化到具有相同维度的单个向量空间中。

您可以利用文档模型的灵活性，将多模态嵌入及其元数据存储在单个文档中。以下代码显示了一个示例文档：

{
  "movie": "mymovie" ,
  "offset": 0,
  "text_offset": 0,
  "embedding": [<list of floats>]
}

embedding字段包含嵌入式图像和文本的联合信息。元数据包括视频名称、图像偏移和语音偏移。您可以根据您的特定要求调整此结构。

构建解决方案

请按照以下步骤使用MongoDB ist.media Github存储库复制视频搜索解决方案。您可以以此框架为灵感，构建自己的定制解决方案。

设置环境变量

通过运行以下命令，为此解决方案的不同组件设置环境变量：

MongoDB Atlas cluster:
```
export MONGODB_IST_MEDIA=<your token>
```
Voyage AI嵌入：
```
export VOYAGE_API_KEY=<your_token>
```
Open AI token:
```
export OPENAI_API_KEY=<your_token>
```

部署演示`ist.media`

克隆 ist.media Github存储库并按照 README 说明部署演示。

在演示中测试视频搜索功能

Go视频搜索标签页并测试视频搜索功能。使用建议的词语（例如“警察”或“希腊”）来试验视频搜索应用程序的运行效果。

图 3。IST Media 演示中的视频搜索服务

使用您自己的视频

Github存储库中的视频文件夹控制着视频搜索服务。GoREADME 并按照帮助程序脚本的说明进行操作，以使解决方案适应您的需求。

关键要点

将元数据和嵌入存储在一起：使用 MongoDB 灵活的文档模型将嵌入及其元数据存储在单个文档中。这种结构为AI驱动的应用程序提供语义视频搜索等高级功能。
使用多模态嵌入模型：使用多模态嵌入模型将图像和文本等多种模态的非结构化数据转换为共享向量空间。您可以使用 Voyage AI 的 voyage-multimodal-3 模型直接对包含交错文本和图像的输入进行向量化。
启用语义搜索功能：使用向量搜索来索引和查询向量数据。Vector Search 使您能够根据数据的语义含义查询数据，为您的视频搜索应用程序检索最相关的结果。

作者

Benjamin Lorenz, MongoDB
Diego Canales, MongoDB

了解详情

后退

生成式 AI 驱动的视频摘要

来年

文本到音频新闻转换