目录
- 生成式人工智能、矢量数据库和 MongoDB Atlas Vector Search
- 什么是矢量数据库?
- 矢量数据库如何工作?
- 为什么矢量搜索至关重要?
- 矢量数据库的使用案例
- MongoDB Atlas Vector Search:变局者
- Atlas Vector Search:实现语义搜索提供支持的智能应用程序
- 常见问题
生成式人工智能、矢量数据库和 MongoDB Atlas Vector Search
您一定听说过生成式人工智能(又称人工智能)的大名。在整个经济领域,从医疗保健到金融,从零售到政府机构,各组织都在寻找利用它的方法。 似乎每个 CEO 都希望尽快推出应用程序。这不仅仅是炒作。 根据 麦肯锡报告, 生成式人工智能可以为全球经济注入数万亿美元。
这一变革性技术的核心是矢量的数学概念。 通过矢量化和大型语言模型 (LLM) 的强大功能,生成式人工智能实现了其改变游戏规则的潜力。 在生成式人工智能时代,矢量嵌入奠定了基础;矢量数据库扩大了其影响。
什么是矢量数据库? 它如何工作?有哪些常见用例? 为什么 MongoDB Atlas Vector Search 在生成式人工智能讨论中发挥着重要作用?
什么是矢量数据库?
要了解矢量数据库,首先需要了解矢量。
在数学和物理学中,矢量是同时具有大小(或尺寸)和方向的量。 矢量可以分解成多个部分。 例如,在二维空间中,矢量具有 X(水平)和 Y(垂直)分量。
在数据科学和机器学习中,矢量是表示数据的有序列表或数字序列。 矢量可以表示任何类型的数据,包括非结构化数据(或没有预定义数据模型或架构的数据),如文本、图像、音频和视频。 矢量通常表示为数字数组或列表,其中列表中的每个数字表示该数据的特定特征或属性。
例如,假设您收藏了大量的猫咪照片。每个图像都是一段非结构化数据。 但是,您可以通过提取特征将每个图像表示为矢量,例如:
- 平均颜色
- 颜色直方图
- 纹理直方图
- 有无耳朵、胡须和尾巴
矢量嵌入(或矢量化)是将此类文字和其他数据转换为数字的过程,其中每个数据点由高维空间中的矢量表示。
矢量数据库(也称为矢量搜索数据库或矢量相似性搜索引擎)用于存储、检索和搜索矢量。
矢量数据库将数据表示为多维空间中的点,而不是关系数据库中典型的行和列。 矢量数据库非常适合需要基于相似性而不是精确值快速准确地匹配数据的应用程序。
“将矢量数据库想象成一个巨大的仓库,将人工智能想象成熟练的仓库经理。 在这个仓库中,每件物品(数据)都存储在一个盒子(矢量)中,整齐地排列在多维空间的架子上。” The New Stack 的 Mark Hinkle 写道。
如果您正在构建生成式人工智能应用程序,则可以定制矢量数据库来高效处理大量矢量化数据,从而确保更快的查询和处理速度。