Table des matières
- IA générative, bases de données vectorielles et MongoDB Atlas Vector Search
- Qu'est-ce qu'une base de données vectorielles ?
- Comment fonctionnent les bases de données vectorielles ?
- Pourquoi la recherche vectorielle est-elle essentielle ?
- Cas d'utilisation des bases de données vectorielles
- MongoDB Atlas Vector Search change la donne
- Atlas Vector Search : pour des applications intelligentes basées sur la recherche sémantique
- FAQ
IA générative, bases de données vectorielles et MongoDB Atlas Vector Search
Vous avez sans doute entendu parler de l'IA (alias intelligence artificielle) générative. Dans tous les secteurs de l'économie, de la santé à la finance, en passant par le commerce de détail et les agences gouvernementales, les organisations cherchent à en tirer parti. Il semble que chaque CEO souhaite déployer des applications le plus rapidement possible.
C'est bien plus qu'un simple battage médiatique. Selon un rapport de McKinsey, l'IA Générative pourrait injecter des milliards de dollars dans l'économie mondiale.
Le concept mathématique du vecteur est au cœur de cette technologie révolutionnaire. Grâce à la vectorisation et aux prouesses des grands modèles de langage (LLM), l'IA générative peut changer la donne. À l'ère de l'IA générative, les vector embeddings jettent les bases et les bases de données vectorielles étendent son impact.
Qu'est-ce qu'une base de données vectorielles ? Comment ça marche ? Quels sont les principaux cas d'utilisation ? Et pourquoi MongoDB Atlas Vector Search joue-t-il un rôle clé dans les réflexions sur l'IA générative ?
Qu'est-ce qu'une base de données vectorielles ?
Pour comprendre les bases de données vectorielles, vous devez d'abord comprendre ce qu'est un vecteur.
En mathématiques et en physique, un vecteur est une quantité qui possède à la fois une amplitude (ou une taille) et une direction. Un vecteur peut être décomposé en composantes. Par exemple, dans un espace bidimensionnel, un vecteur a une composante X (horizontale) et Y (verticale).
En science des données et en apprentissage automatique, un vecteur est une liste ordonnée ou une séquence de nombres qui représente des données. Il peut représenter n’importe quel type de données, y compris des données non structurées (ou des données sans modèle de données ou schéma prédéfini), du texte à l’image, de l’audio à la vidéo. Il est généralement représenté sous forme de tableaux ou de listes de nombres où chaque nombre de la liste représente une caractéristique ou un attribut spécifique de ces données.
Imaginons que vous possédez une grande collection de photos de chats. Chaque image est un morceau de données non structurées. Mais vous pouvez représenter chaque image sous forme de vecteur en extrayant des caractéristiques, telles que :
- la couleur moyenne ;
- l'histogramme des couleurs ;
- l'histogramme de texture ;
- la présence ou l'absence d'oreilles, de moustaches et d'une queue.
Le vector embedding (ou la vectorisation) est le processus de conversion de ces mots et d'autres données en nombres. Chaque point de données est représenté par un vecteur dans un espace de grande dimension.
Une base de données vectorielles, également appelée base de données de recherche vectorielle ou moteur de recherche de similarités vectorielles, stocke, extrait et recherche des vecteurs.
Au lieu des lignes et des colonnes typiques des bases de données relationnelles, les bases de données vectorielles représentent les données sous forme de points dans un espace multidimensionnel. Elles sont particulièrement adaptées aux applications qui nécessitent une correspondance rapide et précise des données sur la base d'une similarité plutôt que de valeurs exactes.
« Imaginez une base de données vectorielles comme un vaste entrepôt et l'intelligence artificielle comme un gestionnaire d'entrepôt compétent. Dans cet entrepôt, chaque élément (les données) est stocké dans une boîte (le vecteur), soigneusement organisée sur des étagères dans un espace multidimensionnel », écrit Mark Hinkle dans The New pile.
Si vous créez des applications d'IA générative, une base de données vectorielles est conçue pour traiter efficacement de vastes volumes de données vectorielles. Vous accélérez ainsi les requêtes et leur traitement.