Um dieses Fehlen des domänenspezifischen Kontexts zu umgehen, wird die Retrieval Augmented Generation wie folgt durchgeführt:
- Wir holen die relevantesten Produktbeschreibungen aus einer Datenbank (oft eine Datenbank mit Vektorsuche), die den aktuellsten Produktkatalog enthält
- Dann fügen wir diese Beschreibungen in die LLM-Eingabeaufforderung ein (augmentieren)
- Abschließend weisen wir das LLM an, bei der Beantwortung der Frage auf diese aktuellen Produktinformationen zu „verweisen“
Drei Dinge, die Sie beachten sollten:
- Die Retrieval Augmented Generation ist eine reine Inferenzzeit-Technik (kein erneutes Training erforderlich). Die obigen Schritte 1 bis 3 erfolgen alle in der Inferenzzeit. Es sind keine Änderungen am Modell erforderlich (z. B. Ändern der Modellgewichte).
- Die Retrieval Augmented Generation ist gut geeignet für Echtzeit-Anpassungen von LLM-Generationen. Da kein erneutes Training erforderlich ist und alles über kontextinternes Lernen erfolgt, ist die RAG-basierte Inferenz schnell (Latenzzeit unter 100 ms) und eignet sich gut für den Einsatz in operativen Echtzeit-Anwendungen.
- Die Retrieval Augmented Generation macht LLM-Generationen genauer und nützlicher. Jedes Mal, wenn sich der Kontext ändert, wird der LLM eine andere Antwort erzeugen. Auf diese Weise macht RAG LLM-Generationen von dem Kontext abhängig, der abgerufen wurde.
RAG ist einfach gehalten, mit minimaler Komplexität, aber dennoch hochentwickelt, um in großem Umfang zuverlässig zu funktionieren.
Um eine leistungsstarke und dennoch minimal komplexe RAG-Architektur zu erreichen, müssen Sie zunächst die richtigen Systeme auswählen. Bei der Auswahl der Systeme oder Technologien für eine RAG-Implementierung ist es wichtig, Systeme oder Systeme zu wählen, die Folgendes erreichen können:
- Unterstützen Sie neue Anforderungen an Vektordaten, ohne Ihren IT-Betrieb mit enormer Ausdehnung, Kosten und Komplexität zu belasten.
- Stellen Sie sicher, dass die erstellten generativen KI-Erlebnisse Zugang zu Live-Daten mit minimaler Latenzzeit haben.
- Sie sind flexibel genug, um neue Daten- und Anwendungsanforderungen zu erfüllen und ermöglichen es den Entwicklungsteams, dabei agil zu bleiben.
- Rüsten Sie Entwicklerteams am besten so aus, dass sie das gesamte KI-Ökosystem auf ihre Daten anwenden können, nicht umgekehrt.
Die Optionen reichen von Einzweck-Vektordatenbanken über Dokument- und relationale Datenbanken mit nativen Vektorfunktionen bis hin zu Data Warehouses und Lakehouses. Einzweck-Vektordatenbanken führen jedoch sofort zu einer größeren Ausbreitung und Komplexität. Data Warehouses und Lakehouses sind von Natur aus für langwierige analytische Abfragen historischer Daten ausgelegt, im Gegensatz zu den Anforderungen der GenAI-Apps, die RAG mit hohen Datenmengen, geringer Latenz und frischen Daten versorgt. Außerdem bringen relationale Datenbanken starre Schemata mit, die die Flexibilität beim Hinzufügen neuer Daten und Anwendungsanforderungen einschränken. Damit bleiben nur noch Dokumentendatenbanken mit nativen oder integrierten Vektorfunktionen übrig. Insbesondere basiert MongoDB auf dem flexiblen Dokumentenmodell und verfügt über eine native Vektorsuche. Damit ist MongoDB nicht nur eine Vektordatenbank für RAG, sondern auch die branchenführende Datenbank für jede moderne Anwendung.
Bringen Sie die Leistungsfähigkeit von LLMs auf die nächste Stufe mit zusätzlichen Funktionen in Ihrer RAG-Implementierung.
Zusätzlich zu den Kernkomponenten gibt es eine Reihe von zusätzlichen Funktionen, die einer RAG-Implementierung hinzugefügt werden können, um die Leistungsfähigkeit von LLMs auf das nächste Level zu heben. Zu diesen zusätzlichen Funktionen gehören:
- Multimodalität: Multimodale RAG-Modelle können Texte generieren, die sowohl auf Text- als auch auf Nicht-Text-Daten basieren, wie z. B. Bilder, Videos und Audio. Da diese multimodalen Daten Seite an Seite mit den operativen Daten gespeichert werden, lässt sich die RAG-Implementierung einfacher gestalten und managen.
- Definition zusätzlicher Filter in der Vektorsuchabfrage: Die Möglichkeit, Schlüsselwortsuche, räumliche Suche sowie Punkt- und Bereichsfilter zur gleichen Vektorabfrage hinzuzufügen, kann die Genauigkeit und Geschwindigkeit des dem LLM bereitgestellten Kontexts erhöhen.
- Domänenspezifität: Domänenspezifische RAG-Modelle können auf Daten aus einer bestimmten Domäne trainiert werden, z. B. dem Gesundheitswesen oder dem Finanzwesen. Dadurch kann das RAG-Modell genauere und relevantere Texte für diese Domäne generieren.
Sicherstellung, dass Ihre generative KI-gestützte Anwendung sicher, leistungsfähig, zuverlässig und skalierbar ist, wenn sie global eingesetzt wird.
Es gibt eine Reihe von Maßnahmen, mit denen sichergestellt werden kann, dass eine GenAI-gestützte Anwendung, die mit einem RAG erstellt wurde, sicher, leistungsfähig, zuverlässig und skalierbar ist, wenn sie global eingesetzt wird. Einige dieser Dinge sind:
- Verwenden Sie eine Plattform, die sicher ist und über die richtigen Data Governance-Funktionen verfügt: Data Governance ist ein weit gefasster Begriff, der alles umfasst, was Sie tun, um sicherzustellen, dass die Daten sicher, privat, genau, verfügbar und nutzbar sind. Dazu gehören die Prozesse, Richtlinien, Maßnahmen, Technologien, Tools und Kontrollen rund um den Lebenszyklus der Daten. Daher sollte die Plattform standardmäßig sicher sein, über eine Ende-zu-Ende-Verschlüsselung verfügen und Compliance auf höchstem Niveau erreicht haben.
- Verwenden Sie eine cloudbasierte Plattform: Zusätzlich zu den Sicherheits- und Skalierbarkeitsfunktionen, die Cloud-basierte Plattformen bieten, gehören die führenden Cloud-Anbieter zu den führenden Innovatoren für KI-Infrastrukturen. Wenn Sie sich für eine cloudunabhängige Plattform entscheiden, können Ihre Teams die Vorteile der KI-Innovationen nutzen, wo auch immer sie entstehen.
- Verwenden Sie eine Plattform, die die Infrastruktur für Vektor-Workloads von der anderen Datenbankinfrastruktur isolieren kann: Es ist wichtig, dass reguläre OLTP-Workloads und Vektor-Workloads die Infrastruktur nicht gemeinsam nutzen, damit die beiden Workloads auf der jeweils für sie optimierten Hardware ausgeführt werden können und nicht um Ressourcen konkurrieren, während sie dennoch die gleichen Daten nutzen können.
- Verwenden Sie eine Plattform, die sich in großem Maßstab bewährt hat: Es ist eine Sache, wenn ein Anbieter sagt, dass er skalieren kann, aber hat er auch eine Geschichte und eine Erfolgsbilanz mit globalen Unternehmenskunden? Verfügt es über unternehmenskritische Fehlertoleranz und die Fähigkeit zur horizontalen Skalierung, und kann es dies anhand von Kundenbeispielen nachweisen?
Wenn Sie diese Tipps befolgen, können Sie mit RAG-Architekturen GenAI-gestützte Anwendungen erstellen, die sicher, performant, zuverlässig und skalierbar sind.
Mit der Einführung von Atlas Vector Search bietet MongoDB, die führende Plattform für Entwicklerdaten, Teams eine Vektordatenbank, die den Aufbau anspruchsvoller, leistungsfähiger und skalierbarer RAG-Architekturen ermöglicht. Und das alles unter Beibehaltung eines Höchstmaßes an Sicherheit und Cloud-Agnostizismus und – was am wichtigsten ist – ohne zusätzliche Komplexität und unnötige Kosten.