Como uma solução alternativa para essa falta de contexto específico do domínio, a geração aumentada por recuperação é realizada da seguinte forma:
- Buscamos as descrições de produtos mais relevantes em um banco de dados (geralmente um banco de dados com pesquisa vetorial) que contém o catálogo de produtos mais recente
- Em seguida, inserimos (aumentamos) essas descrições no prompt do LLM
- Por fim, instruímos o LLM a "referenciar" essas informações atualizadas sobre o produto ao responder à pergunta
Três coisas a serem consideradas a partir do exposto acima:
- O RAG é uma técnica puramente de tempo de inferência (sem necessidade de retreinamento). Todas as etapas 1 a 3 acima ocorrem em tempo de inferência. Não são necessárias alterações no modelo (por exemplo modificar os pesos do modelo).
- O RAG é adequado para personalizações em tempo real das gerações LLM. Como não há retreinamento envolvido e tudo é feito por meio do aprendizado no contexto, a inferência baseada em RAG é rápida (latência inferior a 100 ms) e adequada para ser usada em aplicações operacionais em tempo real.
- O RAG torna as gerações LLM mais precisas e úteis. Sempre que o contexto mudar, o LLM gerará uma resposta diferente. Assim, o RAG faz com que as gerações de LLM dependam de qualquer contexto que tenha sido recuperado.
Para obter uma arquitetura RAG de alto desempenho, porém minimamente complexa, é necessário escolher os sistemas certos. Ao escolher os sistemas ou as tecnologias para uma implementação de RAG, é importante escolher sistemas ou um sistema que possa atingir os seguintes objetivos:
- Oferecer suporte a novos requisitos de dados vetoriais sem aumentar muito a expansão, o custo e a complexidade de suas operações de TI.
- Garantir que as experiências de IA generativa criadas tenham acesso a dados em tempo real com latência mínima.
- Ter flexibilidade para acomodar novos requisitos de dados e aplicativos e permitir que as equipes de desenvolvimento permaneçam ágeis ao fazer isso.
- Equipar melhor as equipes de desenvolvimento para trazer todo o ecossistema de IA para seus dados, e não o contrário.
As opções variam de bancos de dados vetoriais de finalidade única a documentos e relational database com recursos vetoriais nativos, além de data warehouses e lakehouses. No entanto, os bancos de dados vetoriais de finalidade única aumentarão imediatamente a expansão e a complexidade. Os data warehouses e lakehouses são inerentemente projetados para consultas do tipo analítico de longa duração em dados históricos, em oposição aos requisitos de alto volume, baixa latência e dados novos do aplicativo GenAI que o RAG alimenta. Além disso, os relational databases trazem esquemas rígidos que limitam a flexibilidade de adicionar novos dados e requisitos de aplicativos com facilidade. Isso deixa os bancos de dados de documentos com recursos vetoriais nativos ou incorporados. Em particular, o MongoDB foi desenvolvido com base no modelo de documento flexível e tem pesquisa vetorial nativa, o que o torna um banco de dados vetorial para o RAG, além de ser o banco de dados líder do setor para qualquer aplicação moderno.
Além dos componentes principais, há uma série de recursos adicionais que podem ser adicionados a uma implementação do RAG para elevar o poder dos LLMs a um novo patamar. Alguns desses recursos adicionais incluem:
- Multimodalidade: os modelos RAG multimodais podem gerar texto com base em dados textuais e não textuais, como imagens, vídeos e áudio. O fato de ter esses dados multimodais armazenados lado a lado com os dados operacionais em tempo real torna a implementação do RAG mais fácil de projetar e gerenciar.
- Definição de filtros adicionais na consulta de pesquisa vetorial: a capacidade de adicionar pesquisa por palavra-chave, pesquisa geoespacial e filtros de ponto e intervalo na mesma consulta vetorial pode aumentar a precisão e a velocidade do contexto fornecido ao LLM.
- Especificidade de domínio: os modelos RAG específicos do domínio podem ser treinados em dados de um domínio específico, como saúde ou finanças. Isso permite que o modelo RAG gere um texto mais preciso e relevante para esse domínio.
Garantir que sua aplicação alimentada por IA generativa seja segura, eficiente, confiável e escalável quando se tornar global.
Há várias coisas que podem ser feitas para garantir que uma aplicação com tecnologia GenAI criada com um RAG seja segura, eficiente, confiável e escalável quando se tornar global. Algumas dessas coisas incluem:
- Usar uma plataforma que seja segura e tenha os recursos adequados de governança de dados: governança de dados é um termo amplo que engloba tudo o que você faz para garantir que os dados sejam seguros, privados, precisos, disponíveis e utilizáveis. Inclui os processos, as políticas, as medidas, a tecnologia, as ferramentas e os controles do ciclo de vida dos dados. Portanto, a plataforma deve ser segura por padrão, ter criptografia de ponta a ponta e ter alcançado conformidade nos níveis mais altos.
- Use uma plataforma baseada em cloud: além dos recursos de segurança e escalabilidade que as plataformas baseadas em cloud oferecem, os principais provedores de cloud são alguns dos principais inovadores da infraestrutura de IA. A escolha de uma plataforma que seja agnóstica em relação à cloud permite que as equipes aproveitem as inovações de IA onde quer que elas estejam.
- Use uma plataforma que possa isolar a infraestrutura de carga de trabalho vetorial de outra infraestrutura de banco de dados: é importante que as cargas de trabalho OLTP regulares e as cargas de trabalho vetoriais não compartilhem a infraestrutura, para que as duas cargas de trabalho possam ser executadas em hardware otimizado para cada uma delas e para que não concorram por recursos e, ao mesmo tempo, possam aproveitar os mesmos dados.
- Use uma plataforma que tenha sido comprovada em escala: uma coisa é um provedor dizer que pode escalonar, mas será que ele tem um histórico e um histórico com clientes corporativos globais? Ele tem tolerância a falhas de missão crítica e capacidade de escalonar horizontalmente, e pode comprovar isso com exemplos de clientes?
Seguindo essas dicas, é possível criar aplicações com a tecnologia GenAI com arquiteturas RAG que sejam seguras, eficientes, confiáveis e escalonáveis.
Com a introdução do Atlas Vector Search, A plataforma líder de dados para desenvolvedores do MongoDB fornece às equipes um banco de dados vetorial que permite a criação de arquiteturas RAG sofisticadas e de alto desempenho que podem funcionar em escala. Tudo isso mantendo os mais altos níveis de segurança e agnosticismo na cloud e, o mais importante, sem adicionar complexidade e custos desnecessários.