Integre o MongoDB com o LangChain

Você pode integrar o MongoDB ao LangChain para criar aplicativos IA generativa e RAG. Esta página fornece uma visão geral da integração do Python do MongoDB do MongoDB e dos diferentes componentes que você pode usar em seus aplicativos.

Começar

Observação

Para obter uma lista completa de componentes e métodos, consulte a referência da API.

Para a integração com JavaScript, veja LangChain JS/TS.

Instalação e configurar

Para usar a Vector Search do MongoDB com o LangChain, você deve primeiro instalar o pacote langchain-mongodb :

pip install langchain-mongodb

Vector Store

MongoDBAtlasVectorSearch é um armazenamento de vetores que permite armazenar e recuperar incorporações vetoriais de uma coleção no MongoDB. Você pode usar esse componente para armazenar incorporações de seus dados e recuperá-las usando a Vector Search do MongoDB .

Este componente requer um índice de Vector Search MongoDB.

Uso

A maneira mais rápida de instanciar seu armazenamento de vetores é usar a string de conexão para seu cluster MongoDB ou implantação local:

from langchain_mongodb.vectorstores import MongoDBAtlasVectorSearch
from langchain_voyageai import VoyageAIEmbeddings
# Instantiate the vector store using your MongoDB connection string
vector_store = MongoDBAtlasVectorSearch.from_connection_string(
  connection_string = "<connection-string>",        # MongoDB cluster URI
  namespace = "<database-name>.<collection-name>",  # Database and collection name
  embedding = VoyageAIEmbeddings(),                 # Embedding model to use
  index_name = "vector_index",                      # Name of the vector search index
  # Other optional parameters...
)

A integração também oferece suporte a outros métodos de instanciação do armazenamento vetorial:

Usando o cliente MongoDB:

from langchain_mongodb.vectorstores import MongoDBAtlasVectorSearch
from langchain_voyageai import VoyageAIEmbeddings
from pymongo import MongoClient
# Connect to your MongoDB cluster
client = MongoClient("<connection-string>")
collection = client["<database-name>"]["<collection-name>"]
# Instantiate the vector store
vector_store = MongoDBAtlasVectorSearch(
  collection = collection,          # Collection to store embeddings
  embedding = VoyageAIEmbeddings(), # Embedding model to use
  index_name = "vector_index"      # Name of the vector search index
  # Other optional parameters...
)

De documentos que você criou:

from langchain_mongodb.vectorstores import MongoDBAtlasVectorSearch
from langchain_voyageai import VoyageAIEmbeddings
from langchain_core.documents import Document
from pymongo import MongoClient
# Some documents to embed
document_1 = Document(page_content="foo", metadata={"baz": "bar"})
document_2 = Document(page_content="thud", metadata={"bar": "baz"})
docs = [ document_1, document_2 ]
# Connect to your MongoDB cluster
client = MongoClient("<connection-string>")
collection = client["<database-name>"]["<collection-name>"]
# Create the vector store from documents
vector_store = MongoDBAtlasVectorSearch.from_documents(
  documents = docs,                  # List of documents to embed
  embedding = VoyageAIEmbeddings(),  # Embedding model to use
  collection = collection,           # Collection to store embeddings
  index_name = "vector_index"        # Name of the vector search index
  # Other optional parameters...
)

Opções

Use os seguintes parâmetros para configurar o armazenamento vetorial.

Parâmetro	necessidade	Descrição
`connection_string`	Obrigatório	Especifique a string de conexão para seu Cluster MongoDB . Para saber mais, consulte Conectar-se a um cluster por meio de drivers ou connection strings.
`namespace`	Obrigatório	Especifique o namespace do MongoDB para o qual armazenar incorporações de vetor. Por exemplo, `langchain_db.test`.
`embedding`	Obrigatório	O modelo de incorporação a ser usado. Você pode usar qualquer modelo de incorporação suportado no LangChain.
`index_name`	Opcional	Nome do índice do MongoDB Vector Search . Padrão é `vector_index`.
`text_key`	Opcional	Nome do campo que contém o texto do documento. O padrão é `text`.
`embedding_key`	Opcional	Nome do campo que armazena o vetor de incorporação. O padrão é `embedding`.
`relevance_score_fn`	Opcional	Função de similaridade a utilizar. Os valores aceitos são `cosine`, `euclidean` ou `dotProduct`. O padrão é `cosine`.
`dimensions`	Opcional	Número de dimensões vetoriais. Se você definir esse valor e não tiver um índice de pesquisa vetorial na collection, o MongoDB criará o índice para você.
`auto_create_index`	Opcional	Sinalizador que determina se o índice vetorial deve ser criado automaticamente, caso não exista. O padrão é `False`.
`auto_index_timeout`	Opcional	Tempo limite em segundos para aguardar que um índice de pesquisa vetorial criado automaticamente fique pronto.
`**kwargs`	Opcional	Parâmetros adicionais a serem passados para o repositório de vetores, como parâmetros específicos do LangChain.

Observação

Retrievers

Os retrievers do LangChain são componentes que você usa para obter documentos relevantes de seus armazenamentos de vetores. Você pode usar os recuperadores integrados do LangChain ou os seguintes recuperadores do MongoDB para consultar e recuperar dados do MongoDB.

Recuperador de Vector Search

Depois de instanciar o MongoDB como um armazenamento de vetor, você poderá usar a instância do armazenamento de vetor como um recuperador para consultar seus dados usando a Vector Search do MongoDB.

Uso

from langchain_mongodb.vectorstores import MongoDBAtlasVectorSearch
# Instantiate the vector store
vector_store = MongoDBAtlasVectorSearch.from_connection_string(
   # Vector store arguments...
)
# Use the vector store as a retriever
retriever = vector_store.as_retriever()
# Define your query
query = "some search query"
# Print results
documents = retriever.invoke(query)
for doc in documents:
   print(doc)

Observação

Full-Text Retriever

MongoDBAtlasFullTextSearchRetriever é um recuperador que executa a pesquisa de texto completo usando o MongoDB Search. Especificamente, ele usa o algoritmo BM25 padrão da Lucene.

Este retriever requer um índice de pesquisa MongoDB.

Uso

from langchain_mongodb.retrievers.full_text_search import MongoDBAtlasFullTextSearchRetriever
# Connect to your MongoDB cluster
client = MongoClient("<connection-string>")
collection = client["<database-name>"]["<collection-name>"]
# Initialize the retriever
retriever = MongoDBAtlasFullTextSearchRetriever(
   collection = collection,           # MongoDB Collection in Atlas
   search_field = "<field-name>",     # Name of the field to search
   search_index_name = "<index-name>" # Name of the search index
)
# Define your query
query = "some search query"
# Print results
documents = retriever.invoke(query)
for doc in documents:
   print(doc)

Observação

Referência da API

Recuperador de pesquisa híbrido

MongoDBAtlasHybridSearchRetriever é um recuperador que combina pesquisa vetorial e resultados de pesquisa de texto completo usando o algoritmo RRF (Reciprocal Rank Fusion). Para saber mais, consulte Como fazer a pesquisa híbrida.

Esse recuperador requer um armazenamento de vetor existente, o Índice de Vector Search do MongoDB e o Índice de pesquisa do MongoDB.

Uso

from langchain_mongodb.retrievers.hybrid_search import MongoDBAtlasHybridSearchRetriever
# Initialize the retriever
retriever = MongoDBAtlasHybridSearchRetriever(
   vectorstore = <vector-store>,        # Vector store instance
   search_index_name = "<index-name>",  # Name of the MongoDB Search index
   top_k = 5,                           # Number of documents to return
   fulltext_penalty = 60.0,             # Penalty for full-text search
   vector_penalty = 60.0                # Penalty for vector search
)
# Define your query
query = "some search query"
# Print results
documents = retriever.invoke(query)
for doc in documents:
   print(doc)

Observação

Parent Document Retriever

MongoDBAtlasParentDocumentRetriever é um recuperador que consulta partes menores primeiro e, em seguida, retorna o documento pai maior para o LLM. Esse tipo de recuperação é chamado de recuperação de documento pai. A recuperação de documentos pai pode melhorar as respostas de seus agentes e aplicativos RAG, permitindo pesquisas mais granulares em partes menores, ao mesmo tempo em que fornece às LLMs o contexto completo do documento pai.

Este recuperador armazena tanto os documentos pai quanto os documentos filhos em uma única coleção MongoDB, o que permite uma recuperação eficiente, pois é necessário apenas calcular e indexar as embeddings dos documentos filhos.

Em segundo plano, este recuperador cria o seguinte:

Uma instância de MongoDBAtlasVectorSearch para lidar com queries de pesquisa vetorial nos documentos filhos.
Uma instância de MongoDBDocStore para lidar com o armazenamento e a recuperação dos documentos pai.

Uso

from langchain_mongodb.retrievers.parent_document import ParentDocumentRetriever
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_voyageai import VoyageAIEmbeddings
retriever = MongoDBAtlasParentDocumentRetriever.from_connection_string(
   connection_string = <connection-string>,           # MongoDB cluster URI
   embedding_model = VoyageAIEmbeddings(),            # Embedding model to use
   child_splitter = RecursiveCharacterTextSplitter(), # Text splitter to use
   database_name = <database-name>,                   # Database to store the collection
   collection_name = <collection-name>,               # Collection to store the collection
   # Additional vector store or parent class arguments...
)
# Define your query
query = "some search query"
# Print results
documents = retriever.invoke(query)
for doc in documents:
   print(doc)

Observação

Recuperador auto-query

MongoDBAtlasSelfQueryRetriever é um retriever que se consulta. O recuperador usa um LLM para processar sua query de pesquisa para identificar possíveis filtros de metadados, forma uma query de pesquisa vetorial estruturada com os filtros e, em seguida, executa a query para recuperar os documentos mais relevantes.

Por exemplo, com uma consulta como "O que são filmes de ação depois de 2010 com classificações acima de 8?", O recuperador pode identificar filtros nos campos genre, year e rating e usá-los filtros para recuperar documentos que correspondam à query.

Esse recuperador requer um armazenamento de vetor existente e o índice de Vector Search do MongoDB.

Uso

from langchain_mongodb.retrievers import MongoDBAtlasSelfQueryRetriever
from langchain_mongodb import MongoDBAtlasVectorSearch
# Given an existing vector store with movies data, define metadata describing the data
metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="The genre of the movie. One of ['science fiction', 'comedy', 'drama', 'thriller', 'romance', 'animated']",
        type="string",
    ),
    AttributeInfo(
        name="year",
        description="The year the movie was released",
        type="integer",
    ),
    AttributeInfo(
        name="rating", description="A 1-10 rating for the movie", type="float"
    ),
]
# Create the retriever from the VectorStore, an LLM and info about the documents
retriever = MongoDBAtlasSelfQueryRetriever.from_llm(
    llm=llm,
    vectorstore=vector_store,
    metadata_field_info=metadata_field_info,
    document_contents="Descriptions of movies",
    enable_limit=True
)
# This example results in the following composite filter sent to $vectorSearch:
# {'filter': {'$and': [{'year': {'$lt': 1960}}, {'rating': {'$gt': 8}}]}}
print(retriever.invoke("Movies made before 1960 that are rated higher than 8"))

Observação

GraphRAG

GraphRAG é uma abordagem alternativa ao RAG tradicional que estrutura os dados como um gráfico de conhecimento de entidades e seus relacionamentos, em vez de incorporações vetoriais. Enquanto o RAG baseado em vetor encontra documentos semanticamente semelhantes à query, o GraphRAG localiza entidades conectadas à query e atravessa os relacionamentos no grafo para recuperar informações relevantes.

Essa abordagem é particularmente útil para responder a perguntas baseadas em relacionamento, como "Qual é a conexão entre a Empresa A e a Empresa B?" ou "Quem é o gerente da Pessoa X?".

MongoDBGraphStore é um componente na integração do LangChain com o MongoDB que permite implementar o GraphRAG ao armazenar entidades (nós) e seus relacionamentos (arestas) em uma coleção do MongoDB. Este componente armazena cada entidade como um documento com campos de relacionamento que referenciam outros documentos na sua coleção. Ele executa consultas usando o estágio de agregação $graphLookup.

Uso

from langchain_mongodb import MongoDBGraphStore
from langchain_openai import ChatOpenAI
# Initialize the graph store
graph_store = MongoDBGraphStore(
 connection_string = "<connection-string>",      # MongoDB cluster URI
 database_name = "<database-name>",              # Database to store the graph
 collection_name = "<collection-name>",          # Collection to store the graph
 entity_extraction_model = ChatOpenAI(),         # LLM to extract entities from documents (e.g. OpenAI model)
 # Other optional parameters...
)
# Add documents to the graph
docs = [...]  # Your documents
graph_store.add_documents(docs)
# Query the graph
query = "Who is the CEO of MongoDB?"
answer = graph_store.chat_response(query)
print(answer.content)

Observação

Caches LLM

Os caches são usados para otimizar o desempenho do LLM, armazenando respostas repetitivas para queries semelhantes ou repetitivas para evitar seu novo cálculo. O MongoDB fornece os seguintes caches para seus aplicativos LangChain.

Cache do MongoDB

MongoDBCache permite armazenar um cache básico em uma coleção MongoDB .

Uso

from langchain_mongodb import MongoDBCache
from langchain_core.globals import set_llm_cache
set_llm_cache(MongoDBCache(
   connection_string = "<connection-string>", # MongoDB cluster URI
   database_name = "<database-name>",         # Database to store the cache
   collection_name = "<collection-name>"      # Collection to store the cache
))

Observação

Cache semântico

O cache semântico é uma forma mais avançada de cache que recupera prompts armazenados em cache com base na semelhança semântica entre a entrada do usuário e os resultados armazenados em cache.

MongoDBAtlasSemanticCache é um cache semântica que usa a Vector Search do MongoDB para recuperar os prompts armazenados em cache. Esse componente requer um índice do MongoDB Vector Search.

Uso

from langchain_mongodb import MongoDBAtlasSemanticCache
from langchain_core.globals import set_llm_cache
from langchain_voyageai import VoyageAIEmbeddings
set_llm_cache(MongoDBAtlasSemanticCache(
   embedding = VoyageAIEmbeddings(),          # Embedding model to use
   connection_string = "<connection-string>", # MongoDB cluster URI
   database_name = "<database-name>",         # Database to store the cache
   collection_name = "<collection-name>"      # Collection to store the cache
))

Observação

Kit de Ferramentas do MongoDB Agent

O MongoDB Agent Toolkit é uma coleção de FERRAMENTAS que você pode passar para um LangGraph React Agent para que ele possa interagir com seus recursos MongoDB.

Ferramentas disponíveis

Nome	Descrição
`MongoDBDatabaseToolkit`	Uma ferramenta para query de um banco de dados MongoDB .
`InfoMongoDBDatabaseTool`	Uma ferramenta para obter metadados sobre um banco de dados MongoDB .
`ListMongoDBDatabaseTool`	Uma ferramenta para obter os nomes de collection de um banco de dados MongoDB .
`QueryMongoDBCheckerTool`	Uma ferramenta que chama um LLM para verificar se uma consulta ao banco de dados está correta.

Uso

from langchain_openai import ChatOpenAI
from langgraph.prebuilt import create_react_agent
from langchain_mongodb.agent_toolkit import (
    MONGODB_AGENT_SYSTEM_PROMPT,
    MongoDBDatabase,
    MongoDBDatabaseToolkit,
)
db_wrapper = MongoDBDatabase.from_connection_string(
CONNECTION_STRING, database=DB_NAME
)
llm = ChatOpenAI(model="gpt-4o-mini", timeout=60)
toolkit = MongoDBDatabaseToolkit(db=db_wrapper, llm=llm)
system_message = MONGODB_AGENT_SYSTEM_PROMPT.format(top_k=5)
test_query = "Which country's customers spent the most?"
agent = create_react_agent(llm, toolkit.get_tools(), state_modifier=system_message)
agent.step_timeout = 60
events = agent.stream(
   {"messages": [("user", test_query)]},
    stream_mode="values",
)
messages = []

Observação

Referência da API

Carregador de documentos

Os carregadores de documentos são FERRAMENTAS que o ajudam a carregar dados para seus aplicativos LangChain.

MongoDBLoader é um carregador de documento que retorna uma lista de documentos de um banco de banco de dados MongoDB .

Uso

from langchain_mongodb.loaders import MongoDBLoader
loader = MongoDBLoader.from_connection_string(
 connection_string = "<connection-string>",   # MongoDB cluster URI
 db_name = "<database-name>",                 # Database that contains the collection
 collection_name = "<collection-name>",       # Collection to load documents from
 filter_criteria = { "field": "value" },      # Optional document to specify a filter
 field_names = ["<field-name>", "..." ],      # Optional list of fields to include in document content
 metadata_names = ["<metadata-field>", "..."] # Optional metadata fields to extract
)
docs = loader.load()

Observação

Referência da API

Histórico de bate-papo

MongoDBChatMessageHistory é um componente que permite armazenar e gerenciar históricos de mensagens de bate-papo em um banco de dados do MongoDB. Ele pode salvar mensagens geradas pelo usuário e pela IA associadas a um identificador de sessão exclusivo. Isso é útil para aplicativos que exigem o rastreamento de interações ao longo do tempo, como chatbots.

Uso

from langchain_mongodb.chat_message_histories import MongoDBChatMessageHistory
chat_message_history = MongoDBChatMessageHistory(
   session_id = "<session-id>",               # Unique session identifier
   connection_string = "<connection-string>", # MongoDB cluster URI
   database_name = "<database-name>",         # Database to store the chat history
   collection_name = "<collection-name>"      # Collection to store the chat history
)
chat_message_history.add_user_message("Hello")
chat_message_history.add_ai_message("Hi")

chat_message_history.messages

[HumanMessage(content='Hello'), AIMessage(content='Hi')]

Observação

Armazenamento

Você pode usar os seguintes armazenamentos de dados personalizados para gerenciar e armazenar dados no MongoDB.

Armazenamento de documentos

MongoDBDocStore é um armazenamento personalizado de chave-valor que utiliza o MongoDB para armazenar e gerenciar documentos. Você pode executar operações CRUD como faria em qualquer outra coleção do MongoDB.

Uso

from pymongo import MongoClient
from langchain_mongodb.docstores import MongoDBDocStore
# Replace with your MongoDB connection string and namespace
connection_string = "<connection-string>"
namespace = "<database-name>.<collection-name>"
# Initialize the MongoDBDocStore
docstore = MongoDBDocStore.from_connection_string(connection_string, namespace)

Observação

Referência da API

Armazenamento Binário

MongoDBByteStore é um armazenamento de dados personalizado que usa o MongoDB para armazenar e gerenciar dados binários, especificamente dados representados em bytes. Você pode executar operações CRUD com pares de valores-chave em que as chaves são cadeias de caracteres e os valores são sequências de bytes.

Uso

from langchain.storage import MongoDBByteStore
# Instantiate the MongoDBByteStore
mongodb_store = MongoDBByteStore(
   connection_string = "<connection-string>",  # MongoDB cluster URI
   db_name = "<database-name>",                # Name of the database
   collection_name = "<collection-name>"       # Name of the collection
)
# Set values for keys
mongodb_store.mset([("key1", b"hello"), ("key2", b"world")])
# Get values for keys
values = mongodb_store.mget(["key1", "key2"])
print(values)  # Output: [b'hello', b'world']
# Iterate over keys
for key in mongodb_store.yield_keys():
   print(key)  # Output: key1, key2
# Delete keys
mongodb_store.mdelete(["key1", "key2"])

Observação

Referência da API

Recursos adicionais

Para saber como integrar o MongoDB com o LangGraph, consulte Integrar o MongoDB com o LangGraph.

Para blocos de anotações interativos do Python, consulte Repositório de Cadernos Docs e Repositório de Casos de Uso de IA generativa.

Voltar

Integrações de IA

Começar

Observação

Instalação e configurar

Vector Store

Uso

Opções

Observação

Retrievers

Recuperador de Vector Search

Uso

Observação

Full-Text Retriever

Uso

Observação

Recuperador de pesquisa híbrido

Uso

Observação

Parent Document Retriever

Uso

Observação

Recuperador auto-query

Uso

Observação

GraphRAG

Uso

Observação

Caches LLM

Cache do MongoDB

Uso

Observação

Cache semântico

Uso

Observação

Kit de Ferramentas do MongoDB Agent

Ferramentas disponíveis

Uso

Observação

Carregador de documentos

Uso

Observação

Histórico de bate-papo

Uso

Observação

Armazenamento

Armazenamento de documentos

Uso

Observação

Armazenamento Binário

Uso

Observação

Recursos adicionais

Receber um selo de habilidade