Xlrt: Optimización del procesamiento de documentos financieros mediante IA Agente y grafos de conocimiento
Este documento describe la arquitectura de Xlrt, una solución diseñada para optimizar el análisis de documentos financieros y flujos de trabajo complejos utilizando IA agentica y un grafo de conocimiento impulsado por MongoDB.
Xlrt Overview
Xlrt transforma la toma de decisiones financieras al eliminar cuellos de botella manuales y alucinaciones de IA para generar una visión precisa y completa de la salud financiera del cliente. El sistema utiliza agentes inteligentes que procesan datos, ejecutan acciones y se adaptan dentro de ecosistemas financieros. Las decisiones resultantes suelen involucrar la optimización de los procesos de aprobación de préstamos, la personalización de las recomendaciones de productos y la gestión de riesgos como el impago y el fraude.
Desafíos de la IA en el análisis de documentos financieros
Los enfoques tradicionales de inteligencia artificial financiera a menudo encuentran cuellos de botella que limitan el impacto y la confianza en los negocios, especialmente en el procesamiento de datos cuantitativos complejos. Los desafíos comunes incluyen:
Cuellos de botella en el flujo de trabajo manual: Los procesos como la creación de notas de crédito requieren una compilación manual intensiva, análisis y revisiones iterativas, lo que genera retrasos y errores.
Falta de anclaje contextual: Los modelos de IA a menudo carecen del contexto financiero específico de la empresa necesario para lograr una precisión numérica exacta. Esto conduce a resultados que pueden ser correctos desde el punto de vista fáctico pero que no son procesables.
Riesgos de Precisión y Fiabilidad (Alucinaciones): Incluso con un razonamiento estructurado, los grandes modelos de lenguaje (LLM) pueden procesar el contexto de manera incorrecta o cometer errores lógicos, produciendo resultados que no son lógicamente sólidos ni precisos.
Xlrt supera estos desafíos utilizando los siguientes métodos:
Generación aumentada de recuperación de grafos (Graph RAG): que utiliza una ontología financiera (una estructura de grafo que representa los elementos financieros clave y sus relaciones) para recuperar selectivamente conocimientos financieros relevantes y datos numéricos.
Agentes específicos para roles y razonamiento de cadena de pensamientos (CoT): Automatizar los flujos de trabajo de punta a punta.
Retroalimentación basada en puntuación: Para aumentar el razonamiento, evaluar la precisión y perfeccionar iterativamente las indicaciones de la Cadena de Pensamientos hasta que los resultados cumplan con los estándares de precisión.
El poder de los agentes de conocimiento con generación de recuperación aumentada de grafos
Los agentes de conocimiento son sistemas inteligentes diseñados para navegar, analizar y deducir perspectivas a partir de conjuntos de datos complejos.
En los contextos financieros, comprender las relaciones complejas en los datos es esencial. Xlrt integra Knowledge Agents con Graph RAG para lograr este objetivo.
La ontología financiera y el almacén de grafos
La ontología financiera es un grafo de conocimiento que constituye el núcleo del enfoque Xlrt. Esta ontología actúa como el plan que proporciona las reglas y restricciones sobre cómo se relacionan las entidades financieras.
La tienda de grafo, potenciada por MongoDB Atlas o MongoDB Enterprise Advanced, es la capa persistente de la base de datos que almacena la estructura de grafo y sus datos financieros asociados.
Figura 1. Agente de conocimiento de Xlrt + sistema grafo RAG impulsado por MongoDB.
El almacén de grafo subyacente contiene dos componentes de datos consolidados:
Estructura de la ontología específica del dominio: El plano conceptual de los nodos permitidos y los tipos de borde.
Datos financieros anuales: Las instancias específicas del grafo (nodos y aristas) extraídas de los documentos del cliente. Estos datos, obtenidos de documentos como informes anuales y estados de cuenta bancarios, llenan los nodos y aristas con valores numéricos para cada periodo de reporte. Esta actualización continua en el tiempo permite al sistema analizar tendencias históricas y la evolución financiera.
Estructuración de la ontología: Nodos y aristas
Nodos: partidas financieras, como ganancia, gastos y utilidad neta.
Conexiones: Relaciones causales o estructurales, como las ganancias que afectan a los beneficios netos. Estos bordes definen la relación semántica entre dos nodos.
Uso de grafo RAG para recuperación contextual
Graph RAG combina grafos de conocimiento (teoría de grafos) con técnicas de generación y recuperación de IA. Xlrt utiliza grafo RAG para asentar LLM recuperando conocimientos relevantes e información numérica del almacén grafo. Este fundamento garantiza que los resultados estén contextualizados, sean fácticos y accionables.
grafo RAG permite que el sistema:
Analizar dependencias causales: El sistema rastrea las relaciones de causa y efecto (aristas) e identifica cómo un cambio en una partida financiera podría influir en otras.
Identificar correlaciones ilógicas: El sistema examina las relaciones entre nodos para detectar inconsistencias o correlaciones que desafían la lógica financiera. Esta verificación garantiza la integridad de los datos.
Recuperar contexto para cualquier partida: El sistema consulta el grafo, extrae los nodos y aristas relevantes, y proporciona un snapshot contextual de los datos que rodean a una partida. Esta snapshot aclara cómo interactúan los componentes individuales dentro de la estructura financiera.
Este enfoque ofrece conciencia contextual y una mejor toma de decisiones al revelar la estructura y la interconectividad de los conjuntos de datos financieros.
Potenciando grafo RAG con MongoDB y LangChain
LangChain conecta los LLMs directamente a MongoDB. El El componente MongoDBGraphStore facilita esta conexión y gestiona el flujo de datos entre el modelo de lenguaje y la base de datos. Esta integración transforma datos financieros no estructurados en perspectivas procesables e interconectadas sin la necesidad de un motor dedicado de bases de datos de grafos.
Capacidades básicas de la base de datos
El sistema se basa en la arquitectura flexible de MongoDB para servir como la base del grafo de conocimiento:
Datos operativos unificados y datos de grafos: A diferencia de los enfoques tradicionales que separan los datos de grafos de los datos operativos, MongoDB almacena tanto la ontología específica del dominio como las instancias específicas de datos financieros (nodos y aristas) en el mismo formato flexible de documento. Esto permite que el sistema populate de forma continua el grafo con nuevos datos de informes anuales o estados bancarios, sin la necesidad de migraciones rígidas de esquemas.
Recorrido eficiente de grafos: MongoDB ejecuta el recorrido y la consulta de grafos utilizando la etapa de agregación $graphLookup. Este proceso permite la rápida recuperación de conocimientos financieros relevantes e interconectados directamente junto a los datos operativos.
La integración de MongoDBGraphStore
Aunque MongoDB proporciona el motor, el MongoDBGraphStore El componente en LangChain actúa como el orquestador. Este componente agiliza la implementación de Graph RAG a través de dos funciones clave:
Abstracción y recuperación:
MongoDBGraphStoreabstrae agregaciones brutas de bases de datos, simplificando la recuperación de datos de grafos. El componente formatea automáticamente el grafo de conocimiento recuperado en instrucciones ricas en contexto, optimizando los datos para el razonamiento agente sin requerir la construcción manual de query.Creación dinámica de grafo: Para poblar el grafo, el componente utiliza un flujo de trabajo dinámico de "extracción y carga":
Extracción de entidades: Un modelo de extracción de entidades basado en LLM (inicializado dentro del componente) analiza los Estados financieros subidos por el cliente. Convierte datos no estructurados en entidades de grafos estructuradas y relaciones extrayendo entidades nombradas y sus conexiones.
Configuración: Preguntas personalizadas e instrucciones guían el proceso de extracción. Estas instrucciones, que pueden configurarse mediante el parámetro
entity_prompt, garantizan que el modelo asigne los datos al contexto financiero correcto.Población del grafo: Utilizando el método
add_documents(), el modelo extrae y actualiza automáticamente estas entidades y relaciones en la colección de MongoDB. Esto crea un dinámico grafo de conocimiento que evoluciona instantáneamente a medida que se procesan nuevos documentos.
Ampliación de la cadena de pensamiento (CoT) con feedback basado en puntuación
Aunque recuperar el contexto correcto a través de grafo RAG es fundamental, también lo es garantizar que el razonamiento aplicado a esos datos sea preciso. Xlrt mejora el método estándar de Chain of Thought (CoT) al introducir un bucle de puntuación que refina iterativamente la salida del modelo.
El Desafío del Razonamiento
Incluso con un razonamiento estructurado, los grandes modelos de lenguaje (LLMs) a veces pueden malinterpretar el contexto o realizar saltos lógicos erróneos, lo que conduce a alucinaciones. Para mitigar este riesgo, Xlrt utiliza una arquitectura de dos modelos:
Artista LLM: genera la respuesta inicial basada en los datos financieros.
Prompt Augmentation LLM: evalúa la salida del intérprete y ajusta el prompt si la calidad es insuficiente.
El proceso de puntuación
El sistema evalúa cada respuesta en función de tres métricas clave:
Coherencia contextual: ¿La respuesta está alineada con el contexto financiero específico proporcionado?
Precisión de los hechos: ¿Cumple el producto generado con los hechos y las reglas de datos conocidas?
Solidez lógica: ¿Están conectados y son válidos los pasos de razonamiento intermedios?
Si una respuesta obtiene una puntuación por debajo de cierto umbral, como 60 por ciento, el LLM de Aumentación de Prompts analiza el error y genera un prompt refinado, por ejemplo, instruyendo explícitamente al LLM de la entidad ejecutora para "verificar el cambio porcentual en comparación con el trimestre anterior". Este ciclo se repite hasta que la respuesta cumpla con los estándares de precisión, garantizando resultados de alta fiabilidad en tareas críticas como la creación de notas de crédito.
Comentarios de los usuarios para comentarios personalizados
Para garantizar que el output sea relevante, el sistema utiliza la retroalimentación de los usuarios de dos maneras para refinar la generación de Cadena de Pensamiento (CoT):
Adaptación basada en roles: En lugar de corregir solo errores, el sistema utiliza la retroalimentación del usuario para adaptar los prompts de CoT al contexto específico del usuario.
Augmentación dinámica: Un LLM dedicado analiza la retroalimentación para ajustar la prompt. Por ejemplo, enfocándose en el cumplimiento para un auditor o en el impacto empresarial para un ejecutivo.
Caso de uso: Transformación de los flujos de trabajo de documentos financieros
Xlrt utiliza su arquitectura de grafo RAG para transformar los procesos de documentos financieros que consumen mucho tiempo. Utiliza IA agentica basada en el grafo de conocimiento financiero para potenciar tres ofertas de productos:
Justifi™: Proporciona un análisis instantáneo de estados financieros, como 10-Ks, informes anuales y financieros preparados por la gestión. También proporciona un análisis normalizado para los proveedores de datos y resúmenes inteligentes.
Contractus™: Proporciona análisis automático de contratos comerciales, infiere términos comerciales para proyectar flujos de caja y facilita la gestión de contratos de la organización.
Invoices™: Permite el análisis de facturas libre de plantillas y la evaluación automatizada de datos, garantizando un flujo de validación superior para el procesamiento directo.
Beneficios clave de Xlrt para el análisis de documentos financieros
La automatización de estos flujos de trabajo complejos ofrece los siguientes beneficios:
Precisión: los agentes optimizados para el dominio, basados en el grafo de conocimiento fáctico, garantizan perspectivas financieras precisas y coherentes.
Reducción de Costos: El sistema reduce la dependencia del trabajo manual, manteniendo resultados de alta calidad y auditables.
Eficiencia: Los flujos de trabajo automatizados de extremo a extremo reducen drásticamente el esfuerzo manual y permiten acelerar el procesamiento de datos y tomar decisiones más rápidamente.
Lógica ilustrativa de la arquitectura grafo RAG de Xlrt
Los siguientes pasos ilustran la lógica clave de implementación que Xlrt utiliza para integrar LangChain y su componente MongoDBGraphStore con el fin de compilar un RAG de grafo para el procesamiento inteligente de documentos. Esta ilustración utiliza MongoDB Atlas, aunque MongoDB Enterprise Advanced también es una opción. Xlrt ha optado por usar Ollama para ejecutar el LLM:
Preparar el entorno
Instala las librerías necesarias para la interacción con MongoDB, la integración con LangChain y Ollama para enviar solicitudes a los LLM. La arquitectura es independiente del modelo LLM, lo que permite integrar cualquier modelo LLM. Para completar este tutorial, necesita un clúster de Atlas que ejecute MongoDB versión 7.0.2 o posterior.
pip install --quiet --upgrade pymongo langchain_mongodb langchain_ollama
Definamos las variables
MONGODB_URI = "<connection-string>" DB_NAME = "financial_kg_db" # MongoDB database to store the knowledge graph COLLECTION_NAME = "FINANCIALS" # MongoDB collection to store the knowledge graph
<connection-string> sería la cadena de conexión del clúster Atlas.
El <connection-string> se define con el formato siguiente:
mongodb+srv://<db_username>:<db_password>@<clusterName>.<hostname>.mongodb.net
Instanciar el LangChain MongoDB grafo almacén
from langchain_mongodb.graphrag.graph import MongoDBGraphStore graph_store = MongoDBGraphStore.from_connection_string( connection_string=MONGODB_URI, database_name=DB_NAME, collection_name=COLLECTION_NAME, entity_extraction_model=chat_model # LLM – model of your choice )
Combine el contexto para aumentar el prompt
Después de recuperar los datos relevantes, se combina el contexto recuperado de Graph RAG para aumentar el prompt del LLM utilizando LangChain y el modelo seleccionado, que Ollama sirve.
Ejemplo de Python para la construcción de contexto:
from langchain_ollama import ChatOllama from langchain.prompts import PromptTemplate # Set up Ollama as the LLM with your model of choice llm = ChatOllama(model="<model of your choice>") # Define a prompt template template = """ You are an AI financial analyst. Analyze the following data and provide insights: {context} User Query: {query} """ prompt = PromptTemplate( input_variables= ["context", "query"], template=template ) chain = prompt | llm response = chain.invoke({"context": context, "query": Query}) print("Generated Insights:\n", response)
Conclusión
Las organizaciones financieras pueden integrar Xlrt con MongoDB Atlas o MongoDB Enterprise Advanced para utilizar los sistemas de grafos RAG para el procesamiento inteligente avanzado de documentos y flujos de trabajo automatizados.
Esta combinación transforma los datos financieros no estructurados en perspectivas procesables. La ontología financiera respaldada por MongoDB mejora la eficiencia, la precisión y la toma de decisiones estratégicas.
Puntos clave
Fundamentando los LLM con la arquitectura MongoDB grafo RAG: al utilizar una arquitectura MongoDB grafo RAG, los LLM están fundamentados en una ontología financiera dinámica. Este enfoque utiliza la etapa de agregación $graphLookup para recorrer relaciones interconectadas dentro de una base de conocimientos unificada, garantizando una recuperación precisa y consciente del contexto.
Alimentando agentes complejos con razonamiento basado en puntuación: Más allá de la simple recuperación, la arquitectura soporta bucles de retroalimentación avanzados. Validando el razonamiento Chain-of-Thought contra hechos financieros verificados recuperados de MongoDB, el sistema garantiza la precisión antes de finalizar una respuesta. Este proceso iterativo de puntuación previene las alucinaciones, asegurando que cada perspectiva sea lógicamente sólido y coherente con su ontología financiera.
Convierta las Capacidades Técnicas en Valor Empresarial: Mediante el uso de MongoDB para unificar documentos no estructurados y grafos de conocimiento estructurados, las organizaciones pueden transformar los cuellos de botella manuales, como el análisis de crédito, en flujos de trabajo automatizados e inteligentes. Este cambio arquitectónico reduce la carga operativa y minimiza la dependencia de procesos manuales.