XLRT: Optimización del procesamiento de documentos financieros mediante inteligencia artificial de Agentic y gráficos de conocimiento
Este documento describe la arquitectura de Xlrt, una solución diseñada para optimizar el análisis de documentos financieros y flujos de trabajo complejos mediante el uso de IA agentic y un gráfico de conocimiento impulsado por MongoDB.
Descripción general de XLRT
Xlrt transforma la toma de decisiones financieras al eliminar los cuellos de botella manuales y las alucinaciones de la IA para generar una visión precisa y completa de la salud financiera del cliente. El sistema utiliza agentes inteligentes que procesan datos, ejecutan acciones y se adaptan a los ecosistemas financieros. Las decisiones resultantes suelen implicar la optimización de los procesos de aprobación de préstamos, la adaptación de las recomendaciones de productos y la gestión de riesgos como el impago y el fraude.
Desafíos de la IA en el análisis de documentos financieros
Los enfoques tradicionales de IA financiera suelen encontrar obstáculos que limitan el impacto y la confianza en el negocio, especialmente al procesar datos cuantitativos complejos. Entre los desafíos más comunes se incluyen:
Cuellos de botella en el flujo de trabajo manual: Procesos como la creación de notas de crédito requieren una compilación manual intensiva, análisis y revisiones iterativas, lo que genera demoras y errores.
Falta de fundamento contextual: Los modelos de IA a menudo carecen del contexto financiero específico de la empresa necesario para una precisión numérica precisa. Esto genera resultados que pueden ser factualmente correctos, pero no procesables.
Riesgos de precisión y confiabilidad (alucinaciones): incluso con un razonamiento estructurado, los modelos de lenguaje grande (LLM) pueden procesar el contexto de manera incorrecta o cometer errores lógicos, produciendo resultados que no son lógicamente sólidos ni precisos.
Xlrt supera estos desafíos utilizando los siguientes métodos:
Recuperación de gráficos-Generación aumentada (Graph RAG): utiliza una ontología financiera (una estructura gráfica que representa elementos financieros clave y sus relaciones) para recuperar de forma selectiva conocimiento financiero relevante y datos numéricos.
Agentes específicos de cada rol y razonamiento en cadena de pensamiento (CoT): para automatizar flujos de trabajo de extremo a extremo.
Retroalimentación basada en puntuación: para aumentar el razonamiento, evaluar la precisión y refinar iterativamente las indicaciones del CoT hasta que los resultados cumplan con los estándares de precisión.
El poder de los agentes de conocimiento con recuperación de grafos y generación aumentada
Los agentes de conocimiento son sistemas inteligentes diseñados para navegar, analizar e inferir información a partir de conjuntos de datos complejos.
En contextos financieros, comprender las relaciones complejas entre los datos es esencial. XLRT integra Agentes de Conocimiento con Graph RAG para lograr este objetivo.
La tienda de ontología financiera y gráficos
La ontología financiera es un grafo de conocimiento que constituye el núcleo del enfoque XLRT. Esta ontología actúa como el modelo que establece las reglas y restricciones que rigen la relación entre las entidades financieras.
El almacén de gráficos, impulsado por MongoDB Atlas o MongoDB Enterprise Advanced, es la capa de base de datos persistente que almacena la estructura del gráfico y sus datos financieros asociados.
Figura 1. Sistema RAG de Graph + Knowledge Agent de Xlrt impulsado por MongoDB.
El almacén de gráficos subyacente contiene dos componentes de datos consolidados:
Estructura de ontología específica del dominio: el modelo conceptual de nodos y tipos de bordes permitidos.
Datos financieros anuales: Las instancias específicas del gráfico (nodos y aristas) se extraen de los documentos del cliente. Estos datos, provenientes de documentos como informes anuales y extractos bancarios, rellenan los nodos y aristas con valores numéricos para cada período del informe. Esta información continua a lo largo del tiempo permite al sistema analizar tendencias históricas y la evolución financiera.
Estructurando la ontología: nodos y aristas
Nodos: Elementos de línea financieros, como Ingresos, Gastos y Beneficio neto.
Aristas: Relaciones causales o estructurales, como la influencia de los ingresos en la utilidad neta. Estas aristas definen la relación semántica entre dos nodos.
Uso de Graph RAG para la recuperación contextual
Graph RAG combina grafos de conocimiento (teoría de grafos) con técnicas de recuperación y generación de IA. XLRT utiliza Graph RAG para fundamentar los LLM recuperando conocimiento relevante e información numérica del almacén de grafos. Esta base garantiza que los resultados sean contextualizados, factuales y prácticos.
Graph RAG permite al sistema:
Analizar dependencias causales: el sistema rastrea relaciones de causa y efecto (bordes) e identifica cómo un cambio en una línea financiera podría influir en otras.
Identificar correlaciones ilógicas: El sistema examina las relaciones entre nodos para detectar inconsistencias o correlaciones que desafían la lógica financiera. Esta verificación garantiza la integridad de los datos.
Recuperar el contexto de cualquier partida: El sistema consulta el gráfico, extrae los nodos y aristas relevantes y proporciona una instantánea contextual de los datos que rodean una partida. Esta instantánea aclara cómo interactúan los componentes individuales dentro de la estructura financiera.
Este enfoque proporciona conocimiento contextual y una mejor toma de decisiones al revelar la estructura y la interconectividad de los conjuntos de datos financieros.
Impulsando Graph RAG con MongoDB y LangChain
LangChain conecta los LLM directamente a MongoDB. El componenteMongoDBGraphStore facilita esta conexión y gestiona el flujo de datos entre el modelo de lenguaje y la base de datos. Esta integración transforma los datos financieros no estructurados en información procesable e interconectada sin necesidad de un motor de base de datos de grafos dedicado.
Capacidades básicas de la base de datos
El sistema se basa en la arquitectura flexible de MongoDB para servir como base para el gráfico de conocimiento:
Datos operativos y de grafos unificados: A diferencia de los enfoques tradicionales que separan los datos de grafos de los datos operativos, MongoDB almacena tanto la ontología específica del dominio como las instancias específicas de datos financieros (nodos y aristas) en el mismo formato de documento flexible. Esto permite que el sistema rellene continuamente el grafo con nuevos datos de informes anuales o extractos bancarios sin necesidad de migraciones de esquemas rígidos.
Recorrido eficiente de grafos: MongoDB ejecuta el recorrido de grafos y las consultas mediante la etapa de agregación $graphLookup. Este proceso permite la rápida recuperación de información financiera relevante e interconectada directamente junto con los datos operativos.
La integración de MongoDBGraphStore
Aunque MongoDB proporciona el motor, el MongoDBGraphStore El componente de LangChain actúa como orquestador. Este componente optimiza la implementación de Graph RAG mediante dos funciones clave:
Abstracción y Recuperación:
MongoDBGraphStoreabstrae las agregaciones de bases de datos sin procesar, simplificando la recuperación de datos de grafos. El componente formatea automáticamente el grafo de conocimiento recuperado en indicaciones contextuales, optimizando los datos para el razonamiento agéntico sin necesidad de construir consultas manualmente.Creación dinámica de gráficos: para completar el gráfico, el componente utiliza un flujo de trabajo dinámico de "Extracción y carga":
Extracción de entidades: Un modelo de extracción de entidades basado en LLM (inicializado dentro del componente) analiza los estados financieros cargados por el cliente. Convierte datos no estructurados en entidades gráficas estructuradas y relaciones mediante la extracción de entidades con nombre y sus conexiones.
Configuración: Las indicaciones e instrucciones personalizadas guían el proceso de extracción. Estas indicaciones, configurables mediante el
entity_promptparámetro, garantizan que el modelo asigne los datos al contexto financiero correcto.Población de grafos: Mediante el
add_documents()método, el modelo extrae y actualiza automáticamente estas entidades y relaciones en la colección de MongoDB. Esto crea un grafo de conocimiento dinámico que evoluciona instantáneamente a medida que se procesan nuevos documentos.
Ampliación de la cadena de pensamiento (CdP) con retroalimentación basada en puntuación
Si bien recuperar el contexto correcto mediante Graph RAG es crucial, garantizar la precisión del razonamiento aplicado a esos datos es igualmente importante. XLRT mejora la incitación estándar de Cadena de Pensamiento (CoT) al introducir un bucle de puntuación que refina iterativamente la salida del modelo.
El desafío del razonamiento
Incluso con razonamiento estructurado, los grandes modelos de lenguaje (LLM) a veces pueden malinterpretar el contexto o realizar saltos lógicos erróneos, lo que provoca alucinaciones. Para mitigar este riesgo, XLRT utiliza una arquitectura de modelo dual:
Performer LLM: Genera la respuesta inicial basada en los datos financieros.
Aumento de indicaciones LLM: evalúa el rendimiento del ejecutante y ajusta la indicación si la calidad es insuficiente.
El proceso de puntuación
El sistema evalúa cada respuesta en función de tres métricas clave:
Coherencia contextual: ¿La respuesta se alinea con el contexto financiero específico proporcionado?
Precisión fáctica: ¿El resultado se ajusta a los hechos conocidos y a las reglas de datos?
Solidez lógica: ¿Los pasos intermedios del razonamiento están conectados y son válidos?
Si una respuesta tiene una puntuación inferior a un umbral determinado, como el 60 por ciento, el LLM de Aumento de Indicación analiza el error y genera una indicación refinada; por ejemplo, indica explícitamente al LLM del Ejecutor que "verifique el cambio porcentual en comparación con el trimestre anterior". Este ciclo se repite hasta que la respuesta cumpla con los estándares de precisión, lo que garantiza resultados de alta fiabilidad para tareas críticas como la creación de notas de crédito.
Comentarios de los usuarios para comentarios personalizados
Para garantizar que el resultado sea relevante, el sistema utiliza la retroalimentación del usuario de dos maneras para refinar la generación de la cadena de pensamiento (CoT):
Adaptación basada en roles: en lugar de corregir solo errores, el sistema utiliza la retroalimentación del usuario para adaptar las indicaciones de CoT al contexto específico del usuario.
Aumento dinámico: un LLM dedicado analiza los comentarios para ajustar el mensaje, por ejemplo, centrándose en el cumplimiento para un auditor o en el impacto comercial para un ejecutivo.
Caso de uso: Transformación de los flujos de trabajo de documentos financieros
XLRT utiliza su arquitectura Graph RAG para transformar los flujos de trabajo de documentos financieros que consumen mucho tiempo. Utiliza IA agentic basada en el gráfico de conocimiento financiero para impulsar tres ofertas de productos:
Justifi™: Ofrece análisis instantáneo de estados financieros, como 10informes anuales y estados financieros preparados por la gerencia. También proporciona análisis normalizados para proveedores de datos y resúmenes inteligentes.
Contractus™: Proporciona análisis automático de contratos comerciales, infiere términos comerciales para proyectar flujos de efectivo y facilita la gestión de contratos organizacionales.
Facturas™: Permite el análisis defacturas sin plantillas y la evaluación automatizada de datos, lo que garantiza un flujo de validación superior para un procesamiento directo.
Principales beneficios de XLRT para el análisis de documentos financieros
La automatización de estos flujos de trabajo complejos ofrece los siguientes beneficios:
Precisión: Los agentes adaptados al dominio, basados en el gráfico de conocimiento factual, garantizan información financiera precisa y consistente.
Reducción de costos: el sistema reduce la dependencia del trabajo manual al tiempo que mantiene resultados auditables y de alta calidad.
Eficiencia: Los flujos de trabajo automatizados de extremo a extremo reducen drásticamente el esfuerzo manual y permiten un procesamiento de datos acelerado y una toma de decisiones más rápida.
Lógica ilustrativa de la arquitectura RAG gráfica de XLRT
Los siguientes pasos ilustran la lógica de implementación clave que Xlrt utiliza para integrar LangChain y su MongoDBGraphStore componente con el fin de crear un RAG gráfico para el procesamiento inteligente de documentos. Esta ilustración utiliza MongoDB Atlas, aunque MongoDB Enterprise Advanced también es una opción. Xlrt ha optado por utilizar Ollama para ejecutar el LLM:
Preparar el entorno
Instale las bibliotecas necesarias para la interacción con MongoDB, la integración con LangChain y Ollama para enviar solicitudes a los LLM. La arquitectura es independiente de LLM, lo que permite conectar cualquier modelo LLM. Para completar este tutorial, necesita un clúster Atlas con MongoDB versión 7.0.2 o posterior.
pip install --quiet --upgrade pymongo langchain_mongodb langchain_ollama
Definir las variables
MONGODB_URI = "<connection-string>" DB_NAME = "financial_kg_db" # MongoDB database to store the knowledge graph COLLECTION_NAME = "FINANCIALS" # MongoDB collection to store the knowledge graph
<connection-string> sería la cadena de conexión del clúster Atlas.
El <connection-string> se define utilizando el siguiente formato:
mongodb+srv://<db_username>:<db_password>@<clusterName>.<hostname>.mongodb.net
Crear una instancia del almacén de gráficos MongoDB de LangChain
from langchain_mongodb.graphrag.graph import MongoDBGraphStore graph_store = MongoDBGraphStore.from_connection_string( connection_string=MONGODB_URI, database_name=DB_NAME, collection_name=COLLECTION_NAME, entity_extraction_model=chat_model # LLM – model of your choice )
Combinar contexto para aumentar la información rápidamente
Una vez recuperados los datos relevantes, el contexto recuperado de Graph RAG se combina para aumentar la solicitud para el LLM mediante el uso de LangChain y el modelo seleccionado, al que sirve Ollama.
Ejemplo de Python para la construcción de contexto:
from langchain_ollama import ChatOllama from langchain.prompts import PromptTemplate # Set up Ollama as the LLM with your model of choice llm = ChatOllama(model="<model of your choice>") # Define a prompt template template = """ You are an AI financial analyst. Analyze the following data and provide insights: {context} User Query: {query} """ prompt = PromptTemplate( input_variables= ["context", "query"], template=template ) chain = prompt | llm response = chain.invoke({"context": context, "query": Query}) print("Generated Insights:\n", response)
Conclusión
Las organizaciones financieras pueden integrar Xlrt con MongoDB Atlas o MongoDB Enterprise Advanced para utilizar sistemas Graph RAG para el procesamiento inteligente avanzado de documentos y flujos de trabajo automatizados.
Esta combinación transforma datos financieros no estructurados en información práctica. La ontología financiera basada en MongoDB mejora la eficiencia, la precisión y la toma de decisiones estratégicas.
Conclusiones clave
Fundamentación de los LLM con la arquitectura MongoDB Graph RAG: Al usar una arquitectura MongoDB Graph RAG, los LLM se basan en una ontología financiera dinámica. Este enfoque utiliza la etapa de agregación $graphLookup para recorrer las relaciones interconectadas dentro de una base de conocimiento unificada, lo que garantiza una recuperación precisa y contextual.
Impulsando agentes complejos con razonamiento basado en puntuación: Más allá de la simple recuperación, la arquitectura admite bucles de retroalimentación avanzados. Al validar el razonamiento en cadena de pensamiento con datos financieros verificados obtenidos de MongoDB, el sistema garantiza la precisión antes de finalizar una respuesta. Esta puntuación iterativa evita las alucinaciones, garantizando que cada perspectiva sea lógicamente sólida y coherente con su ontología financiera.
Convierta las capacidades técnicasen valor empresarial: Al usar MongoDB para unificar documentos no estructurados y gráficos de conocimiento estructurados, las organizaciones pueden transformar los cuellos de botella manuales, como el análisis de crédito, en flujos de trabajo automatizados e inteligentes. Este cambio de arquitectura reduce la sobrecarga operativa y minimiza la dependencia de los procesos manuales.