Casos de uso: Gen AI,prevencióndel fraude
Industrias: Servicios financieros, seguros, comercio minorista
Productos y herramientas: MongoDB Atlas, clústeres deMongoDBAtlas, flujos de cambios de MongoDB, activadores deMongoDB Atlas,conector de transmisión de MongoDB Spark
Asociados: Databricks
Visión general de soluciones
Esta solución muestra cómo construir un Solución antifraude basada en aprendizaje automático(ML) que utiliza MongoDB y Databricks. Sus principales características incluyen la integridad de los datos mediante la integración con fuentes externas, el procesamiento en tiempo real para la detección oportuna del fraude, el modelado de IA/ML para identificar posibles patrones de fraude, la monitorización en tiempo real para un análisis instantáneo y sólidas medidas de seguridad.
El sistema facilita la operación y fomenta la colaboración entre los equipos de desarrollo de aplicaciones y de ciencia de datos. Además, admite pipelines de CI/CD de extremo a extremo para garantizar sistemas actualizados y seguros.
Desafíos existentes
Las soluciones contra el fraude enfrentan los siguientes desafíos:
Visibilidad incompleta de los datos de los sistemas heredados: la falta de acceso a fuentes de datos relevantes dificulta la detección de patrones de fraude.
Problemas de latencia en los sistemas de prevención de fraude: los sistemas tradicionales carecen de procesamiento en tiempo real, lo que provoca retrasos en la detección del fraude.
Dificultad para adaptar los sistemas heredados: la inflexibilidad obstaculiza la adopción de tecnologías avanzadas de prevención del fraude.
Protocolos de seguridad débiles en sistemas heredados: la seguridad obsoleta expone las vulnerabilidades a ataques cibernéticos.
Desafíos operativos debido a la proliferación técnica: las diversas tecnologías complican el mantenimiento y las actualizaciones.
Altos costos operativos de los sistemas heredados: el costoso mantenimiento limita el presupuesto para la prevención del fraude.
Falta de colaboración entre equipos: un enfoque aislado da lugar a soluciones retrasadas y mayores gastos generales.
El siguiente vídeo ofrece una descripción general de los desafíos existentes y la arquitectura de referencia de la solución:
Arquitecturas de Referencia
La solución antifraude basada en ML es ideal para industrias donde el procesamiento en tiempo real, el modelado de IA/ML, la flexibilidad y la colaboración entre equipos son esenciales. El sistema garantiza operaciones actualizadas y seguras mediante canales de CI/CD de extremo a extremo. Este sistema se puede aplicar a diversas industrias, entre ellas:
Servicios financieros: Detección de fraude en transacciones
Comercio electrónico: Detección de fraude en pedidos
Salud y seguros: detección de fraudes en reclamaciones
El siguiente diagrama demuestra cómo interactúan MongoDB, AWS y Databricks para construir la arquitectura de la solución contra el fraude con tarjetas:

Figura 1. Arquitectura de la solución contra el fraude con tarjetas
Enfoque del modelo de datos

Figura 2. Modelo de datos de la solución contra el fraude con tarjetas
El diagrama muestra tres entidades para transacciones con tarjetas de crédito:
La transacción
El comerciante
El pagador
Las tres entidades utilizan el patrón de referencia extendido, que integra campos de datos relevantes de acceso frecuente. La aplicación de detección de fraudes integra los campos de estas entidades en un solo documento.
Construir la solución
La solución utiliza estos componentes:
Obtención de datos
Aplicaciones de productor: La aplicación móvil del productor simula la generación de transacciones en vivo.
Fuente de datos heredada: la fuente de datos externa de SQL se utiliza para la demografía de los clientes.
Datos de entrenamiento: los datos de transacciones históricas necesarios para el entrenamiento del modelo provienen del almacenamiento de objetos en la nube: Amazon S3 o Microsoft Azure Blob Storage.
MongoDB Atlas: Funciona como almacén de datos operativos (ODS) para transacciones con tarjeta y las procesa en tiempo real. La solución aprovecha el marco de agregación de MongoDB para realizar análisis en la aplicación y procesar transacciones según reglas preconfiguradas. También se comunica con Databricks para la detección avanzada de fraudes basada en IA/ML mediante un conector Spark nativo.
Databricks: Aloja la plataforma de IA/ML para complementar el análisis integrado de MongoDB Atlas. El algoritmo de detección de fraude utiliza un notebook inspirado en el framework de fraude MLFlow de Databricks y gestiona las MLOps para gestionar este modelo. El modelo entrenado es un endpoint REST.
Obtención de datos
Primero, agregue datos de todas las fuentes relevantes, como se muestra en el diagrama de arquitectura anterior. El diagrama utiliza una arquitectura basada en eventos para procesar datos de fuentes en tiempo real, como aplicaciones de producción, bases de datos SQL y conjuntos de datos de entrenamiento históricos.
Este enfoque permite obtener datos de aspectos como el resumen de transacciones, la demografía del cliente y la información del comerciante.
Además, esta arquitectura basada en eventos propuesta proporciona los siguientes beneficios:
Transacciones unificadas en tiempo real, que permiten recopilar en tiempo real datos de eventos de la tarjeta, como monto, ubicación y dispositivo de pago.
Ayuda a reentrenar los modelos de monitoreo para combatir el fraude en tiempo real.
La aplicación productora es un script de Python que genera información de transacciones en vivo a una velocidad predefinida.
MongoDB para arquitectura analítica basada en eventos y desplazamiento a la izquierda
MongoDB Atlas es una eficaz plataforma de base de datos multinube para la clasificación de transacciones fraudulentas con tarjetas. Ofrece diversas funciones útiles, como:
Modelo de datos flexible para almacenar varios tipos de datos.
Alta escalabilidad para satisfacer la demanda de transacciones.
Funciones de seguridad avanzadas para respaldar el cumplimiento de los requisitos reglamentarios.
Procesamiento de datos en tiempo real para una detección de fraude rápida y precisa.
Implementación en la nube para almacenar datos más cerca de los clientes y cumplir con las regulaciones locales de privacidad de datos.
El conector de transmisión MongoDB Spark integra Apache Spark y MongoDB. Apache Spark, alojado por Databricks, permite el procesamiento y análisis en tiempo real de grandes cantidades de datos.
Los flujos de cambio y los disparadores Atlas también ofrecen capacidades de procesamiento de datos en tiempo real. Puede usar Atlas Trigger para invocar una llamada de servicio REST a un modelo de IA/ML alojado en el framework MLFlow de Databricks.
La solución de ejemplo gestiona la prevención del fraude basada en reglas mediante el almacenamiento de los límites de pago definidos por el usuario y sus datos de configuración. Al filtrar las transacciones con estas reglas antes de invocar los modelos de IA/ML, se pueden reducir los costes de prevención del fraude.
Databricks como plataforma de operaciones de IA/ML
Databricks es una plataforma de IA/ML que desarrolla modelos para identificar transacciones fraudulentas. Una de sus características clave es la compatibilidad con análisis en tiempo real para sistemas modernos de detección de fraude.
Databricks incluye MLFlow, una herramienta para gestionar el ciclo de vida completo del aprendizaje automático. MLFlow permite a los usuarios realizar un seguimiento de experimentos, reproducir resultados e implementar modelos a escala, lo que facilita la gestión de flujos de trabajo complejos de aprendizaje automático.
MLFlow también ofrece observabilidad de modelos para mejorar el rendimiento y la depuración. Esto incluye acceso a métricas y registros del modelo para mejorar su precisión con el tiempo. Estas funciones también facilitan el diseño de sistemas modernos de detección de fraude basados en IA/ML.
Aprendizajes clave
Una solución contra fraude basada en ML con MongoDB y Databricks le proporciona las siguientes capacidades:
Integridad de los datos: Integrado con fuentes externas para un análisis de datos preciso.
Procesamiento en tiempo real: Habilita la detección oportuna de actividades fraudulentas.
Modelado de IA/ML: Identifica posibles patrones y comportamientos de fraude.
Monitoreo en tiempo real: Permite el procesamiento y análisis instantáneo de datos.
Observabilidad del modelo: garantiza una visibilidad total de los patrones de fraude.
Flexibilidad y escalabilidad: se adapta a las necesidades cambiantes del negocio.
Medidas de seguridad robustas: protege contra posibles infracciones.
Facilidad de operación: Reduce las complejidades operativas.
Colaboración del equipo de ciencia de datos y aplicaciones: alinea objetivos y cooperación.
Soporte de canalización CI/CD de extremo a extremo: garantiza sistemas actualizados y seguros.
Autores
Shiv Pullepu, MongoDB
Luca Napoli, MongoDB
Ashwin Gangadhar, MongoDB
Rajesh Vinayagam, MongoDB