Casos de uso: IA generativa, Prevenção de fraudes
Setores: Serviços financeiros, Seguros, Varejo
Produtos e ferramentas: MongoDB Atlas, Clusters do MongoDB Atlas, MongoDB Change Streams, MongoDB Atlas Triggers, MongoDB Spark Streaming Connector
Parceiros: Databhards
Visão geral das soluções
Esta solução mostra como criar uma solução de fraude baseada emML usando MongoDB e Databricks. Os principais recursos da solução incluem integridade de dados por meio da integração com fontes externas, processamento em tempo real para detecção atempada de fraudes, modelagem IA/ML para identificar possíveis padrões de fraude, monitoramento em tempo real para análise instantânea e medidas robustas de segurança.
O sistema facilita a operação e desenvolve a colaboração entre as equipes de desenvolvimento de aplicação e de ciência de dados. Ele também oferece suporte a pipelines de CI/CD de ponta a ponta para garantir sistemas atualizados e seguros.
Desafios existentes
As soluções contra fraudes enfrentam os seguintes desafios:
Visibilidade incompleta de dados dos sistemas legados: a falta de acesso a fontes de dados relevantes dificulta a detecção de padrões de fraude.
Problemas de latência em sistemas de prevenção de fraudes: os sistemas legados não têm processamento em tempo real, e isso causa atrasos na detecção de fraudes.
Dificuldade para adaptar sistemas legados: a inflexibilidade impede a adoção de tecnologias avançadas de prevenção de fraudes.
Protocolos de segurança fracos em sistemas legados: a segurança desatualizada expõe vulnerabilidades a ataques cibernéticos.
Desafios operacionais devido à expansão técnica: tecnologias diversas complicam as manutenções e atualizações.
Altos custos de operação de sistemas legados: gastar muito com manutenção limita o orçamento para prevenção de fraudes.
Falta de colaboração entre equipes: a abordagem em silos leva a soluções atrasadas e a uma maior sobrecarga.
O vídeo a seguir fornece uma visão geral dos desafios existentes e da arquitetura de referência da solução:
Arquiteturas de referência
A solução de fraude baseada em ML é adequada para setores onde o processamento em tempo real, a modelagem de IA/ML, a flexibilidade e a colaboração entre equipes são essenciais. O sistema garante operações atualizadas e seguras por meio de pipelines CI/CD de ponta a ponta. Este sistema pode ser aplicado a vários setores, incluindo:
Serviços financeiros: detecção de fraudes em transações
E-commerce: detecção de fraudes em pedidos
assistência médica e seguros: detecção de fraudes em pedidos de seguro
O diagrama a seguir demonstra como MongoDB, Amazon Web Services e Databricks interagem para construir a arquitetura de solução de fraude de cartão:

Figura 1. Arquitetura da solução para fraudes de cartão
Abordagem do modelo de dados

Figura 2. Modelo de dados para solução de fraude em cartões
O diagrama mostra três entidades para transações com cartão de crédito:
A transação
O mercador
O pagador
As três entidades usam o padrão de referência estendida, que incorpora campos de dados relevantes que são acessados com frequência. O aplicação de detecção de fraudes inclui campos dessas entidades em um único documento.
Construir a solução
A solução usa estes componentes:
Fonte de dados
Aplicativos do produtor: o aplicativo móvel do produtor simula a geração de transações em tempo real.
fonte de dados herdada: a fonte de dados externa SQL é usada para obter informações demográficas do cliente.
Dados de treinamento: os dados históricos de transações necessários para o treinamento do modelo são originados do armazenamento de objeto na nuvem - Amazon S3 ou Microsoft Azure Blob Storage.
MongoDB Atlas: serve como o armazenamento de dados operacionais (ODS) para transações de cartão e processa transações em tempo real. A solução aproveita a estrutura de agregação MongoDB para realizar análises no aplicativo e processar transações com base em regras pré-configuradas. Ele também se comunica com o Databricks para detecção avançada de fraudes baseada em IA/ML por meio de um conector Spark nativo.
Databricks: hospeda a plataforma IA/ML para complementar a análise no aplicativo do MongoDB Atlas . O algoritmo de detecção de fraudes usa um bloco de anotações baseado na estrutura de fraudes MLFlow do Databricks e gerencia os MLOps para gerenciar esse modelo. O modelo modelado é um endpoint REST.
Fonte de dados
Primeiro, agregue dados de todas as fontes relevantes, conforme mostrado no diagrama de arquitetura acima. O diagrama usa uma arquitetura orientada a eventos para processar dados de fontes em tempo real, como aplicativos de produtores, bancos de dados SQL e conjuntos de dados de treinamento históricos.
Essa abordagem permite a obtenção de dados a partir de facets, como resumo de transações, demografia de cliente e informações do fornecedor.
Além disso, essa arquitetura orientada a eventos proposta oferece os seguintes benefícios:
Transações em tempo real unificadas, que permitem coletar em tempo real eventos de dados de cartão, como valor, localização e dispositivo de pagamento.
Ajuda a retreinar modelos de monitoramento para conter fraudes em tempo real.
O aplicação produtor é um script Python que gera informações de transação em tempo real a uma taxa predefinida.
MongoDB: arquitetura analítica orientada a eventos e mais acessível
O MongoDB Atlas é uma plataforma de banco de dados multinuvem eficaz para classificação de transações de fraude de cartão. Ele oferece várias funcionalidades úteis, como:
Modelo de dados flexível para armazenar vários tipos de dados.
Alta escalabilidade para atender à demanda de transações.
Funcionalidades avançadas de segurança para apoiar a conformidade com os requisitos normativos.
Processamento de dados em tempo real para detecção de fraudes rápida e precisa.
Implementação baseada na nuvem para armazenar dados mais perto dos clientes e cumprir as normas locais de privacidade de dados.
O conector de transmissão Spark MongoDB integra Apache Spark e MongoDB. O Apache Spark, hospedado pela Databricks, permite o processamento e a análise em tempo real de grandes quantidades de dados.
Change Streams e Atlas Triggers também fornecem recursos de processamento de dados em tempo real. Você pode usar o Atlas trigger para invocar uma chamada de serviço REST para um modelo AI/ML hospedado na estrutura Databricks MLFlow.
A solução de exemplo gerencia a proteção contra fraudes baseada em regras, armazenando limites de pagamento definidos pelo usuário e dados de configurações do usuário. Ao filtrar transações com essas regras antes de invocar modelos IA/ML, você pode reduzir os custos de redução de fraudes.
Databricks como plataforma de operações de AI/ML
A Databricks é uma plataforma de IA/ML que desenvolve modelos para identificar transações enganosas. Uma das principais funcionalidades do Databricks é o suporte de análises em tempo real para sistemas modernos de detecção de fraudes.
O Databricks inclui o MLFlow, uma ferramenta para gerenciar o ciclo de vida do aprendizado de máquina de ponta a ponta. O MLFlow permite que os usuários acompanhem experimentos, reproduzam resultados e implantem modelos em escala, facilitando o gerenciamento de fluxos de trabalho complexos de machine learning.
O MLFlow também oferece observabilidade de modelo para desempenho e depuração. Isso inclui acesso a métricas e registros do modelo para melhorar a precisão do modelo ao longo do tempo. Esses recursos também suportam o design de sistemas modernos de detecção de fraudes baseados em IA/ML.
Principais Aprendizados
Uma solução de fraude baseada em ML com MongoDB e Databricks fornece os seguintes recursos:
Integridade de dados: integrado a fontes externas para gerar análises de dados precisas.
Processamento em tempo real: permite detectar atividades fraudulentas oportunamente.
Modelagem de AI/ML: identifica possíveis padrões e comportamentos de fraude.
Monitoramento em tempo real: permite processar e analisar dados instantaneamente.
Observabilidade do modelo: garante visibilidade completa dos padrões de fraude.
Flexibilidade e escalabilidade: atende às necessidades empresariais que estão sempre mudando.
Medidas de segurança robustas: protegem contra possíveis vazamentos.
Operação fácil: reduz as complexidades operacionais.
Colaboração entre as equipes de aplicativos e ciência de dados: alinhamento de metas e cooperação.
Suporte completo ao pipeline de CI/CD: garante que os sistemas estejam sempre atualizados e seguros.
Autores
Shiv Pullepu, MongoDB
Luca Napoli, MongoDB
Ashwin Gangadhar, MongoDB
Rajesh Vinayagam, MongoDB