Detecção de fraudes em tempo real com AI/ML para serviços financeiros com MongoDB e Databricks. Assegure a integridade dos dados e a análise instantânea de fraudes.
Casos de uso: IA generativa, Prevenção de fraudes
Setores: Serviços financeiros, Seguros, Varejo
Produtos e ferramentas: Atlas, Atlas Clusters, Change Streams, Atlas Triggers, Spark Streaming Connector
Parceiros: Databhards
Visão geral das soluções
Nesta solução, você verá como é fácil criar uma solução de fraude baseada em ML com o MongoDB e o Databricks. Os principais recursos da solução incluem integridade de dados por meio de integração com fontes externas, processamento em tempo real para detecção oportuna de fraudes, modelagem de AI/ML para identificar possíveis padrões de fraude, monitoramento em tempo real para análise instantânea, observabilidade do modelo para visibilidade total dos comportamentos de fraude, flexibilidade, escalabilidade e medidas de segurança robustas. O sistema tem o objetivo de facilitar a operação e promover a colaboração entre as equipes de desenvolvimento de aplicativos e ciência de dados. Além disso, ele é compatível com pipelines de CI/CD de ponta a ponta, garantindo sistemas atualizados e seguros.
Desafios existentes
Visibilidade incompleta de dados dos sistemas legados: a falta de acesso a fontes de dados relevantes dificulta a detecção de padrões de fraude.
Problemas de latência em sistemas de prevenção de fraudes: sistemas legados carecem de processamento em tempo real, causando atrasos na detecção de fraudes.
Dificuldade em adaptar sistemas legados: a inflexibilidade impede a adoção de tecnologias avançadas de prevenção de fraudes.
Protocolos de segurança fracos dos sistemas legados: a segurança desatualizada expõe vulnerabilidades a ataques cibernéticos.
Desafios operacionais devido à proliferação técnica: tecnologias diversas complicam a manutenção e as atualizações.
Altos custos de operação de sistemas legados: gastar muito com manutenção limita o orçamento para prevenção de fraudes.
Falta de colaboração entre equipes: a abordagem em silos leva a soluções atrasadas e mais sobrecarga.
Arquiteturas de referência
A solução de fraude baseada em ML é adequada para setores nos quais o processamento em tempo real, a modelagem de AI/ML, a observabilidade do modelo, a flexibilidade e a colaboração das equipes são absolutamente essenciais. O sistema garante operações atualizadas e seguras por meio de pipelines de CI/CD de ponta a ponta. Os setores relevantes incluem:
Serviços Financeiros - Detecção de Fraude em Transações
E-commerce - Detecção de fraude em pedidos
Assistência à saúde e seguros - detecção de fraudes em sinistros

Figura 1. Arquitetura da solução para fraudes de cartão
Abordagem do modelo de dados

Figura 2. Modelo de dados para solução de fraude em cartões
Como você pode ver no diagrama de domínio, há três entidades quando se lida com transações de cartão de crédito: a transação em si, o comerciante e o pagador envolvidos na transação. Como todos os três são importantes e acessados juntos em nosso aplicativo de detecção de fraudes, nós usamos o padrão de referência estendida e incluímos campos sobre a transação, o comerciante e o pagador em um único documento.
Construindo a Solução
Os recursos funcionais listados acima podem ser implementados por alguns componentes arquitetônicos. São eles:
Fonte de dados
Aplicativos de produção: o aplicativo móvel de produção simula a geração de transações em tempo real.
Fonte de dados legada: a fonte de dados externa SQL é utilizada para os dados demográficos dos clientes.
Dados de treinamento: os dados históricos das transações necessários para treinar o modelo são obtidos do armazenamento de objetos em nuvem - Amazon S3 ou Microsoft Azure Blob Storage.
MongoDB Atlas: atua como armazenamento de dados operacionais (Operational Data Store, ODS) das transações com cartão e as processa em tempo real. A solução utiliza o framework de agregação do MongoDB Atlas para realizar análises no aplicativo e processar transações com base em regras pré-configuradas. Ela também se comunica com o Databricks para fazer detecção avançada de fraudes baseada em AI/ML por meio de um Spark Connector nativo.
Databricks: hospeda a plataforma de AI/ML para complementar a análise no aplicativo do MongoDB Atlas. Um algoritmo de detecção de fraude usado neste exemplo é um notebook inspirado no framework de fraude do Databricks, o MLFlow, e tem sido utilizado para gerenciar o MLOps desse modelo. O modelo treinado é exposto como um ponto de extremidade REST.
Agora, vamos detalhar esses componentes arquitetônicos abaixo, um por um.
Fonte de dados
A primeira etapa para implementar uma solução abrangente de detecção de fraudes é agregar dados de todas as fontes de dados relevantes. Conforme mostrado na Figura 1 acima, uma arquitetura federada orientada por eventos é utilizada para coletar e processar dados de fontes em tempo real, como aplicativos de produtores, fontes de dados de sistemas legados em lote, como bancos de dados SQL, e conjuntos de dados históricos de treinamento de armazenamento offline. Essa abordagem possibilita a obtenção de fontes de dados de várias facetas, como resumos de transações, dados demográficos de clientes, informações de comerciantes e outras fontes relevantes, garantindo a integridade dos dados.
Além disso, a arquitetura orientada a eventos proposta oferece os seguintes benefícios:
Unificação de dados de transações em tempo real, que permite coletar dados de eventos de transações com cartão, como valor, localização, horário, informações do gateway de pagamento e informações do dispositivo de pagamento em tempo real.
Ajuda a retreinar modelos de monitoramento com base na atividade dos eventos ao vivo para combater as fraudes à medida que elas ocorrem.
O aplicativo produtor para a demonstração é um script Python que gera informações de transações ao vivo a uma taxa predefinida (transações/seg, que pode ser configurada).
MongoDB: arquitetura analítica orientada a eventos e mais acessível
O MongoDB Atlas é uma plataforma moderna de banco de dados multinuvem que oferece vários recursos que o tornam a escolha ideal como banco de dados para classificação de transações fraudulentas de cartão. Ele oferece modelos de dados flexíveis e lida com vários tipos de dados, alta escalabilidade para atender à demanda, recursos avançados de segurança em conformidade com os requisitos regulatórios, processamento de dados em tempo real para detecção rápida e precisa de fraudes e implantação em nuvem para armazenar dados mais próximos dos clientes e cumprir os regulamentos locais de privacidade de dados.
O MongoDB Spark Streaming Connector integra o Apache Spark e o MongoDB. O Apache Spark, hospedado pelo Databricks, permite processar e analisar grandes volumes de dados em tempo real. O Spark Connector converte os dados do MongoDB em data frames do Spark e suporta streaming em tempo real do Spark.
Os recursos do App Services oferecidos pelo MongoDB permitem fazer processamento de dados em tempo real com fluxos de alterações e triggers. Como o MongoDB Atlas consegue armazenar e processar vários tipos de dados e oferece funcionalidades de streaming e trigger, ele é adequado para ser usado em uma arquitetura orientada por eventos.
Essa solução utiliza o rico ecossistema de conectores do MongoDB e do App Services para processar transações em tempo real. A função Trigger do App Services é usada invocando-se uma chamada de serviço REST para um modelo de AI/ML hospedado no framework MLflow do Databricks.
A solução de exemplo gerencia a prevenção de fraudes baseada em regras ao armazenar dados e limites de pagamento definidos pelo usuário em uma coleção de configurações do usuário, conforme mostrado. Isso inclui limites máximos em dólares por transação, o número de transações permitidas por dia e outros detalhes relacionados ao usuário. Ao filtrar transações com base nessas regras antes de invocar modelos caros de AI/aprendizado de máquina, o custo geral da prevenção de fraudes é reduzido.
Databricks como plataforma de operações de AI/ML
O Databricks é uma poderosa plataforma de AI/ML para desenvolver modelos de identificação de transações fraudulentas. Um dos principais recursos do Databricks é o suporte à análise em tempo real. Conforme discutido acima, a análise em tempo real é um recurso fundamental nos sistemas modernos de detecção de fraudes.
O Databricks inclui o MLFlow, uma ferramenta poderosa para gerenciar o ciclo de vida completo do aprendizado de máquina. O MLFlow permite que os usuários acompanhem experimentos, reproduzam resultados e implantem modelos em grande escala, tornando mais fácil gerenciar fluxos de trabalho complexos de aprendizado de máquina. O MLFlow oferece observabilidade do modelo, permitindo fácil rastreamento do desempenho do modelo e depuração. Isso inclui acesso a métricas do modelo, logs e outros dados relevantes, que podem ser usados para identificar problemas e melhorar a precisão do modelo ao longo do tempo. Além disso, esses recursos podem ajudar no design de sistemas modernos de detecção de fraudes com tecnologia de AI/aprendizado de máquina.
Principais Aprendizados
Os recursos funcionais e não funcionais da solução proposta incluem:
Integridade de dados: integrado a fontes externas para gerar análises de dados precisas.
Processamento em tempo real: permite detectar atividades fraudulentas oportunamente.
Modelagem de AI/ML: identifica possíveis padrões e comportamentos de fraude.
Monitoramento em tempo real: permite processar e analisar dados instantaneamente.
Observabilidade do modelo: garante visibilidade completa dos padrões de fraude.
Flexibilidade e escalabilidade: atende às necessidades empresariais que estão sempre mudando.
Medidas de segurança robustas: protegem contra possíveis vazamentos.
Operação fácil: reduz as complexidades operacionais.
Colaboração entre as equipes de aplicativos e ciência de dados: alinhamento de metas e cooperação.
Suporte completo ao pipeline de CI/CD: garante que os sistemas estejam sempre atualizados e seguros.
Tecnologias e produtos utilizados
Plataforma de dados para desenvolvedores do MongoDB
Tecnologias de parceiros
Autores
Shiv Pullepu, MongoDB
Luca Napoli, MongoDB
Ashwin Gangadhar, MongoDB
Rajesh Vinayagam, MongoDB