Acelerador da solução para fraudes de cartão em tempo real

Casos de uso: IA generativa, Prevenção de fraudes

Setores: Serviços financeiros, Seguros, Varejo

Produtos e ferramentas: MongoDB Atlas, Clusters do MongoDB Atlas, MongoDB Change Streams, MongoDB Atlas Triggers, MongoDB Spark Streaming Connector

Parceiros: Databhards

Visão geral das soluções

Esta solução mostra como construir uma solução de fraude baseada em MLusando MongoDB e Databricks. Os principais recursos da solução incluem integridade de dados por meio da integração com fontes externas, processamento em tempo real para detecção atempada de fraudes, modelagem IA/ML para identificar possíveis padrões de fraude, monitoramento em tempo real para análise instantânea e medidas robustas de segurança.

O sistema facilita a operação e desenvolve a colaboração entre as equipes de desenvolvimento de aplicação e de ciência de dados. Ele também oferece suporte a pipelines de CI/CD de ponta a ponta para garantir sistemas atualizados e seguros.

Desafios existentes

As soluções contra fraudes enfrentam os seguintes desafios:

Visibilidade incompleta de dados dos sistemas legados: a falta de acesso a fontes de dados relevantes dificulta a detecção de padrões de fraude.
Problemas de latência em sistemas de prevenção de fraudes: os sistemas legados não têm processamento em tempo real, e isso causa atrasos na detecção de fraudes.
Dificuldade para adaptar sistemas legados: a inflexibilidade impede a adoção de tecnologias avançadas de prevenção de fraudes.
Protocolos de segurança fracos em sistemas legados: a segurança desatualizada expõe vulnerabilidades a ataques cibernéticos.
Desafios operacionais devido à expansão técnica: tecnologias diversas complicam as manutenções e atualizações.
Altos custos de operação de sistemas legados: gastar muito com manutenção limita o orçamento para prevenção de fraudes.
Falta de colaboração entre equipes: a abordagem em silos leva a soluções atrasadas e a uma maior sobrecarga.

O vídeo a seguir fornece uma visão geral dos desafios existentes e da arquitetura de referência da solução:

Arquiteturas de referência

A solução de fraude baseada em ML é adequada para setores onde o processamento em tempo real, a modelagem de IA/ML, a flexibilidade e a colaboração entre equipes são essenciais. O sistema garante operações atualizadas e seguras por meio de pipelines CI/CD de ponta a ponta. Este sistema pode ser aplicado a vários setores, incluindo:

Serviços financeiros: detecção de fraudes em transações
E-commerce: detecção de fraudes em pedidos
assistência médica e seguros: detecção de fraudes em pedidos de seguro

O diagrama a seguir demonstra como MongoDB, Amazon Web Services e Databricks interagem para construir a arquitetura de solução de fraude de cartão:

Figura 1. Arquitetura da solução para fraudes de cartão

clique para ampliar

Abordagem do modelo de dados

Modelo de dados da solução para fraudes de cartão

Figura 2. Modelo de dados para solução de fraude em cartões

clique para ampliar

O diagrama mostra três entidades para transações com cartão de crédito:

A transação
O mercador
O pagador

As três entidades usam o padrão de referência estendida, que incorpora campos de dados relevantes que são acessados com frequência. O aplicação de detecção de fraudes inclui campos dessas entidades em um único documento.

Construir a solução

A solução usa estes componentes:

Fonte de dados
- Aplicativos do produtor: o aplicativo móvel do produtor simula a geração de transações em tempo real.
- fonte de dados herdada: a fonte de dados externa SQL é usada para obter informações demográficas do cliente.
- Dados de treinamento: os dados históricos de transações necessários para o treinamento do modelo são originados do armazenamento de objeto na nuvem - Amazon S3 ou Microsoft Azure Blob Storage.
MongoDB Atlas: serve como o armazenamento de dados operacionais (ODS) para transações de cartão e processa transações em tempo real. A solução aproveita a estrutura de agregação MongoDB para realizar análises no aplicativo e processar transações com base em regras pré-configuradas. Ele também se comunica com o Databricks para detecção avançada de fraudes baseada em IA/ML por meio de um conector Spark nativo.
Databricks: hospeda a plataforma IA/ML para complementar a análise no aplicativo do MongoDB Atlas . O algoritmo de detecção de fraudes usa um bloco de anotações baseado na estrutura de fraudes MLFlow do Databricks e gerencia os MLOps para gerenciar esse modelo. O modelo modelado é um endpoint REST.

Fonte de dados

Primeiro, agregue dados de todas as fontes relevantes, conforme mostrado no diagrama de arquitetura acima. O diagrama usa uma arquitetura orientada a eventos para processar dados de fontes em tempo real, como aplicativos de produtores, bancos de dados SQL e conjuntos de dados de treinamento históricos.

Essa abordagem permite a obtenção de dados a partir de facets, como resumo de transações, demografia de cliente e informações do fornecedor.

Além disso, essa arquitetura orientada a eventos proposta oferece os seguintes benefícios:

Transações em tempo real unificadas, que permitem coletar em tempo real eventos de dados de cartão, como valor, localização e dispositivo de pagamento.
Ajuda a retreinar modelos de monitoramento para conter fraudes em tempo real.

O aplicação produtor é um script Python que gera informações de transação em tempo real a uma taxa predefinida.

MongoDB: arquitetura analítica orientada a eventos e mais acessível

O MongoDB Atlas é uma plataforma de banco de dados multinuvem eficaz para classificação de transações de fraude de cartão. Ele oferece várias funcionalidades úteis, como:

Modelo de dados flexível para armazenar vários tipos de dados.
Alta escalabilidade para atender à demanda de transações.
Funcionalidades avançadas de segurança para apoiar a conformidade com os requisitos normativos.
Processamento de dados em tempo real para detecção de fraudes rápida e precisa.
Implementação baseada na nuvem para armazenar dados mais perto dos clientes e cumprir as normas locais de privacidade de dados.

O conector de transmissão Spark MongoDB integra Apache Spark e MongoDB. O Apache Spark, hospedado pela Databricks, permite o processamento e a análise em tempo real de grandes quantidades de dados.

Change Streams e Atlas Triggers também fornecem recursos de processamento de dados em tempo real. Você pode usar o Atlas trigger para invocar uma chamada de serviço REST para um modelo AI/ML hospedado na estrutura Databricks MLFlow.

A solução de exemplo gerencia a proteção contra fraudes baseada em regras, armazenando limites de pagamento definidos pelo usuário e dados de configurações do usuário. Ao filtrar transações com essas regras antes de invocar modelos IA/ML, você pode reduzir os custos de redução de fraudes.

Databricks como plataforma de operações de AI/ML

A Databricks é uma plataforma de IA/ML que desenvolve modelos para identificar transações enganosas. Uma das principais funcionalidades do Databricks é o suporte de análises em tempo real para sistemas modernos de detecção de fraudes.

O Databricks inclui o MLFlow, uma ferramenta para gerenciar o ciclo de vida do aprendizado de máquina de ponta a ponta. O MLFlow permite que os usuários acompanhem experimentos, reproduzam resultados e implantem modelos em escala, facilitando o gerenciamento de fluxos de trabalho complexos de machine learning.

O MLFlow também oferece observabilidade de modelo para desempenho e depuração. Isso inclui acesso a métricas e registros do modelo para melhorar a precisão do modelo ao longo do tempo. Esses recursos também suportam o design de sistemas modernos de detecção de fraudes baseados em IA/ML.

Principais Aprendizados

Uma solução de fraude baseada em ML com MongoDB e Databricks fornece os seguintes recursos:

Integridade de dados: integrado a fontes externas para gerar análises de dados precisas.
Processamento em tempo real: permite detectar atividades fraudulentas oportunamente.
Modelagem de AI/ML: identifica possíveis padrões e comportamentos de fraude.
Monitoramento em tempo real: permite processar e analisar dados instantaneamente.
Observabilidade do modelo: garante visibilidade completa dos padrões de fraude.
Flexibilidade e escalabilidade: atende às necessidades empresariais que estão sempre mudando.
Medidas de segurança robustas: protegem contra possíveis vazamentos.
Operação fácil: reduz as complexidades operacionais.
Colaboração entre as equipes de aplicativos e ciência de dados: alinhamento de metas e cooperação.
Suporte completo ao pipeline de CI/CD: garante que os sistemas estejam sempre atualizados e seguros.

Autores

Shiv Pullepu, MongoDB
Luca Napoli, MongoDB
Ashwin Gangadhar, MongoDB
Rajesh Vinayagam, MongoDB