Análise de rede AML com $graphLookup

Casos de uso: Visualização individual

Visão Geral da Solução

Os criminos financeiros operam em redes. Limpeza de capital, anéis de fraude e evasão de autorizações dependem de redes de empresas de shell, directores proxy e caminhos de transação em camadas. As equipes de compliance precisam mapear e analisar a rede de relacionamento em torno de uma entidade suspeita.

As abordagens tradicionais se deparam com dois gargalos:

Queries dispendiosas: os bancos de dados relacionais usam Expressões de Tabela Comum (CTEs) recursivas. Essas queries se tornam caras além de dois ou três saltos.
Ida e volta da rede constantes: o processamento de grafos do lado do cliente extrai dados para a camada do aplicativo. O cliente executa uma nova query para cada salto.

Nesta solução, você:

Crie um mecanismo de análise de rede que use operadores MongoDB para evitar esses gargalos.
Execute grafos multi-hop, detecção de caminho mais curto, pontuação de centralidade, Community detection e propagação de risco diretamente dentro do framework de agregação do MongoDB.

Esta solução se concentra no mecanismo de análise de rede e nos operadores MongoDB que o alimentam. Para implementar a arquitetura geral com MongoDB Atlas, FastAPI e Next.js, siga também a Solutions Library anterior, Mitigação de Crimes financeiros.

Por que MongoDB em vez de um banco de dados de grafos dedicado?

Armazene entidades e relacionamentos no MongoDB juntamente com índices de pesquisa, vector embeddings e change streams.
Evite sincronizar dados entre dois sistemas, gerenciar infraestrutura adicional e incorrer em latência entre sistemas porque você mantém as cargas de trabalho dos grafos no MongoDB.
Use o operador $graphLookup do MongoDB para executar uma pesquisa em largura com queries indexadas padrão em cada salto, para que o desempenho dependa dos seus índices em vez de um mecanismo de grafo separado.
Para as traversais de 1a5saltos comuns em pesquisas de compliance, essa abordagem corresponde a bancos de dados de grafos dedicados enquanto executa query dos mesmos dados que seu aplicativo já lê e grava.

Observação

Em pesquisas de compliance, você normalmente rastreia alguns passos a partir de um assunto. As contrapartes imediatas e os intermediários de primeira camada ficam a 1-2 saltos de distância, enquanto as estruturas de shell e os caminhos de movimentação de capital geralmente se enquadram no intervalo de 3a5 saltos. Além disso, os links se tornam menos significativos e mais difíceis de explicar, portanto, a maioria das pesquisas práticas permanece nessa faixa de 1a5saltos.

Arquiteturas de referência

O mecanismo de análise de rede fica entre a camada de serviço FastAPI e MongoDB Atlas e processa operações de grafos por meio do pipeline de agregação.

figura 1. Pipeline de Investigação Agente

clique para ampliar

Duplo $graphLookup Padrão

As redes de limpeza de ativos envolvem fluxos bidirecionais. Uma entidade pode obter recursos em um relacionamento e recebê-los em outro.

Um único $graphLookup atravessa as bordas em apenas uma direção. Essa solução executa duas pesquisas paralelas - direta e reversa - e mescla os resultados em um grafo de rede unificado.

pipeline = [
    {"$match": {"entityId": center_entity_id}},
    # Forward traversal: follow source → target edges
    {"$graphLookup": {
        "from": "relationships",
        "startWith": "$entityId",
        "connectFromField": "target.entityId",
        "connectToField": "source.entityId",
        "as": "forward_relationships",
        "maxDepth": max_depth - 1,
        "restrictSearchWithMatch": {
            "active": True,
            "confidence": {"$gte": min_confidence}
        }
    }},
    # Reverse traversal: follow target → source edges
    {"$graphLookup": {
        "from": "relationships",
        "startWith": "$entityId",
        "connectFromField": "source.entityId",
        "connectToField": "target.entityId",
        "as": "reverse_relationships",
        "maxDepth": max_depth - 1,
        "restrictSearchWithMatch": {
            "active": True,
            "confidence": {"$gte": min_confidence}
        }
    }},
    # Merge both directions
    {"$project": {
        "entityId": 1,
        "all_relationships": {
            "$concatArrays": [
                "$forward_relationships",
                "$reverse_relationships"
            ]
        }
    }},
    {"$unwind": "$all_relationships"},
    {"$replaceRoot": {"newRoot": "$all_relationships"}},
    {"$limit": max_relationships}
]

figura 2. $graphLookup duplo - Descoberta de rede bidirecional

clique para ampliar

O aplicativo recebe o grafo de rede completo em uma única ida e volta. Ambos os traversais são executados em um pipeline de agregação, o que remove o problema de query N+1 de emitir uma query de acompanhamento separada para cada document retornado na query inicial.

Como $graphLookup Percorre o grafo

$graphLookup realiza uma pesquisa em largura (BFS) em ondes discretas:

Semente: Avalie startWith em relação ao document de input. Os valores de array semeiam a borda simultaneamente (BFS multiraiz).
Query: Construa { connectToField: { $in: [frontier_values] }}, mesclado com qualquer filtro restrictSearchWithMatch. Execute como uma query indexada padrão em relação à coleção.
Expandir: para cada document correspondente que não esteja no conjunto visitado, adicione-o aos resultados, extraia valores connectFromField e envie-os para a próxima borda.
Repita: aumente a profundidade. Retorne à etapa 2 até que a borda esvazie ou maxDepth seja atingido.
Montar: coloque todos os documentos acumulados em uma array sob o campo.

A detecção de ciclo é automática. Um conjunto visitado interno evita loops infinitos em grafos cíclicos (A → B → C → A), que são comuns em estruturas de limpeza de capital. Cada document aparece nos resultados exatamente uma vez.

O restrictSearchWithMatch vantagem

restrictSearchWithMatch empurra critérios de filtro para a própria transversal, não como um pós-filtro. O MongoDB poda os ramos morto durante a travessia em vez de descobrir o grafo completo e filtrar posteriormente. Para redes grandes, isso pode reduzir o conjunto de trabalho em uma ordem de magnitude.

figura 3. Filtro durante a passagem versus pós-filtragem

clique para ampliar

Abordagem do modelo de dados

A solução utiliza duas coleções: entities e relationships. Elas seguem um padrão de lista de adjacência. Os metadados de borda ( confiança , provas , status de verificação ) existem como campos de primeira classe no document de relacionamento .

Esquema de relacionamento

{
    "relationshipId": "REL_8910",
    "source": {
        "entityId": "ENT_123",
        "entityType": "individual"
    },
    "target": {
        "entityId": "ENT_456",
        "entityType": "organization"
    },
    "type": "beneficial_owner_of",
    "direction": "directed",
    "strength": 0.85,
    "confidence": 0.95,
    "active": true,
    "verified": true,
    "evidence": [
        {
            "evidence_type": "corporate_registry",
            "confidence": 0.95,
            "source": "Companies House UK"
        }
    ],
    "datasource": "KYC_onboarding"
}

Principais decisões de design

Referências de origem/destino aninhadas: A estrutura source.entityId e target.entityId mapeia diretamente para os parâmetros connectFromField e connectToField do $graphLookup. Ele também preserva os metadados do tipo de entidade no nível de borda sem exigir uma união.
separado strength e a confidence campos: A Força captura o quão inerentemente forte é o relacionamento, como um UBO com 90% de propriedade em comparação com um associado comercial distante. A confiança captura a confiança no ponto de dados verificado por duas fontes independentes versus inferido a partir de um endereço compartilhado. A propagação do risco usa ambos os valores de forma diferente.
active boolean para exclusão reversível: os sistemas AML exigem faixas de auditar . Exclua um relacionamento definindo active: false em vez de remover o document. Esse sinalizador também serve como um filtro transversal em restrictSearchWithMatch.

Construir a solução

Clone o repositório e siga as instruções de configuração no GitHub README:

git clone https://github.com/mongodb-industry-solutions/fsi-aml-fraud-detection.git
cd fsi-aml-fraud-detection/aml-backend
poetry install
poetry run uvicorn main:app --host 0.0.0.0 --port 8001 --reload

As subseções a seguir percorrem as seis operações principais de grafo implementadas no NetworkRepository.

Criar índices necessários

$graphLookup emite uma query { connectToField: { $in: [frontier] } } a cada onde de BFS. Índice connectToField em ambas as direções transversais:

db.relationships.createIndex({
    "source.entityId": 1,
    "active": 1,
    "confidence": -1
});
db.relationships.createIndex({
    "target.entityId": 1,
    "active": 1,
    "confidence": -1
});

A vantagem do índice é mais forte em 1–3 saltos e diminui à medida que a profundidade aumenta. As passagens de 1para4sapatos nas pesquisas AML se encaixam perfeitamente no ponto ideal.

Criar redes de entidades (Dual `$graphLookup`)

Use o pipeline $graphLookup duplo descrito em Arquiteturas de referência para criar redes bidirecionais completas em uma única agregação.
O ponto de extremidade /network/{entity_id} expõe esta operação com profundidade configurável, limite de confiança e contagem máxima de nós.

Encontrar caminhos mais curtos (`depthField`)

Determine se um cliente de baixo risco se conecta a uma entidade sancionada – e reconstrua a cadeia exata.
Use depthField para anotar cada relacionamento descoberto com sua distância de salto:

pipeline = [
    {"$match": {"entityId": source_entity_id}},
    {"$graphLookup": {
        "from": "relationships",
        "startWith": "$entityId",
        "connectFromField": "source.entityId",
        "connectToField": "target.entityId",
        "as": "forward_paths",
        "maxDepth": max_depth - 1,
        "depthField": "depth"
    }},
    {"$graphLookup": {
        "from": "relationships",
        "startWith": "$entityId",
        "connectFromField": "target.entityId",
        "connectToField": "source.entityId",
        "as": "reverse_paths",
        "maxDepth": max_depth - 1,
        "depthField": "depth"
    }},
    {"$project": {
        "all_paths": {"$concatArrays": ["$forward_paths", "$reverse_paths"]}
    }},
    {"$unwind": "$all_paths"},
    {"$match": {"$or": [
        {"all_paths.source.entityId": target_entity_id},
        {"all_paths.target.entityId": target_entity_id}
    ]}},
    {"$sort": {"all_paths.depth": 1}},
    {"$limit": 1}
]

O resultado identifica a menor profundidade. Um segundo $graphLookup limitado nessa profundidade reconstrói a cadeia de relacionamento completa:

Customer A → [beneficial_owner_of] → Shell Corp B → [director_of] → Sanctioned Entity C

Calcular estatísticas de rede (`$facet`)

Use o $facet para executar cinco análises paralelas no mesmo conjunto de entidades em um único pipeline — distribuição de riscos, detalhamento do tipo de entidade, detecção de hub, pontuação de proeminência e métricas básicas:

stats_pipeline = [
    {"$match": {"entityId": {"$in": network_entity_ids}}},
    {"$addFields": {
        "connection_count": {"$size": {"$ifNull": ["$connected_entities", []]}}
    }},
    {"$facet": {
        "basic_stats": [{"$group": {
            "_id": None,
            "total_nodes": {"$sum": 1},
            "avg_risk_score": {"$avg": "$riskAssessment.overall.score"},
            "max_risk_score": {"$max": "$riskAssessment.overall.score"}
        }}],
        "risk_distribution": [
            {"$group": {"_id": "$riskAssessment.overall.level", "count": {"$sum": 1}}},
            {"$sort": {"_id": 1}}
        ],
        "hub_entities": [
            {"$match": {"connection_count": {"$gte": 2}}},
            {"$sort": {"connection_count": -1}},
            {"$limit": 5},
            {"$project": {"entityId": 1, "name": 1, "connection_count": 1}}
        ]
    }}
]

Sem o $facet, cada análise exige um pipeline separado. $facet processa todos os subpipelines em paralelo e gera resultados em uma única resposta. Isso é executado em 2a5 milissegundos.

Centralidade de pontuação (`$switch` para ponderação específica do domínio)

Identifique as entidades que conectam os atores mais suspeitas.
O pipeline de centralidade usa $facet para agregar conexões de saída e de entrada separadamente, depois mescla e pontua.
O operador $switch atribui pesos de risco a cada tipo de relacionamento diretamente dentro da agregação:

"outgoing_risk_weighted": {
    "$sum": {"$multiply": [
        "$confidence",
        {"$switch": {
            "branches": [
                {"case": {"$in": ["$type", [
                    "confirmed_same_entity",
                    "business_associate_suspected"
                ]]}, "then": 0.9},
                {"case": {"$in": ["$type", [
                    "director_of", "ubo_of",
                    "parent_of_subsidiary"
                ]]}, "then": 0.7},
                {"case": {"$in": ["$type", [
                    "household_member",
                    "professional_colleague_public"
                ]]}, "then": 0.3}
            ],
            "default": 0.5
        }}
    ]}
}

Uma conexão confirmed_same_entity contribui muito mais para a centralidade ponderada pelo risco do que um link household_member.
A pontuação composta final combina centralidade de grau normalizada (40%, peso médio de confiança (30% e centralidade ponderada por risco (30% ) — todas computadas no lado do servidor.

Detecte comunidades e propague riscos

A detecção de comunidade cria um mapa de adjacência por meio de agregação, filtrando em confidence >= 0.7 para traçar os limites da comunidade em torno de relacionamentos de alta confiança somente:

adjacency_pipeline = [
    {"$match": {
        "$or": [
            {"source.entityId": {"$in": entity_ids}},
            {"target.entityId": {"$in": entity_ids}}
        ],
        "active": True,
        "confidence": {"$gte": 0.7}
    }},
    {"$group": {
        "_id": "$source.entityId",
        "connections": {"$addToSet": "$target.entityId"}
    }}
]

$addToSet deduplica conexões automaticamente — duas entidades que compartilham relacionamentos shared_address e business_associate aparecem como uma única conexão.

A propagação do risco aplica um decaimento exponencial ao longo da cadeia de relacionamento depois que $graphLookup descobre a rede:

propagated_risk = (
    parent_entity_risk
    * propagation_factor        # decay per hop (default: 0.5)
    * relationship_confidence   # trust level for this edge
    * type_risk_weight          # domain-specific weight
)

A empresa de shell de uma entidade sancionada (tipo de relacionamento de alta confiança e alto risco) recebe quase a pontuação de risco total. A conexão de mídia social de seu contador não recebe quase nada. A travessia é em largura, limitada em profundidade a 3 saltos e para quando a pontuação propagada cai abaixo de um limite configurável.

Principais Aprendizados

Usar duplo $graphLookup para descoberta de rede bidirecional: execute duas pesquisas paralelas, direta e reversa, e mescle os resultados com $concatArrays para capturar a rede completa em uma agregação.
Empurre os filtros para a travessia com restrictSearchWithMatch: podar ramificações mortas durante o BFS em vez de filtrar o grafo completo posteriormente para reduzir o conjunto de trabalho para redes grandes.
Crie índices compostos em connectToField e seus filtros transversais: $graphLookup emite uma query $match/$in a cada onde de BFS, portanto, a indexação de connectToField junto com active e confidence evita varreduras de collection em cada salto.
Faça a análise de rede do lado do servidor com $facet e a $switch: Execute a distribuição de risco, a detecção de hub e a pontuação de centralidade em subpipelines paralelos e use $switch para atribuir pesos de risco específicos do domínio a tipos de relacionamento dentro da agregação.
Aplicar decaimento exponencial à propagação de riscos: Combine a descoberta de rede baseada em $graphLookupcom uma fórmula de decaimento por salto que inclua confiança e tipo de relacionamento para que o model distinga automaticamente as conexões estruturas de alto risco dos links sociais de baixo risco. Isso corresponde à diretriz para manter os principais aprendizados em um estilo obrigatório consistente.

Autores

Luis Pazmiño
Mehar Crewal
Andrea Alaman Calderon

Voltar

Serviços bancários interativos orientados por AI

Mitigação de Crimes Financeiros

Análise de rede AML com $graphLookup

Visão Geral da Solução

Por que MongoDB em vez de um banco de dados de grafos dedicado?

Observação

Arquiteturas de referência

Abordagem do modelo de dados

Principais decisões de design

Construir a solução

Criar índices necessários

Criar redes de entidades (Dual $graphLookup)

Encontrar caminhos mais curtos (depthField)

Calcular estatísticas de rede ($facet)

Centralidade de pontuação ($switch para ponderação específica do domínio)

Detecte comunidades e propague riscos

Principais Aprendizados

Autores

Criar redes de entidades (Dual `$graphLookup`)

Encontrar caminhos mais curtos (`depthField`)

Calcular estatísticas de rede (`$facet`)

Centralidade de pontuação (`$switch` para ponderação específica do domínio)