제품 및 도구: MongoDB Atlas, MongoDB Atlas 클러스터, MongoDB Change Streams, MongoDB Atlas 트리거, MongoDB Spark Streaming Connector
파트너: Databricks
솔루션 개요
이 솔루션은 MongoDB 및 Databricks를 사용하여 ML기반 사기 솔루션을 빌드 방법을 보여줍니다. 이 솔루션의 주요 기능에는 외부 소스와의 통합을 통한 데이터 완전성, 실시간 처리 , 잠재적 사기 패턴을 식별하는 AI/ML 모델링, 즉각적인 분석을 위한 실시간 모니터링 , 강력한 보안 조치 등이 있습니다.
이 시스템은 운영을 용이하게 하고 애플리케이션 개발 과 데이터 과학 팀 간의 협업을 촉진합니다. 또한 엔드 투 엔드 CI/CD 파이프라인을 지원하여 최신의 안전한 시스템을 보장합니다.
기존의 도전 과제
부정 행위 솔루션은 다음과 같은 과제에 직면해 있습니다.
레거시 시스템의 불완전한 데이터 가시성: 관련 데이터 소스에 대한 접근 부족이 사기 패턴 탐지를 방해합니다.
사기 방지 시스템의 지연 시간 문제: 레거시 시스템은 실시간 처리가 부족하여 사기 탐지에 지연을 초래합니다.
레거시 시스템 적응의 어려움: 기존 시스템의 유연성이 부족하여 고급 사기 방지 기술의 채택이 저해됩니다.
레거시 시스템의 취약한 보안 프로토콜: 구식 보안은 사이버 공격에 대한 취약성을 드러냅니다.
기술 확산으로 인한 운영상의 과제: 다양한 기술이 유지 관리 및 업데이트를 복잡하게 만듭니다.
레거시 시스템의 높은 운영 비용: 유지보수 비용이 높아 사기 방지 예산이 제한됩니다.
팀 간 협업 부족: 사일로형 접근 방식은 해결에 오랜 시간이 걸리며 오버헤드가 증가합니다.
다음 동영상에서는 솔루션의 기존 과제와 레퍼런스 아키텍처에 대한 개요를 확인할 수 있습니다.
참조 아키텍처
ML 기반 사기 솔루션은 실시간 처리, AI/ML 모델링, 유연성 및 팀 간 협업이 필수적인 산업에 적합합니다. 이 시스템은 엔드투엔드 CI/CD 파이프라인을 통해 최신의 안전한 운영을 보장합니다. 이 시스템은 다음을 포함한 여러 산업에 적용될 수 있습니다.
금융 서비스: 트랜잭션 내 사기 감지
전자상거래: 주문 내 사기 감지
의료 및 보험: 클레임 내 사기 감지
다음 다이어그램은 MongoDB, Amazon Web Services 및 Databricks가 상호 작용 카드 사기 솔루션 아키텍처를 빌드 방법을 보여줍니다.

그림 1. 카드 사기 솔루션 아키텍처
데이터 모델 접근 방식

그림 2. 카드 사기 방지 솔루션 데이터 모델
이 다이어그램은 크레딧 카드 거래를 위한 세 가지 엔터티를 보여줍니다.
트랜잭션
판매자
지불인
세 엔터티는 자주 액세스하는 관련 데이터 필드를 함께 포함하는 확장 참조 패턴 사용합니다. 사기 탐지 애플리케이션 이러한 엔터티의 필드를 단일 문서 에 포함합니다.
솔루션 빌드
이 솔루션은 이러한 구성 요소를 사용합니다.
데이터 소스 확보
프로듀서 앱: 프로듀서 모바일 앱 실시간 트랜잭션 생성을 시뮬레이션합니다.
레거시 데이터 소스: SQL 외부 데이터 소스 고객 인구 통계에 사용됩니다.
교육 데이터: 모델 교육에 필요한 트랜잭션 트랜잭션 데이터는 cloud 객체 저장 ( Amazon S3 또는 Microsoft Azure Blob Storage)에서 가져옵니다.
MongoDB Atlas: 카드 거래를 위한 ODS(Operational Data Store) 역할을 하고 실시간 으로 트랜잭션을 처리합니다. 이 솔루션은 MongoDB 집계 프레임워크 활용하여 인앱 분석 수행하고 사전 구성된 규칙에 따라 트랜잭션을 프로세스 . 또한 네이티브 Spark Connector 통해 고급 AI /ML 기반 사기 탐지를 위해 Databricks와 통신합니다.
Databricks: MongoDB Atlas 인앱 분석 보완하는 AI /ML 플랫폼을 호스팅합니다. 사기 감지 알고리즘 Databricks의 사기 프레임워크 MLFlow에서 영감을 받은 노트북을 사용하며, 이 모델을 관리하기 위해 MLOps를 관리합니다. 학습된 모델은 REST 엔드포인트입니다.
데이터 소싱
먼저 위의 아키텍처 다이어그램에 표시된 대로 모든 관련 소스의 데이터를 집계합니다. 이 다이어그램은 이벤트 기반 아키텍처를 사용하여 프로듀서 앱, SQL 데이터베이스, 기록 교육 데이터 세트와 같은 실시간 소스의 데이터를 프로세스 .
이 접근 방식을 사용하면 트랜잭션 요약, 고객 인구 통계, 판매자 정보와 같은 패싯에서 데이터를 소싱할 수 있습니다.
또한 이 제안된 이벤트 기반 아키텍처는 다음과 같은 이점을 제공합니다.
통합 실시간 트랜잭션을 통해 금액, 위치 , 결제 기기 등의 카드 데이터 이벤트를 실시간 수집할 수 있습니다.
실시간 사기를 근절하기 위해 모니터링 모델을 다시 훈련하는 데 도움이 됩니다.
프로듀서 애플리케이션 은 사전 정의된 속도로 실시간 트랜잭션 정보를 생성하는 Python 스크립트 입니다.
이벤트 중심, 시프트-레프트 분석 아키텍처를 위한 MongoDB
MongoDB Atlas 카드 사기 트랜잭션 분류를 위한 효과적인 멀티 클라우드 데이터베이스 플랫폼입니다. 다음과 같은 몇 가지 유용한 기능을 제공합니다.
트랜잭션 수요를 충족하는 높은 확장성 .
규제 요건 컴플라이언스 지원 고급 보안 기능.
빠르고 정확한 사기 탐지를 위한 실시간 데이터 처리 .
클라우드 기반 배포서버 통해 데이터를 고객과 더 가까운 위치에 저장 하고 현지 데이터 개인정보보호 규정을 준수합니다.
MongoDB Spark Streaming Connector 는 Apache Spark 와 MongoDB 통합합니다. Databricks에서 호스팅하는 Apache Spark 사용하면 대량의 데이터를 실시간 처리 하고 분석할 수 있습니다.
Change Streams 및 Atlas Triggers 실시간 데이터 처리 기능도 제공합니다. Atlas 트리거하다 사용하여 Databricks MLFlow 프레임워크 에서 호스팅되는 AI /ML 모델에 대한 REST 서비스 호출을 호출할 수 있습니다.
예시 솔루션은 사용자가 정의한 결제 한도 및 사용자 설정 데이터를 저장하여 규칙 기반 사기 방지를 관리합니다. AI/ML 모델을 호출하기 전에 이러한 규칙으로 트랜잭션을 필터링하면 사기 방지 비용 줄일 수 있습니다.
AI/머신 러닝 운영 플랫폼으로서의 Databricks
Databricks는 사기 거래를 식별하는 모델을 개발하는 AI/ML 플랫폼입니다. Databricks의 주요 기능 중 하나는 최신 사기 감지 시스템을 위한 실시간 분석 지원 것입니다.
Databricks에는 엔드 투 엔드 머신 러닝 수명 주기를 관리하기 위한 도구인 MLFlow가 포함되어 있습니다. MLFlow를 사용하면 사용자가 실험을 추적 , 결과를 재현하고, 모델을 확장하다 로 배포 복잡한 머신 러닝 워크플로를 더 쉽게 관리 할 수 있습니다.
MLFlow는 성능 및 디버깅을 위한 모델 관찰 기능도 제공합니다. 여기에는 시간이 지남에 따라 모델 정확도를 개선하기 위한 모델 지표 및 로그에 대한 액세스 포함됩니다. 이러한 기능은 최신 AI /ML 기반 사기 탐지 시스템의 설계도 지원 .
주요 학습 사항
MongoDB 및 Databricks를 사용한 ML 기반 사기 솔루션은 다음과 같은 기능을 제공합니다.
데이터 완전성: 외부 소스와 통합하여 정확한 데이터 분석을 수행합니다.
실시간 처리: 사기 행위를 적시에 탐지할 수 있습니다.
AI/머신 러닝 모델링: 잠재적 사기 패턴과 행동을 식별합니다.
실시간 모니터링: 즉각적인 데이터 처리 및 분석을 허용합니다.
모델 가시성: 사기 패턴에 대한 완전한 가시성을 보장합니다.
유연성 및 확장성: 변화하는 비즈니스 요구에 대응할 수 있습니다.
강력한 보안 조치: 잠재적인 보안 침해로부터 조직을 보호합니다.
작업 용이성: 운영 복잡성을 줄여줍니다.
애플리케이션 및 데이터 과학 팀 협업: 목표와 협력을 일치시킵니다.
종단간 CI/CD 파이프라인 지원: 시스템을 항상 최신 상태로 유지하고 보안을 보장합니다.
작성자
Shiv Pullepu, MongoDB
Luca Napoli, MongoDB
Ashwin Gangadhar, MongoDB
Rajesh Vinayagam, MongoDB