使用 MongoDB 和 Databricks 实现金融服务的实时 AI/机器学习欺诈检测。确保数据完整性并即时进行欺诈分析。
解决方案概述
在此解决方案中,您将了解如何使用 MongoDB 和 Databricks 轻松构建机器学习驱动的欺诈解决方案。该解决方案的主要功能包括:通过与外部源集成实现数据完整性、实时处理以便及时检测欺诈、AI/机器学习建模以识别潜在欺诈模式、实时监控以进行即时分析、模型可观测性以全面监测欺诈行为,以及灵活性、可扩展性和强大的安全措施。该系统旨在简化运行,并促进应用程序开发和数据科学团队之间的协作。此外,它支持端到端 CI/CD 管道,以确保系统保持最新且安全。
现有挑战
旧版系统的数据可见性不足:无法访问相关数据源,妨碍了欺诈模式的检测。
反欺诈系统中的延迟问题:传统系统缺乏实时处理能力,导致欺诈检测出现延迟。
旧版系统难以适应:缺乏灵活性阻碍了先进欺诈防范技术的采用。
旧版系统中的安全协议薄弱:过时的安全防护让系统易于遭受网络攻击。
因技术分散导致的运营挑战:多样化的技术增加了维护和更新的复杂性。
旧版系统运营成本高昂:高昂的维护费用限制了防范欺诈的预算。
团队之间缺乏协作:孤立的工作方式导致解决方案延迟和开销增加。
参考架构
基于机器学习的欺诈解决方案适用于那些十分重视实时处理、AI/机器学习建模、模型可观测性、灵活性以及团队间协作的行业。系统通过端到端 CI/CD 管道确保操作保持最新且安全。相关行业包括:
金融服务 - 事务中的欺诈检测
电商 – 订单欺诈检测
医疗保健和保险 – 理赔欺诈检测

图1。银行卡欺诈解决方案架构
数据模型方法

图2.银行卡欺诈解决方案数据模型
正如您在领域图中看到的那样,处理信用卡交易时有三个实体:交易本身、商户和交易关联的付款方。由于这三个要素在我们的欺诈检测应用程序中均至关重要且需同时访问,我们采用了扩展引用模式,并将交易、商户和付款方相关字段整合到单一文档中。
构建该解决方案
上述功能特性可以通过几个架构组件来实现。这些组件包括:
数据源
生产者应用:生产者移动应用会模拟实时交易的生成。
旧版数据源:SQL 外部数据源用于客户人口统计信息。
训练数据:模型训练所需的历史交易数据来自云对象存储 – Amazon S3 或 Microsoft Azure Blob 存储。
MongoDB Atlas:作为银行卡交易的操作数据存储库 (ODS),实时处理交易。该解决方案利用 MongoDB Atlas 聚合框架执行应用内分析,并根据预先配置的规则处理交易。它还通过原生 Spark Connector 与 Databricks 进行通信,以实现基于 AI/机器学习的高级欺诈检测。
Databricks:托管 AI/机器学习平台,以完善 MongoDB Atlas 应用内分析。本示例中采用的欺诈检测算法是一个基于 Databricks 欺诈框架 MLFlow 开发的笔记本,该框架已用于管理该模型的 MLOps。训练好的模型将用作 REST 终结点。
现在,我们在下方更详细地逐一分解这些架构组件。
数据源
实施全面的欺诈检测解决方案的第一步是集中来自所有相关数据源的数据。如上文图 1 所示,事件驱动式联合架构可用于收集和处理来自实时数据源(如生产者应用)、批量旧版系统数据源(如 SQL 数据库)和历史训练数据集(来自离线存储)的数据。此方法支持来自各种分面的数据源,如交易摘要、客户人口统计信息、商户信息和其他相关来源,以便确保数据完整性。
此外,所提议的事件驱动架构提供以下好处:
实时交易数据整合,它可实现对交易金额、位置、交易时间、支付网关信息和支付设备信息等银行卡交易事件数据的实时收集。
协助根据实时事件动态来重新训练监控模型,以便在出现欺诈时进行打击。
用于演示的生产者应用程序是一个 Python 脚本,它以预定义的速率(事务/秒,可配置)生成实时交易信息。
MongoDB 用于事件驱动、左移分析架构
MongoDB Atlas 是一个现代化的多云数据库平台,它可提供多种功能,因而成为针对银行卡欺诈交易分类的数据存储的理想选择。它支持灵活的数据模型,能处理各种数据,具有较高的可扩展性来满足需求,并提供多种高级安全功能以支持法规合规性。同时,它可实时处理数据以实现快速准确的欺诈检测,且支持基于云的部署以将数据存储在更靠近客户的地方,并遵守当地的数据隐私法规。
MongoDB Spark Streaming Connector 集成了 Apache Spark 和 MongoDB。利用由 Databricks 托管的 Apache Spark,可实时处理并分析大量数据。Spark Connector 可将 MongoDB 数据转换为 Spark 数据帧,并支持实时 Spark 流处理。
借助 MongoDB 提供的 App Services 功能,可通过变更流和触发器对数据进行实时处理。由于 MongoDB Atlas 可存储和处理各种数据且具有流处理与触发器功能,因此非常适合在事件驱动式架构中使用。
该解决方案利用 MongoDB 和 App Services 丰富的连接器生态系统来实时处理交易。通过对 Databricks MLflow 框架托管的 AI/机器学习模型发起 REST 服务调用来使用 App Service 触发器功能。
如图所示,示例解决方案通过在用户设置集合中存储用户定义的支付限额和信息,管理基于规则的欺诈预防。这包括每次交易的最高金额限制、每天允许的交易次数以及其他与用户相关的详细信息。在调用昂贵的 AI/ML 模型之前,根据这些规则对交易进行过滤,从而降低了预防欺诈的总体成本。
将 Databricks 用作 AI/机器学习操作平台
Databricks 是一个强大的 AI/机器学习平台,可用于开发模型来识别欺诈交易。Databricks 的关键功能之一是支持实时分析。如上所述,实时分析是现代欺诈检测系统的一项关键功能。
Databricks 包含 MLFlow,这是一个强大的工具,用于管理端到端的机器学习生命周期。MLFlow 允许用户追踪实验、重现结果并大规模部署模型,从而更轻松地管理复杂的机器学习工作流程。MLFlow 提供模型可观测性,允许轻松跟踪模型性能和进行调试。这包括访问模型指标、日志和其他相关数据,这些数据可用于发现问题,并随着时间的推移提高模型的准确性。此外,这些功能还有助于利用 AI/ML 设计现代欺诈检测系统。
关键要点
所提议解决方案的功能与非功能特性包括:
数据完整性:与外部来源集成,以确保数据分析的准确性。
实时处理:能及时检测欺诈活动。
AI/机器学习建模:识别潜在的欺诈模式和行为。
实时监控:允许即时进行数据处理和分析。
模型可观测性:确保对欺诈模式的全面可见性。
灵活性和可扩展性:满足不断变化的业务需求。
强大的安全措施: 防止潜在的安全漏洞。
易于操作:降低操作复杂性。
应用程序与数据科学团队的协作:统一目标并促进协作。
端到端 CI/CD 管道支持:确保系统保持最新且安全。
使用的技术和产品
MongoDB 开发者数据平台
合作伙伴技术
作者
Shiv Pullepu,MongoDB
Luca Napoli,MongoDB
Ashwin Gangadhar,MongoDB
Rajesh Vinayagam,MongoDB