製品およびツール: MongoDB Atlas、MongoDB Atlasクラスター、MongoDB Change Streams、MongoDB Atlas Triggers、MongoDB Spark Streaming Connector
パートナー: Databricks
ソリューション概要
このソリューションは、 MongoDBと Databricks を使用して ML ベースの不正ソリューションを構築する方法を示します。ソリューションの主な機能には、外部ソースとの統合によるデータの完全性、リアルタイム処理、潜在的な不正パターンを識別するためのAI/ML モデリング、インスタント分析のためのリアルタイムモニタリング、堅牢なセキュリティ対策が含まれます。
システムは操作を容易にし、アプリケーション開発とデータサイエンティスト チーム間のコラボレーションを促進します。また、エンドツーエンドの CI/CD パイプラインをサポートし、最新の安全なシステムを確保します。
既存の課題
Flud の解決策には次の課題があります。
レガシーシステムからの不完全なデータ可視性: 関連するデータソースにアクセスできないと、不正パターンの検出が妨げられます。
詐欺防止システムにおけるレイテンシの問題: レガシーシステムはリアルタイム処理ができず、不正検出に遅れを生じさせます。
レガシーシステムの適応の難しさ:柔軟性の欠如が高度な不正防止技術の導入を妨げています。
レガシーシステムの脆弱なセキュリティプロトコル: 時代遅れのセキュリティはサイバー攻撃に対して脆弱性をさらします。
技術的スプロールによる運用上の課題: 多様な技術が保守と更新を複雑化させています。
高い操作コスト:レガシーシステムのコストがかかるため、不正防止のための予算が制限されます。
チーム間の連携不足:サイロ化されたアプローチにより、ソリューションの遅延やオーバーヘッドの増加につながります。
次のビデオでは、既存の課題とそのソリューションの参照アーキテクチャの概要を説明します。
参照アーキテクチャ
ML ベースの不正ソリューションは、リアルタイム処理、 AI/ML モデリング、柔軟性、チーム間のコラボレーションが重要な業界に適しています。システムは、エンドツーエンドの CI/CD パイプラインを通じて最新かつ安全な操作を確保します。このシステムは、次のような業界に適用できます。
金融サービス: トランザクションにおける不正検出
eコマース: 注文における不正検出
医療と保証: 請求で不正検出
次の図は、 MongoDB、 Amazon Web Services、 Databricks がカード不正アクセスのアーキテクチャを構築するためにどのように相互作用するのかを示しています。

図 1. カード不正ソリューションのアーキテクチャ
データモデルアプローチ

図2。カード詐欺対策ソリューションのデータモデル
この図には、クレジットカードトランザクションの 3 つのエンティティが示されています。
トランザクション
店舗
支払い者
これら 3 つのエンティティは、頻繁にアクセスされる関連データ フィールドをまとめた拡張参照パターンを使用します。不正検出アプリケーションには、これらのエンティティのフィールドが単一のドキュメントに含まれます。
ソリューションのビルド
このソリューションでは、次のコンポーネントが使用されます。
データソース
プロデューサー アプリ: プロデューサー モバイルアプリは、ライブトランザクションの生成をシミュレートします。
レガシーデータソース: SQL外部データソースはカスタマーデータベースに使用されています。
訓練データ: モデルの訓練に必要な過去のトランザクション データは、クラウドオブジェクトストレージ( Amazon S3 またはMicrosoft Azure Blob ストレージ)から取得されます。
MongoDB Atlas: カードトランザクション用の ODS(Operational Data Store、運用データストア) として機能し、トランザクションをリアルタイムで処理します。このソリューションはMongoDB集計フレームワークを活用して、アプリ内分析を実行し、事前構成されたルールに基づいてトランザクションを処理します。また、ネイティブSpark コネクタを介して高度なAI /ML ベースの不正検出を行うために Databricks と通信します。
Databricks: MongoDB Atlasのアプリ内分析を補完するためにAI /ML プラットフォームをホストします。不正検出アルゴリズムは、Databricks の不正フレームワークMLFlow に影響されたドキュメントを使用し、このモデルを管理するための MLOps を管理します。訓練されたモデルは REST エンドポイントです。
データのソーシング
まず、上記のアーキテクチャ図に示すように、関連するすべてのソースからのデータを集計します。この図は、イベント駆動型アーキテクチャを使用して、プロデューサー アプリ、 SQLデータベース、履歴訓練データセットなどのリアルタイムソースからのデータを処理します。
このアプローチにより、トランザクションの概要、カスタマー層、ターゲット情報などのファセットからのデータソースが可能になります。
さらに、この提案されたイベント駆動型アーキテクチャには、次の利点も得られます。
統合リアルタイムトランザクションにより、金額、場所、支払いデバイスなどのカード データ イベントをリアルタイムで収集できます。
モニタリング モデルを再訓練し、リアルタイムで不正に対処するのに役立ちます。
プロデューサーアプリケーションは、事前定義されたレートでライブ トランザクション情報を生成するPythonスクリプトです。
イベント駆動型シフトレフト分析アーキテクチャのための MongoDB
MongoDB Atlas は、カード不正トランザクションを分類するための効果的なマルチクラウドデータベースプラットフォームです。次のような便利な機能をいくつか提供します。
トランザクションの需要を満たすための高いスケーラビリティ。
規制要件へのコンプライアンスをサポートするための高度なセキュリティ機能。
リアルタイム データ処理により、迅速かつ正確な不正検出が可能になります。
クラウドベースの配置で、顧客により近いデータを保存し、ローカル データ プライバシー規則に準拠します。
MongoDB Spark Streaming Connector は、 Apache SparkとMongoDBを統合します。Databricks によってホストされるApache Spark は、大量のデータのリアルタイム処理と分析を可能にします。
Change Streams と Atlas Triggers はリアルタイムデータ処理機能も提供します。Atlas trigger を使用して、 Databricks MLFlowフレームワークでホストされているAI /ML モデルに REST サービス呼び出しを呼び出すことができます。
この例ソリューションでは、ユーザー定義の支払い制限とユーザー設定データを保存することで、ルールベースの不正防止を管理します。AI/ML モデルを呼び出す前にこれらのルールでトランザクションをフィルタリングすることで、不正防止コストを削減できます。
AI/ML Ops プラットフォームとしての Databricks
Databricks は、不正トランザクションを識別するためのモデルを開発するAI/ML プラットフォームです。Databricks の重要な機能の 1 つは、最新の不正検出システムにおけるリアルタイム分析をサポートしていることです。
Databricks には、エンドツーエンドの機械学習ライフサイクルを管理するためのツールである MLFlow が含まれています。MLFlow を使用すると、ユーザーは実験を追跡し、結果を再現し、 モデルを増やすに 配置できるため、複雑な機械学習ワークフローを管理しやすくなります。
また、MLFlow はパフォーマンスとデバッグに関するモデルの可視性も提供します。これには、時間の経過とともにモデルの精度を向上させるためのモデル メトリクスとログへのアクセスが含まれます。これらの機能は、最新のAI/ML ベースの不正検出システムの設計もサポートします。
キーポイント
MongoDBと Databricks を使用した ML ベースの不正ソリューションは、次の機能を提供します。
データの完全性: 外部ソースと統合して、正確なデータ分析を実現します。
リアルタイム処理: 不正行為をタイムリーに検出できます。
AI/ML モデリング: 潜在的な不正のパターンと行動を特定します。
リアルタイムモニタリング: 即時のデータ処理と分析を可能にします。
モデルの可観測性: 不正パターンを網羅的に可視化します。
柔軟性とスケーラビリティ:変化するビジネスニーズに対応します。
堅牢なセキュリティ対策:潜在的な侵害から保護します。
操作の容易さ: 操作の複雑さを軽減します。
アプリケーションとデータサイエンス チームの協力: 目標と連携の調整。
エンドツーエンドの CI/CD パイプラインのサポート:最新かつ安全なシステムを確保します。
作成者
Shiv Pullepu、MongoDB
Luca Napoly、 MongoDB
Ashwin Gangadhar、MongoDB
Rajesh Vinayagam、MongoDB