MongoDB と Databricks を使用した金融サービス向けのリアルタイム AI/ML 不正検出。データの完全性を確保し、迅速に不正を分析します。
製品およびツール: Atlas、Atlas クラスター、Change Streams、Atlas Triggers、Spark ストリーミング コネクター
パートナー: Databricks
ソリューション概要
このソリューションでは、 MongoDB と Databricks を使用すれば、ML ベースの不正対策ソリューションを簡単に構築できることがわかります。このソリューションの主な機能には、外部ソースとの統合によるデータの完全性、タイムリーな不正検出のためのリアルタイム プロセシング、潜在的な不正パターンを特定するための AI/ML モデリング、即時分析のためのリアルタイム モニタリング、不正行動の完全な可視性を確保するためのモデルのオブザーバビリティ、柔軟性、スケーラビリティ、そして堅牢なセキュリティ対策が含まれます。このシステムは操作を容易にし、アプリケーション開発とデータサイエンスチーム間のコラボレーションを促進することを目的としています。さらに、エンドツーエンドの CI/CD パイプラインをサポートし、システムを常に最新かつ安全に保ちます。
既存の課題
レガシーシステムからの不完全なデータ可視性: 関連するデータソースにアクセスできないと、不正パターンの検出が妨げられます。
不正防止システムのレイテンシの問題:レガシーシステムではリアルタイム処理ができないため、不正検出が遅れる可能性があります。
レガシーシステムの適応の難しさ: 柔軟性の欠如が、高度な不正防止技術の導入を妨げています。
レガシーシステムにおける脆弱なセキュリティプロトコル: 時代遅れのセキュリティはサイバー攻撃に対する脆弱性を露呈します。
技術的スプロールによる運用上の挑戦:多様な技術がメンテナンスや更新を複雑にします。
高い操作コスト:レガシーシステムのコストがかかるため、不正防止のための予算が制限されます。
チーム間の協力の欠如: サイロ化されたアプローチは、解決策の遅延とオーバーヘッドの増加につながります。
参照アーキテクチャ
機械学習ベースの不正防止ソリューションは、リアルタイム処理、AI/ML モデリング、モデルの可観測性、柔軟性、チーム間の協力が絶対的に不可欠な業種に適しています。システムは、エンドツーエンドの CI/CD パイプラインを通じて最新かつ安全な操作を確保します。関連業種には以下が含まれます。
金融サービス - トランザクションにおける不正検出
e コマース - 注文における不正検出
医療と保険 - 請求における不正検出

図 1. カード不正ソリューションのアーキテクチャ
データモデルアプローチ

図2。カード詐欺対策ソリューションのデータモデル
ドメイン図からご覧のとおり、クレジットカード トランザクションには、トランザクションそのもの、販売者、およびトランザクションに関与する支払者の 3 つのエンティティがあります。これら 3 つはすべて重要で、当社の不正検知アプリケーションで併せてアクセスされるため、拡張された参照パターンを使用し、トランザクション、販売者、支払者に関するフィールドを 1 つのドキュメントに含めています。
ソリューションを構築する
上記にリストされた機能は、いくつかのアーキテクチャ コンポーネントによって実装できます。これには次のものが含まれます。
データソース
プロデューサーアプリ:プロデューサーモバイルアプリは、ライブトランザクションの生成をシミュレートします。
レガシーデータソース: SQL 外部データソースは、カスタマーの人口統計データに使用されています。
トレーニング データ: モデルのトレーニングに必要な履歴トランザクション データは、クラウド オブジェクト ストレージ (Amazon S 3または Microsoft Azure Blob Storage) から取得されます。
MongoDB Atlas: カードトランザクションの運用データストア(ODS)として機能し、トランザクションをリアルタイムで処理します。このソリューションは MongoDB Atlas の集計フレームワークを活用し、アプリ内分析を実行し、事前に設定されたルールに基づいてトランザクションを処理します。また、高度な AI/ML ベースの不正検出のために、ネイティブな Spark Connector を介して Databricks と通信します。
Databricks: MongoDB Atlas のアプリ内分析を補完する AI/ML プラットフォームをホストします。この例で使用されている不正検出アルゴリズムは、Databricks の不正検出フレームワーク MLFlow を参考にしたノートブックであり、このモデルの MLOps を管理するために使用されています。訓練されたモデルは REST エンドポイントとなる接続されたデバイスとして公開されます。
それでは、これらのアーキテクチャコンポーネントを以下で1つずつ詳しく分析していきましょう。
データのソーシング
包括的な不正検出ソリューションを実装する最初のステップは、関連するすべてのデータソースからデータを集約することです。上の図 1 に示すように、イベント駆動型のフェデレーティッド アーキテクチャを使用して、本番環境アプリなどのリアルタイム データソース、SQL データベースなどのバッチ レガシー システム データソース、およびオフラインストレージからの履歴訓練データセットからデータを収集して処理します。このアプローチにより、トランザクション概要、顧客の人口統計的属性、販売者情報、その他の関連するデータソースなど、さまざまなファセットからデータを調達でき、データの完全性を確保できます。
さらに、提案されたイベント駆動型アーキテクチャには、以下のような利点があります。
リアルタイムでカードトランザクションイベントデータ(トランザクション金額、ロケーション、時間、支払いゲートウェイ情報、支払いデバイス情報など)をコレクションできます。
ライブイベントの活動に基づいてモニタリングモデルを再訓練し、不正行為が発生した際に対抗するのに役立ちます。
デモンストレーション用のプロデューサーアプリケーションは、設定可能なレート(トランザクション/秒)でライブトランザクション情報を生成するPythonスクリプトです。
イベント駆動型シフトレフト分析アーキテクチャのための MongoDB
MongoDB Atlas は、カード不正取引の分類に最適なデータストアとしての機能を数種類提供する、最新のマルチクラウド データベース プラットフォームです。柔軟なデータモデルをサポートし、さまざまなタイプのデータを処理でき、需要に応える高いスケーラビリティを備え、規制要件へのコンプライアンスをサポートする高度なセキュリティ機能を備えています。高速で正確な不正検出のためのリアルタイム データプロセシングを行い、クラウドベースの配置により、データを顧客に近い場所に保存し、地域的なデータプライバシー規制に準拠します。
MongoDB Spark Streaming Connector は、Apache Spark と MongoDB を統合します。Databricks によってホストされている Apache Spark は、大量のデータをリアルタイムで処理および分析することを可能にします。Spark Connector は、MongoDB のデータを Spark のデータフレームに変換し、リアルタイムの Spark ストリーミングをサポートします。
MongoDB が提供するアプリ サービス機能は、変更ストリームとトリガーを通じてデータをリアルタイムでプロセシングすることを可能にします。MongoDB Atlas は、さまざまなタイプのデータの保存とプロセシング、ストリーミング機能、およびトリガー機能を備えているため、イベント駆動型アーキテクチャでの使用に最適です。
このソリューションは MongoDB とアプリサービスの豊富なコネクタ エコシステムを使用して、トランザクションをリアルタイムで処理します。App Service Trigger 機能は、Databricks MLflow フレームワークを通じてホストされている AI/ML モデルへの REST サービス呼び出しを実行して使用されます。
この例のソリューションは、ユーザー定義の支払い限度額や情報をユーザー設定コレクションに保存することで、ルールベースの不正防止を管理します。これには、トランザクションごとの最大金額制限、1 日に許可されるトランザクションの数、およびその他のユーザー関連の詳細が含まれます。高価な AI/ML モデルを呼び出す前に、これらのルールに基づいてトランザクションをフィルタリングすることで、不正防止の全体的なコストが削減されます。
AI/ML Ops プラットフォームとしての Databricks
Databricks は、不正なトランザクションを識別するためのモデルを開発する強力な AI/機械学習プラットフォームです。Databricks の主要な機能の 1 つは、リアルタイム分析をサポートすることです。上記で述べたように、リアルタイム分析は現代の不正検出システムの重要な機能です。
Databricks には、エンドツーエンドの機械学習ライフサイクルを管理するための強力なツールである MLFlow が含まれています。MLFlowを使用すると、ユーザーは実験を追跡し、結果を再現し、モデルを大規模に配置できるため、複雑な機械学習ワークフローの管理が容易になります。MLFlow はモデルの可観測性を提供し、モデルのパフォーマンスの追跡とデバッグを容易にします。これには、モデルのメトリクス、ログ、その他の関連データへのアクセスが含まれます。これらを使用して、問題を特定し、時間の経過とともにモデルの精度を向上させることができます。さらに、これらの機能は、AI /機械学習を使用した最新の不正検出システムの設計に役立ちます。
キーポイント
提案されたソリューションの機能的および非機能的な特徴は以下の通りです。
データの完全性:外部ソースと統合して、正確なデータ分析を実現します。
リアルタイム処理: 不正行為をタイムリーに検出できます。
AI/ML モデリング: 潜在的な不正のパターンと行動を特定します。
リアルタイムモニタリング: 即時のデータ処理と分析を可能にします。
モデルの可観測性: 不正パターンを網羅的に可視化します。
柔軟性とスケーラビリティ:変化するビジネスニーズに対応します。
堅牢なセキュリティ対策:潜在的な侵害から保護します。
操作の容易さ: 操作の複雑さを軽減します。
アプリケーションとデータサイエンスチームの協力:目標と協力の調整。
エンドツーエンドの CI/CD パイプラインのサポート:最新かつ安全なシステムを確保します。
使用した技術と製品
MongoDB データ開発者プラットフォーム
提携技術
作成者
Shiv Pullepu、MongoDB
Luca Napoly、 MongoDB
Ashwin Gangadhar、MongoDB
MongoDB)