了解替代数据、人工智能和生成式 AI 的融合如何重塑信用评分的基础。
使用案例: Gen AI
产品和工具: Atlas、Spark Streaming Connector、向量搜索
合作伙伴: LangChain、Fireworks.ai
解决方案概述
在本解决方案中,您将了解替代数据、人工智能和生成式人工智能的融合如何重塑信用评分的基础。通过采用替代信用评分方法,提供更具包容性和更细致的评估,传统模式所面临的挑战正在被克服。本解决方案演示了一个在线信用卡申请应用程序示例,并展示了 MongoDB 如何支持信用评分。对于其他信贷产品,如个人贷款、抵押贷款、公司贷款和贸易融资信贷额度,您也可以采用类似的方法。
传统信用评分面临的挑战
以下是传统信用评分模型的一些挑战和限制:
信用记录有限:许多人因信用记录不足或缺失而面临障碍,由于缺乏历史数据,难以证明其信用可靠性。
非稳定收入:非经常性收入(它在兼职工作或自由职业中很常见)对传统信用评分模型提出了挑战,而这些模型会将相关个人标记为存在较高风险,从而导致申请被拒或信用额度受限。
现有信贷的高利用率:对现有信贷的高度依赖导致信贷利用率升高,这成为信用申请中的障碍,因为申请人可能会面临被拒绝或获得条件不利的批准。
拒绝原因不明确:拒绝原因缺乏透明度,客户难以从根本上解决问题,也难以在今后的申请中提高自己的信用度。
构建解决方案
在以下解决方案中,您将了解 MongoDB 如何在流程的以下关键环节帮助转换信贷申请:
简化数据采集和处理。
使用 AI 提升信用评分。
解释信用申请被拒绝的原因。
推荐替代信用产品。
简化数据采集和处理
申请信用产品通常是一个充满挑战的过程,原因如下:
申请流程复杂:获取信用卡需要经过多个耗时的步骤。以下是该过程的简要概述:
选择一张卡:首先,您必须选择适合自己需求的信用卡。这包括研究各种卡,比较其功能,了解其条款和条件。
资格检查:接下来,您必须验证自身是否符合银行设定的资格标准。这些标准通常会考虑您的信用评级、年龄、收入和负债等因素。
文档提交:您需要提供以下证明材料,例如身份证明(如社会保险号、护照和/或驾驶执照)、地址证明(租赁协议、水电费账单)以及收入证明(银行对账单、工资单、16 表格)。
申请表:填写信用卡申请表可能会很繁琐。您可以登录银行官网或使用网上银行填写,也可以前往分行线下办理。尽管数字化流程已日趋普及,但部分银行仍要求提供纸质文件。
验证和参考:银行会验证您文档的真实性,并交叉核对您提供的信息。此步骤还涉及使用 AI/机器学习算法计算违约概率。
冗余信息收集:银行经常收集冗余数据,例如:
KYC 信息:即使他们已经获取了您的 KYC(了解您的客户)信息,他们仍然要求您反复提交这些信息。
收入验证:尽管银行已经掌握您的工资、银行交易记录、水电费、租金、手机支付和购物支出等信息,但银行可能会请求您提供其他证明来验证这些详情。
通过消除多余请求和利用现有数据来简化这一流程,可以提升用户体验。
这些信用卡申请表可能相对简单,但汽车贷款、抵押贷款和股权交易等其他信贷产品的复杂性会增加。申请表中可能包含需填写的表格化数据及层级化信息,其中部分替代数据需由借款人授权从第三方数据源获取。MongoDB 灵活的开发者数据平台原生支持 JSON 数据,不要求文档具有相同的模式,从而提高了处理各种类型数据的能力。
为了简化数据采集过程并提高应用程序性能,您可以使用 JSON 来处理在线信用申请表。JSON采用结构化数据表示方式,可有效组织需存储的不同详细信息。灵活的数据模型非常符合信用卡申请要求的动态特性,即使数据结构不完全相同,也能将相关数据存储在一起。JSON 的通用性使其易于被开发人员理解,既能促进团队协作,又可使数据结构一目了然。
MongoDB 凭借原生支持的类 JSON BSON 格式,能高效处理信用卡申请中的 JSON 文档。数据库的灵活性允许动态模式调整,与信用申请表不断变化的特性相符。MongoDB 能够处理分层数据结构,并结合强大的查询和索引功能,确保高效检索和组织复杂的信用申请信息。作为一种可扩展的解决方案,MongoDB 能够在保持性能的同时,适应不断增长的信用数据量。
使用 AI 提升信用评分
利用 MongoDB 的开发者数据平台 Atlas,我们可以通过组合相关数据点来创建全面的用户银行资料。
以下是用于预测拖欠概率和信用评分的数据处理管道架构图:

图1.信用评分的数据处理管道图
用于客户信用评分的数据管道包括以下步骤:
数据收集:该流程会从多个数据源采集信息,包括征信机构、开放银行系统、反欺诈系统及其他相关数据来源。
数据处理:收集到的数据通过 Spark Streaming Connectors 等工具进行处理,以创建客户财务状况的统一视图,并将相同数据作为单一视图存储在 MongoDB Atlas 中。
风险概况生成:从此统一视图生成风险概况或产品建议。其中涉及使用统计方法执行描述性分析,同时使用人工智能 (AI) 或机器学习 (ML) 技术来识别数据中的模式,以便进行风险倾向性评分。
模型开发:多种机器学习算法可用于信用评分和决策。例如,您可以考虑逻辑回归、决策树、支持向量机和神经网络。
在本教程中,我们将使用 XGBoost(极端梯度提升树)模型,这是一种常用于预测分析的机器学习算法。该算法是一种基于函数逼近的监督学习方法。该算法具有以下功能:
优化特定损失函数。
应用多种正则化技术。
处理高维数据。
捕捉复杂模式,进行分类和回归。
该模型支持其推理结果,这有助于解释此预测模型的推断结果。
数据转换:在执行风险概况评分之前,使用 Spark(或类似的托管分析框架)转换原始用户数据。跨多个来源整合数据,创建单一且物化数据视图,该视图可直接从 MongoDB Atlas 集合提取,用于模型开发以及各类描述性分析任务。此步骤还可能涉及模型推断。
决策收集:最终转换后的数据将填充到决策集合中。这有助于银行和金融机构支持其财务决策和审计目的。
目标是准确评估客户的信用度,以便做出明智的贷款决策和金融产品推荐。该管道是由组织维护的现有风险评分管道的示例。
解释拒绝信用申请的原因
了解信用申请被拒的原因是申请过程中的重要组成部分。了解 MongoDB 和大型语言模型(LLM)如何解释 XGBoost 模型预测(本教程中使用的模型)。
这是用于解释如何使用 LLM 进行信用评分的架构图:

图2.使用 LLM 的信用评分架构图
所使用的风险分析机器学习管道可生成概率评分,用于量化用户状况的产品推荐风险等级。系统会以标准化格式向用户反馈信息,且仅向最终用户传达申请的最终状态。在拟议的 LLM 架构中,您可以使用提示工程来解释最终批准产品状态的原因,并向最终客户解释合理的理由。
您可在此处找到相关代码和示例响应。用于生成类似消息的代码可在 Jupyter Notebook 中使用 Python 完成。有关设置 MongoDB Atlas 和获取连接字符串的详细信息,请访问此链接。
以下是一个拒绝说明的示例:

图3。拒绝说明示例
面向客户的消息通知采用可解释 AI 技术,其中模型用于风险评估的特征要素会经过优先级排序,并作为定制化提示的一部分输入 LLM。如上所示,这有助于生成更具描述性的理由,向最终客户解释其用户状况。LLM 还能对描述性理由进行摘要处理,为用户提供简明的说明概览。该申请系统支持客户按需深入查看详情,既能优化信用概况,又能提升用户体验。
在本演示中,采用两种信用评估方法来处理信用申请。系统采用机器学习方法(如前一节所述)并综合运用超过 20 个信用相关特征,最终确定信用申请状态。以下是最重要的 15 个特征的一部分:

图4。功能重要性图表
有关本演示中所使用功能的更多详细信息,请查看信用分数 GitHub 存储库中提供的源代码。
为说明机器学习与传统信用评分方法的差异,我们以典型传统方法为例,其对同一信用申请的评估通常仅基于少数几个维度。在本演示中,我们采用了主流征信机构常用的多维度特征变量:
信用申请人还款记录
信用利用率
信用历史
未结清贷款笔数与征信查询次数
推荐替代信用产品
信贷机构应始终尝试向客户交叉销售满足其需求的相关产品,因为客户已处于流程和申请门户之中。
金融机构可推出一个产品推荐系统,而该系统会以人类友好的方式解释新推荐的理由,从而开辟当前旧版系统无法提供的全新收入机遇。通过提供理由,可与客户建立更为个性化的关系,并进一步提高所推荐产品的接受度。用于实现此目标的数据架构示例如下:

图5。推荐系统架构
Atlas Vector Search 的这项功能允许您对任何类型的数据进行语义搜索和生成式人工智能操作。它具有 MongoDB 原生接口,可将您的操作数据库和向量搜索集成在一个统一且完全托管的平台中。您可以使用机器学习模型创建向量嵌入,然后将它们存储在 MongoDB Atlas 中并为其建立索引,以用于检索增强生成 (RAG)、语义搜索、推荐引擎、动态个性化和其他使用案例。
RAG 是一种利用矢量搜索技术,根据输入查询检索相关文档的范式。然后,RAG 会将这些检索到的文档作为上下文提供给大型语言模型,以帮助生成更明智、更准确的响应。
上述教程提到了可用于解决信用卡产品推荐使用案例的技术。该过程所涉及的步骤如下:
加载私有数据:每种信用信用卡产品都有不同的优惠。这些产品偶尔会有变化,各种生活福利(如电影票和礼宾服务)的收费也是如此。将产品数据存储在 MongoDB 中作为操作数据存储(ODS),有助于维护数据变更,同时构建向量索引。
大型数据点可以根据需求进行适当的更新、删除、插入或替换。
信用卡产品描述篇幅很长,将其切分成较小数据块,有助于精准检索相关信息。
您可以利用 LLM 将产品说明压缩为包含所有重要产品功能和成本的摘要。完成此更改后,您就能快速检索和推荐相关产品。
LLM 驱动式推荐:在此使用案例中,LLM 将用作推荐者系统,而在此系统中前期生成的用户个人资料则可用作输入来生成子查询,以便对 MongoDB Atlas 中存储的产品向量进行语义相似性匹配。
个性化消息推送的产品推荐:推荐的产品可以用于自定义提示,以便通过LLM为终端用户生成相关的产品推荐摘要。
这有助于金融机构为最终客户提供个性化推荐和相关建议,从而提高转换率。
产品推荐通过提高所提供产品的“可能推荐”得分,增加客户互动并提升用户体验。
您可在此处找到相关代码和替代产品推荐的示例。部分示例如下。用于生成产品推荐并自定义产品推荐说明的代码可在 Jupyter Notebook 中使用 Python 执行。

图6。已批准应用程序的示例
总之,随着生成式人工智能的融入,信用评分正在经历一个转型阶段。当我们探索传统模型的动态、借款人面临的挑战以及生成式人工智能的未来愿景时,我们发现,透明度、效率和个性化在不断变化的信用评分环境中占据着最重要的位置。技术与金融的协同效应正在塑造这样的未来:信用决策不仅精准,更能为借款人赋能。
Github存储库库提供了用于演示构建此类解决方案的所有MongoDB功能的代码。我们已在Fireworks.AI上开发并部署了该应用程序,AI是MongoDB的主要AI合作,旨在利用生成式AI进行更快、更高效、更安全的创新。
关键要点
所提议解决方案的功能与非功能特性包括:
理解 GenAI 的功能:综合各种数据集,解决传统信用评分模型的主要局限性。
可解释的信用状态:通过 LLM,可有效利用提示工程来解释信用状态的原因,并将合理理由传达给最终客户。
传统信用评分模型的挑战:发现需使用替代的信用评分模型,以适应不断演变的金融行为、处理非传统数据源,并提供更具包容性且准确的信用评估。
替代数据:了解替代数据的优势,以获得更准确的信用分数。例如,该信用分数模型还可通过引入水电费账单、手机账单、教育背景等替代数据进一步优化。
解决幻觉问题:通过利用 RAG 将模型的响应建立在最新来源的事实信息基础上,确保模型的响应反映最新、最准确的信息,从而减少幻觉风险。
作者
Ashwin Gangadhar,合作解决方案,MongoDB
Wei You Pan,行业解决方案,MongoDB
Julian Boronat,行业解决方案,MongoDB