了解替代数据、人工智能和生成式 AI 的融合如何重塑信用评分的基础。
使用案例: Gen AI
产品和工具: MongoDB Atlas、Spark Streaming Connector、MongoDB Atlas Vector Search
合作伙伴: LangChain、Fireworks.ai
解决方案概述
该解决方案展示了另类数据人工智能和生成式AI的融合如何重塑信用评分的基础。替代信用评分方法提供了更具包容性和细致入微的信用评估,并且还可以克服传统模型的挑战。
该解决方案将演练在线信用应用程序进程示例,并展示MongoDB如何支持信用评分。您还可以对其他信用产品(例如个人贷款、抵押贷款、公司贷款和贸易融资信用额度)使用类似的方法。
传统信用评分面临的挑战
以下是传统信用评分模型的挑战和局限性的一些示例:
信用记录有限:许多人因信用记录不足或缺失而面临障碍,由于缺乏历史数据,难以证明其信用可靠性。
非稳定收入:非经常性收入(它在兼职工作或自由职业中很常见)对传统信用评分模型提出了挑战,而这些模型会将相关个人标记为存在较高风险,从而导致申请被拒或信用额度受限。
现有信用的高利用率:对现有信用的依赖导致信用利用率升高,成为信用申请的区块,因为申请人可能会面临拒绝或以不利条件获得批准。
拒绝原因不明确:拒绝原因缺乏透明度,客户难以从根本上解决问题,也难以在今后的申请中提高自己的信用度。
构建解决方案
以下解决方案展示了MongoDB如何从进程的以下几个方面转变信用应用程序:
简化数据采集和处理。
使用 AI 提升信用评分。
解释信用申请被拒绝的原因。
推荐替代信用产品。
简化数据采集和处理
申请信用产品通常是一个具有挑战性的进程,原因如下:
申请进程复杂性:信用应用程序进程涉及多个耗时的步骤:
选择信用卡:首先,选择一张适合您需求的信用。研究各种卡片,比较功能并了解其条款和条件。
资格检查:接下来,验证您是否符合银行设立的资格标准。这些标准通常会考虑信用评级、年龄、收入和负债等因素。
提交文件:提供身份证明(如社会安全ID、护照和/或驾照)、解决证明(租赁协议、水电费账单)和收入证明(银行对账单、工资单、表格 16)等文件。
申请表:填写信用应用程序表。您可以通过银行网站、网上银行或亲临分行在线完成此操作。尽管数字流程正变得越来越普遍,但一些银行仍要求提供纸质文件。
验证和参考:银行会验证您文档的真实性,并交叉核对您提供的信息。此步骤还涉及使用 AI/机器学习算法计算违约概率。
冗余信息收集:银行经常收集冗余数据,例如:
KYC 信息:即使他们已经获取了您的 KYC(了解您的客户)信息,他们仍然要求您反复提交这些信息。
收入验证:尽管银行已经掌握您的工资、银行交易记录、水电费、租金、手机支付和购物支出等信息,但银行可能会请求您提供其他证明来验证这些详情。
通过消除多余请求和利用现有数据来简化这一流程,可以提升用户体验。
这些应用程序表增加了汽车贷款、抵押贷款和股权交易等其他信用产品的复杂性。在应用程序表中,可能需要填写表格和层次结构信息。MongoDB 灵活的开发者数据平台原生支持 JSON数据,并且不要求文档具有相同的模式,从而提高了处理各种类型数据的能力。
为了简化数据采集过程并提高应用程序性能,您可以使用 JSON 来处理在线信用申请表。JSON采用结构化数据表示方式,可有效组织需存储的不同详细信息。灵活的数据模型非常符合信用卡申请要求的动态特性,即使数据结构不完全相同,也能将相关数据存储在一起。JSON 的通用性使其易于被开发人员理解,既能促进团队协作,又可使数据结构一目了然。
MongoDB可以在信用应用程序中很好地处理JSON文档,因为它原生支持类似JSON的BSON格式。
使用 AI 提升信用评分
利用 MongoDB 的开发者数据平台 Atlas,通过组合相关数据点来创建全面的用户银行档案。
以下是用于预测拖欠概率和信用评分的数据处理管道架构图:

图1.信用评分的数据处理管道图
用于客户信用评分的数据管道包括以下步骤:
数据收集:该流程会从多个数据源采集信息,包括征信机构、开放银行系统、反欺诈系统及其他相关数据来源。
数据处理:收集到的数据通过 Spark Streaming Connectors 等工具进行处理,以创建客户财务状况的统一视图,并将相同数据作为单一视图存储在 MongoDB Atlas 中。
风险概况生成:从此统一视图生成风险概况或产品建议。其中涉及使用统计方法执行描述性分析,同时使用人工智能 (AI) 或机器学习 (ML) 技术来识别数据中的模式,以便进行风险倾向性评分。
模型开发:各种机器学习算法可用于信用评分和决策。请考虑逻辑回归、决策树、支持向量机和神经网络。
本教程采用 XGBoost(极端梯度提升树) 模型,这是一种因其预测性能而广泛使用的机器学习算法。该算法是一种基于函数逼近的监督学习方法。该算法具有以下功能:
优化特定损失函数。
应用多种正则化技术。
处理高维数据。
捕捉复杂模式,进行分类和回归。
该模型支持其推理结果,这有助于解释此预测模型的推断结果。
数据转换:在执行风险概况评分之前,使用 Spark(或类似的托管分析框架)转换原始用户数据。跨多个来源整合数据,创建单一且物化数据视图,该视图可直接从 MongoDB Atlas 集合提取,用于模型开发以及各类描述性分析任务。此步骤还可能涉及模型推断。
决策收集:最终转换后的数据将填充到决策集合中。这有助于银行和金融机构支持其财务决策和审计目的。
目标是准确评估客户的信用度,以便做出明智的贷款决策和金融产品推荐。该管道是由组织维护的现有风险评分管道的示例。
解释拒绝信用申请的原因
了解信用申请被拒的原因是申请过程中的重要组成部分。了解 MongoDB 和大型语言模型(LLM)如何解释 XGBoost 模型预测(本教程中使用的模型)。
这是用于解释如何使用 LLM 进行信用评分的架构图:

图2.使用 LLM 的信用评分架构图
所使用的风险分析机器学习管道可生成概率评分,用于量化用户状况的产品推荐风险等级。系统会以标准化格式向用户反馈信息,且仅向最终用户传达申请的最终状态。在拟议的 LLM 架构中,您可以使用提示工程来解释最终批准产品状态的原因,并向最终客户解释合理的理由。
您可在此处找到相关代码和示例响应。用于生成类似消息的代码可在 Jupyter Notebook 中使用 Python 完成。有关设置 MongoDB Atlas 和获取连接字符串的详细信息,请访问此链接。
以下是一个拒绝说明的示例:

图3。拒绝说明示例
面向客户的消息通知采用可解释 AI 技术,其中模型用于风险评估的特征要素会经过优先级排序,并作为定制化提示的一部分输入 LLM。如上所示,这有助于生成更具描述性的理由,向最终客户解释其用户状况。LLM 还能对描述性理由进行摘要处理,为用户提供简明的说明概览。
在本演示中,采用两种信用评估方法来处理信用申请。系统采用机器学习方法(如前一节所述)并综合运用超过 20 个信用相关特征,最终确定信用申请状态。以下是最重要的 15 个特征的一部分:

图4。功能重要性图表
有关本演示中所使用功能的更多详细信息,请查看信用分数 GitHub 存储库中提供的源代码。
为了演示机器学习与传统信用评分方法之间的区别,请考虑典型的传统信用评分方法如何对相同的信用应用程序但通常仅使用少数维度进行评分。该演示使用了领先信用评分提供商通常使用的几个功能:
信用申请人还款记录
信用利用率
信用历史
未结清贷款笔数与征信查询次数
推荐替代信用产品
信贷机构应始终尝试向客户交叉销售满足其需求的相关产品,因为客户已处于流程和申请门户之中。
金融机构可以实现一个产品推荐系统,该系统对新推荐的理由提供人性化的解释,这将开启目前传统系统无法提供的新收入机会。提供理由可以与客户建立个性化的关系,并提高对推荐产品的接受度。以下是用于实现此目标的数据架构示例:

图5。推荐系统架构
Atlas Vector Search功能允许您对任何类型的数据执行语义搜索和生成式AI 。它将操作数据库和向量搜索集成在具有MongoDB原生界面的完全托管的统一平台中。您可以使用机器学习模型创建向量嵌入,然后存储其存储在MongoDB Atlas中并对其索引,以用于检索增强生成 (RAG)、语义搜索、推荐引擎、动态个性化和其他使用案例。
RAG 是一种利用矢量搜索技术,根据输入查询检索相关文档的范式。然后,RAG 会将这些检索到的文档作为上下文提供给大型语言模型,以帮助生成更明智、更准确的响应。
上述教程提到了可用于解决信用卡产品推荐使用案例的技术。该过程所涉及的步骤如下:
加载私有数据:每种信用信用卡产品都有不同的优惠。这些产品偶尔会有变化,各种生活福利(如电影票和礼宾服务)的收费也是如此。将产品数据存储在 MongoDB 中作为操作数据存储(ODS),有助于维护数据变更,同时构建向量索引。
大型数据点可以根据需求进行适当的更新、删除、插入或替换。
信用卡产品描述篇幅很长,将其切分成较小数据块,有助于精准检索相关信息。
您可以利用 LLM 将产品说明压缩为包含所有重要产品功能和成本的摘要。完成此更改后,您就能快速检索和推荐相关产品。
LLM 驱动式推荐:在此使用案例中,LLM 将用作推荐者系统,而在此系统中前期生成的用户个人资料则可用作输入来生成子查询,以便对 MongoDB Atlas 中存储的产品向量进行语义相似性匹配。
具有个性化消息传递的产品推荐:推荐的产品然后用于法学硕士的自定义提示,为最终用户生成相关产品推荐摘要。
这有助于金融机构为最终客户提供个性化推荐和相关建议,从而提高转换率。
产品推荐通过提高所提供产品的“可能推荐”得分,增加客户互动并提升用户体验。
在这里,您可以找到替代产品推荐的代码和示例。以下是一些示例。您可以在 Jupyter Notebook 中使用Python创建代码,以生成产品推荐和自定义产品推荐描述。

图6。已批准应用程序的示例
总之,随着生成式人工智能的融入,信用评分正在经历一个转型阶段。技术与金融的协同效应正在塑造这样的未来:信用决策不仅精准,更能为借款人赋能。
Github存储库库提供了用于演示构建此类解决方案的所有MongoDB功能的代码。烟花。 AI是MongoDB的主要AI合作,它使生成式AI的创新更快、更高效、更安全。
关键要点
了解 GenAI 的功能:合成不同的数据集,解决传统信用评分模型的主要局限性。
提供可解释的信用状态:通过法学硕士使用即时工程,向最终客户解释信用状态的原因,并提供有效的理由。
传统信用评分模型的挑战:认识到需要替代性信用评分模型,以适应不断变化的金融行为,处理非传统数据源,并提供更具包容性和更准确的信用评估。
使用另类数据:了解另类数据的优势,实现更准确的信用评分。示例,可以使用公用事业账单、手机账单和教育历史等其他数据点进一步改进这种信用评分模型。
解决幻觉:利用 RAG 将模型的响应基于当前来源的事实信息,确保模型的响应反映最新、最准确的可用信息,从而降低幻觉风险。
作者
Ashwin Gangadhar,合作解决方案,MongoDB
Wei You Pan,行业解决方案,MongoDB
Julian Boronat,行业解决方案,MongoDB