MongoDB 与 Microsoft 携手提供 AI 驱动的乳腺癌护理解决方案,实现数据统一,并支持预测建模、智能聊天机器人和数据分析。
行业: 医疗保健
产品和工具: MongoDB Atlas、MongoDB Atlas Search、MongoDB Atlas Vector Search、MongoDB Atlas Data Federation、MongoDB Atlas Charts
合作伙伴: Microsoft
解决方案概述
该解决方案名为“Leafy Hospital”,集成了MongoDB Atlas和Microsoft AI ,以改善乳腺癌诊断和患者护理。该系统利用 MongoDB灵活数据平台来统一操作元数据和AI数据,并将其与Azure OpenAI、 Microsoft Fabric 和 Power BI等Microsoft产品相结合,创建全面的医疗保健分析和诊断解决方案。该解决方案展示了三种关键技术方法:
用于早期检测的预测性AI :使用深度学习模型分析乳房 X 光照片并预测乳腺成像报告和数据系统 (BI-RADS) 分数。
用于工作流程自动化的生成式AI:使用向量搜索功能和由...提供支持的聊天机器人进行智能信息检索。
高级分析:通过 Power BI集成,实时运营见解与长期趋势分析相结合。
该解决方案使医疗保健提供者能够简化诊断流程、自动化临床文档并做出数据驱动的决策,同时确保安全处理敏感的患者信息。
参考架构
下图说明了绿叶医院解决方案如何集成各个组件:
图 1. Leafy Hospital 解决方案架构
该解决方案集成了三个主要技术领域的组件:
预测 AI 层(底部黄色框)
处理乳房 X 光检查图像和临床数据。
处理BI-RADS 评分和活检类型分析。
确定恶性或良性分类。
从 Azure Blob 存储接收图像。
将操作数据输出到 MongoDB Atlas。
生成式人工智能层(中间紫色框)
使用Azure AI Studio 与MongoDB Atlas集成。
启用自动化报告生成以用于临床文档。
具备问答功能的聊天机器人。
处理来自Atlas的操作数据和矢量数据。
支持用户通过自然语言与系统进行交互。
高级分析层(中间绿色框)
结合了结构 Power BI和结构 OneLake。
从处理后的数据生成报告和仪表盘。
与 MongoDB Atlas 集成以进行数据可视化。
提供全面的分析功能。
首先存储在Azure Blob 存储中的医学图像然后通过各个层进行处理:
图像和运营数据流经 Fabric Data Science 以进行 AI 处理。
结果存储在作为中央运营数据库的 MongoDB Atlas 中。
Azure AI Studio 利用存储的数据处理生成式人工智能任务。
最后,Fabric Power BI 和 OneLake 启用高级分析和可视化。
该架构确保从原始医疗数据到可操作洞见的信息流畅通无阻,同时在整个系统中保持安全性和性能。
构建解决方案
Leafy Hospital 演示展示了MongoDB Atlas通过几个关键组件与 Microsoft 的AI和分析服务集成,以下各节将对此进行介绍。
有关实施此解决方案的详细分步指南(包括代码示例和具体配置说明),请访问此解决方案的Github存储库。
数据架构与数据流
在此解决方案中, MongoDB Atlas实时AI应用程序的操作数据存储,而Microsoft OneLake 处理分析以进行长期趋势分析。该架构支持以下功能:
实时处理患者数据和医学影像。
运营系统和分析系统之间的集成。
从事务处理到分析处理的高效数据流动。
支持毫秒级响应的操作型查询和复杂的分析型工作负载。
图 2:实时到分析的数据管道
用于早期检测的预测 AI
预测性AI可用于医疗保健领域,以便从大型数据集中生成准确的诊断。Microsoft Fabric Data Science 提供了一个强大的平台来训练和实验 ML 模型以及管理MLOps 周期。此解决方案将模型用于以下目的:
BI-RADS 预测
BI-RADS 是一种用于分析乳房 X 光检查结果的行业标准机制。医疗保健专家使用BI-RADS 用 0 到 6 之间的数字来描述乳腺影像检查的结果,分数越高,恶性的可能性越大。
该解决方案使用 VGG16 深度卷积神经网络 (CNN) 来预测图像中的BI-RADS 分数。该模型使用Kaggle 数据集的乳房 X 光图像进行训练。每个映像都分组到与其BI-RADS 相对应的文件夹中。
结构数据科学分析此任务的多个模型的性能,并选择最佳模型。它训练模型、运行实验并管理多个版本。使用 Lakehouse 用户界面将培训图像直接从用户的本地计算机上传到 OneLake 中的 Lakehouse。此外,您可以使用
wget或curl命令、使用快捷方式,或使用数据管道,轻松引用Azure Blob 存储中存储的图像。该解决方案将图像元数据和最终预测存储在MongoDB Atlas中。活检分类
分类或回归模型可用于将肿瘤分类为恶性或良性。随机林分类器模型在Kaggle 数据集上进行训练,该数据集包括团块厚度、细胞大小和形状的均匀性、裸核和有丝分裂等输入参数。然后,该模型可以预测肿瘤是恶性还是良性。在生产中,您可以向数据集添加更多参数,并根据这些值训练模型,以做出更准确的预测。在解决方案开发过程中,随机林模型的准确率超过 97%。该解决方案从MongoDB Atlas获取培训数据集,并使用MongoDB Spark Connector。在MongoDB中更新预测输出。
通过自动记录每个模型和实验的相关参数,Fabric Data Science 可以轻松培训和管理模型。
向量搜索的实现
该解决方案的智能查询系统依赖于Vector Search,如下图所示。
图3.向量搜索实现流程
数据准备:
Azure OpenAI 的
text-embedding-ada-002模型处理临床记录。数据被转换为向量嵌入,以便在高维空间中表示。
向量嵌入存储在带有优化搜索索引的 MongoDB Atlas 中。
查询处理:
自然语言查询被转换为向量表示。
语义理解支持复杂的医学查询。
查询向量与存储的嵌入进行匹配。
Document retrieval:
根据语义匹配返回相关的医疗记录。
实现对患者信息的直观访问。
Atlas Vector Search执行基于相似性的搜索。
基于 RAG 的聊天机器人架构
聊天实施在以下情况下利用RAG架构,如下图所示:
图 4. 聊天机器人架构的蓝图
患者信息检索:
执行查询,以获取当前患者的详细信息。
从 MongoDB 集合中检索结构化的患者数据。
提供即时访问关键患者信息的功能。
历史数据处理:
从 MongoDB Atlas 访问 10 年的患者历史记录。
通过 Azure OpenAI LLM 解码并汇总历史数据。
实现用于上下文感知响应的思维链。
医学知识整合:
使用矢量化的医疗文档。
根据查询的上下文执行实时向量搜索。
整合相关的医学文献和病例研究。
分析与可视化
该解决方案使用以下两个可视化平台分析。
首先,MongoDB Atlas Charts 提供与 MongoDB 数据直接连接的原生实时操作仪表盘。它通过直观的可视化,实时展现关键医疗指标,无需数据转换或额外工具即可获得即时洞察。操作仪表盘(图 5)展示了关键指标,包括患者人数、预约状态和诊所分布。
图 5. 带有 Atlas Charts 的操作仪表盘
其次,Power BI集成支持企业范围的数据分析和高级可视化,从而扩展了分析功能。通过MongoDB Atlas Connector,医疗保健数据可以与Microsoft OneLake 中的其他企业数据源相结合。地理可视化仪表盘(图 6)展示了这种集成,显示患者分布并启用复杂的分析功能。
图 6. PowerBI 与 MongoDB Atlas 集成
这些平台共同提供了一个完整的分析解决方案,既满足即时的运营需求,也支持长期的分析需求。
该解决方案演示了MongoDB Atlas如何处理操作数据、向量搜索功能和分析要求,同时与 Microsoft 的AI和可视化工具无缝集成。这种架构使医疗保健提供者能够在单个系统中利用实时运营见解和长期分析功能。
关键要点
统一数据平台: MongoDB Atlas充当中央存储库,统一操作数据、元数据和AI数据,从而实现医疗保健系统不同组件之间的无缝集成。
AI集成功能:该架构演示了如何使用 Microsoft 的AI服务和MongoDB Atlas将不同类型的AI (例如预测性 AI、生成性 AI 和分析性 AI)有效集成到单个医疗保健解决方案中。
工作流程自动化:该解决方案展示了AI如何实现从诊断预测到报告生成的关键医疗保健工作流程的自动化。它还支持通过聊天机器人进行智能查询,从而减少人工工作和潜在错误。
可扩展的分析:将 MongoDB Atlas 与 Microsoft Fabric 和 Power BI 相结合,不仅支持实时运营分析,还支持长期趋势分析,为医疗决策提供全面洞察。
安全医疗架构:该解决方案展示了如何构建一个现代医疗系统,该系统不仅可以确保数据的安全和隐私,还支持先进的 AI 功能和数据分析。
作者
Francesc Mateu, MongoDB
Diana Annie Jenosh,MongoDB
Sebastian Rojas Arbulu, MongoDB