Setores: Seguros, Serviços financeiros, Assistência à saúde
Produtos e ferramentas: Time Series, Charts, MongoDB Connector for Spark, MongoDB Atlas Database, MongoDB Materialized Views, Aggregation Pipelines
Parceiros: Databhards
Visão Geral da Solução
Esta solução demonstra como usar o MongoDB, o machine learning e o processamento de dados em tempo real para automatizar o processo de subscrição digital de carros conectados. Você pode usar essa solução para oferecer aos clientes prêmios personalizados e baseados no uso, que levam em conta seus hábitos e comportamentos.
Para fazer isso, você precisará coletar dados, enviá-los para uma plataforma de aprendizado de máquina para análise e, em seguida, usar os resultados para criar prêmios personalizados para seus clientes. Você também visualizará os dados para identificar tendências e obter insights. Essa abordagem exclusiva e personalizada dará a seus clientes maior controle sobre seus custos de seguro e o ajudará a fornecer preços mais precisos e corretos.
O repositório do GitHub contém instruções detalhadas, passo a passo, sobre como carregar os dados de amostra e criar o pipeline de transformação no MongoDB Atlas, bem como sobre como gerar, enviar e processar eventos de e para o Databricks.
Ao final desta demonstração, você criará uma visualização de dados com o Atlas Charts que rastreia alterações automatizadas no premium do seguro quase em tempo real.
Você pode aplicar os conceitos desta solução a outros setores, incluindo:
Serviços financeiros: bancos e instituições financeiras devem ser capazes de interpretar transações financeiras com registro de data e hora para fins de trading, detecção de fraudes e mais.
Varejo: os varejistas precisam de insights em tempo real sobre os dados atuais do mercado.
Assistência à saúde: dos meios de transporte até as embalagens propriamente ditas, os sensores de IoT podem otimizar a cadeia de suprimentos em trânsito e no local.
Arquiteturas de referência
O diagrama abaixo descreve a arquitetura da seguinte forma:
Figura 1. Arquitetura de referência com MongoDB
Primeiro, carregue um conjunto de dados incluindo a distância total percorrida em viagens de carro no MongoDB e execute um tarefa cron diário todos os dias à meia-noite para resumir as viagens diárias. Em seguida, compile as viagens diárias em um documento armazenado em uma nova coleção chamada customerTripDaily. Execute uma tarefa cron mensal no 25º dia de cada mês, agregando os documentos diários e criando uma nova coleção chamada customerTripMonthly. Toda vez que um novo resumo mensal é criado, uma função do Atlas publica a distância total do mês e o premium de linha de base no Databricks para predição de ML. A predição de ML é então enviada de volta ao MongoDB e adicionada a customerTripMonthly. Como etapa final, visualize todos os seus dados com MongoDB Charts.
Abordagem do modelo de dados
Para esse caso de uso, um modelo de dados básico abrange os clientes, as viagens que fazem, as apólices que compram e os veículos segurados por essas apólices.
Este exemplo cria três coleções MongoDB e duas visualizações materializadas. Você pode encontrar o modelo de dados completo para definir objetos MongoDB no repositório GitHub.

Figura 2. Abordagem do modelo de dados do MongoDB
Construir a solução
Para replicar esta solução, verifique seu repositório GitHub. Siga o do README repositório, que aborda as etapas a seguir em mais detalhes.
Criar um pipeline de processamento de dados com uma visualização materializada
O componente de pipeline de processamento de dados consiste em dados de amostra, uma visualização materializada diária e uma visualização materializada mensal. Um conjunto de dados de amostra de dados de telemetria de veículos IoT representa as viagens de veículo motorizadas feitas pelos clientes. Ele está carregado na coleção customerTripRaw chamada. O conjunto de dados pode ser encontrado no GitHub e pode ser carregado por meio de mongoimport ou outros métodos. Para criar uma visualização materializada, um trigger agendado executa uma função que executa um pipeline de agregação . Em seguida, isso gera um resumo diário dos dados brutos de IoT e os coloca em uma coleção de visualizações materializadas customerTripDaily chamada. Da mesma forma, para uma visualização materializada mensal, um trigger agendado executa uma função que executa um pipeline de agregação que resume as informações na customerTripDaily collection mensalmente e as coloca em uma collection de visualizações materializadas customerTripMonthly denominada.
Verifique os seguintes repositórios do Github para criar o pipeline de processamento de dados:
Passo 1: Carregue os dados de amostra.
Passo 2: Configurar uma tarefa cron diária.
Passo 3: Configurar uma tarefa cron mensal.
figura 3. Criar um pipeline de processamento de dados
Automatize os cálculos do premium do seguro com um modelo de machine learning
O componente de processamento de decisão consiste em um trigger agendado que coleta os dados necessários e publica a carga útil em um ponto de extremidade da API Databricks ML Flow. Este modelo foi formado anteriormente usando o conector Spark MongoDB no Databricks. Em seguida , aguarda que o modelo responda com um premium calculado com base nas milhas mensais percorridas por um determinado cliente. Em seguida, o trigger agendado atualiza a coleção customerPolicy para anexar um novo cálculo de premium mensal como um novo subdocumento dentro da array monthlyPremium.
Verifique os seguintes repositórios do Github para criar o pipeline de processamento de dados:
Figura 4. Automatizar cálculos com modelo de aprendizado de máquina
Visualize alterações quase em tempo real nos prêmios de seguro ao longo do tempo
Após o premium mensal ter sido anexado, você pode configurar o Atlas Charts para visualizar seus premiums baseados em uso calculados. Configure gráficos diferentes para ver como os prêmios mudou ao longo do tempo para descobrir padrões interessantes.
Principais Aprendizados
Saiba como construir visualização materializada em dados de série temporal: consulte as etapas 1-3 no repositório do GitHub.
Aproveite 2 3 os pipelines de agregação para expressões cron:consulte as etapas ou no repositório do GitHub.
Utilize modelos de machine learning com dados do MongoDB Atlas : consulte 4 a etapa no repositório do GitHub.
Escrever uma predição de modelo de machine learning 5 6 em um banco de dados do Atlas :consulte as etapas e no repositório do GitHub.
Visualize insights quase em tempo real de resultados de modelo em mudança contínua: consulte a etapa de Bônus no repositório do GitHub.
Autores
Jeff Needham, MongoDB
Ainhoa Múgica, MongoDB
Luca Napoli, MongoDB
Karolina Ruiz Rogelj, MongoDB