Setores: Seguros, Serviços financeiros, Assistência à saúde
Produtos e ferramentas: séries temporais, Charts, MongoDB Connector for Spark, MongoDB Atlas banco de dados, MongoDB visualizações materializadas, pipelines de agregação
Parceiros: Databhards
Visão Geral da Solução
Esta solução demonstra como usar o MongoDB, o aprendizado de máquina e o processamento em dados em tempo real para automatizar o processo de subscrição digital de carros conectados. Você pode usar essa solução para oferecer aos clientes prêmios personalizados e baseados no uso, que levam em conta seus hábitos e comportamentos.
Para fazer isso, você precisará coletar dados, enviá-los para uma plataforma de aprendizado de máquina para análise e, em seguida, usar os resultados para criar prêmios personalizados para seus clientes. Você também visualizará os dados para identificar tendências e obter perspicácia. Essa abordagem exclusiva e personalizada dará a seus clientes maior controle sobre seus custos de seguro e o ajudará a fornecer preços mais precisos e corretos.
O repositório do GitHub contém instruções detalhadas, passo a passo, sobre como carregar os dados de amostra e criar o pipeline de transformação no MongoDB Atlas, bem como sobre como gerar, enviar e processar eventos de e para o Databricks.
Ao final desta demonstração, você criará uma visualização de dados com o Atlas Charts que acompanha alterações automatizadas no premium do seguro quase em tempo real.
Você pode aplicar os conceitos desta solução a outros setores, incluindo:
Serviços financeiros: bancos e instituições financeiras devem ser capazes de interpretar transações financeiras com registro de data e hora para fins de trading, detecção de fraudes e mais.
Varejo: os varejistas precisam de perspicácia em tempo real sobre os dados atuais do mercado.
Assistência à saúde: dos meios de transporte até as embalagens propriamente ditas, os sensores de IoT podem otimizar a cadeia de suprimentos em trânsito e no local.
Arquiteturas de referência
O diagrama abaixo descreve a arquitetura da seguinte forma:
Figura 1. Arquitetura de referência com MongoDB
Primeiro, carregue um conjunto de dados incluindo a distância total percorrida em viagens de carro no MongoDB e execute um tarefa cron diário todos os dias à meia-noite para resumir as viagens diárias. Em seguida, compile as viagens diárias em um documento armazenado em uma nova coleção chamada customerTripDaily. Execute uma tarefa cron mensal no 25º dia de cada mês, agregando os documentos diários e criando uma nova coleção chamada customerTripMonthly. Toda vez que um novo resumo mensal é criado, uma publicação da função Atlas informa a distância total do mês e o premium de linha de base no Databricks para predição de aprendizado de máquina. A predição de aprendizado de máquina é então enviada de volta ao MongoDB e adicionada a customerTripMonthly. Como etapa final, visualize todos os seus dados com MongoDB Charts.
Abordagem do modelo de dados
Para esse caso de uso, um modelo de dados básico abrange os clientes, as viagens que fazem, as apólices que compram e os veículos segurados por essas apólices.
Este exemplo criam três coleções MongoDB e duas visualizações materializadas. Você pode encontrar o modelo de dados completo para definir objetos MongoDB no repositório GitHub.

Figura 2. Abordagem do modelo de dados do MongoDB
Construir a solução
Para replicar esta solução, verifique seu repositório GitHub. Siga o README do repositório, que aborda as etapas a seguir em mais detalhes.
Criar um pipeline de em processamento de dados com uma visualização materializada
O componente do pipeline de processamento de dados consiste em dados de amostra, uma visualizações materializadas diária e uma visualizações materializadas mensal. Um conjunto de dados de amostra de dados de telemetria de veículos IoT representa as viagens de veículo motorizadas feitas pelos clientes. Ele está carregado na coleção chamada customerTripRaw. O conjunto de dados pode ser encontrado no GitHub e pode ser carregado por meio de mongoimport ou outros métodos. Para criar uma visualização materializada, um trigger agendado executa uma função que executa um pipeline de agregação . Em seguida, isso gera um resumo diário dos dados brutos de IoT e os coloca em uma coleção de visualizações materializadas chamada customerTripDaily. Da mesma forma, para uma visualização materializada mensal, um trigger agendado executa uma função que executa um pipeline de agregação que resume as informações na coleção customerTripDaily mensalmente e as coloca em uma coleção de visualizações materializadas denominada customerTripMonthly.
Verifique os seguintes repositórios do Github para criar o pipeline de em processamento de dados:
Passo 1: Carregue os dados de amostra.
Passo 2: Configurar uma tarefa cron diária.
Passo 3: Configurar uma tarefa cron mensal.
figura 3. Criar um pipeline de em processamento de dados
Automatize os cálculos do premium do seguro com um modelo de aprendizado de máquina
O componente de decisão em processamento consiste em um trigger agendado que coleta os dados necessários e realiza a publicação da carga útil em um ponto de extremidade da API Databricks Fluxo de Aprendizado de Máquina. Este modelo foi anteriormente treinado usando o Spark Connector MongoDB no Databricks. Em seguida , aguarda que o modelo responda com um premium calculado com base nas milhas mensais percorridas por um determinado cliente. Em seguida, o trigger agendado atualiza a coleção customerPolicy para anexar um novo cálculo de premium mensal como um novo subdocumento dentro da array monthlyPremium.
Verifique os seguintes repositórios do Github para criar o pipeline de em processamento de dados:
Figura 4. Automatizar cálculos com modelo de aprendizado de máquina
Visualize alterações quase em tempo real nos prêmios de seguro ao longo do tempo
Após o premium mensal ter sido anexado, você pode configurar o Atlas Charts para visualizar seus premiums baseados em uso calculados. Configure gráficos diferentes para ver como os prêmios mudou ao longo do tempo para descobrir padrões interessantes.
Principais Aprendizados
Saiba como construir visualização materializada em dados de série temporal: consulte as etapas 1-3 no repositório do GitHub.
Aproveite os pipelines de agregação para expressões cron: consulte as etapas 2 ou 3 no repositório do GitHub.
Servir modelos de aprendizado de máquina com dados do MongoDB Atlas: consulte a etapa 4 no repositório do GitHub.
Gravar uma predição de modelo de aprendizado de máquina em um banco de dados do Atlas: consulte as etapas 5 e 6 no repositório do GitHub.
Visualize perspicácias quase em tempo real de resultados de modelo em mudança contínua: consulte a etapa de Bônus no repositório do GitHub.
Autores
Jeff Needham, MongoDB
Ainhoa Múgica, MongoDB
Luca Napoli, MongoDB
Karolina Ruiz Rogelj, MongoDB