Aprenda a crear experiencias automotrices en tiempo real, controladas por voz, con MongoDB Atlas y el conjunto de herramientas de Google Cloud. Combine datos del vehículo, contexto del usuario e integraciones del manual del vehículo en un asistente inteligente y escalable que se adapta a las necesidades del conductor.
caso de uso: Gen IA, Personalización
Industrias: Fabricación y movilidad
Productos: MongoDB Atlas, Búsquedavectorialde MongoDB Atlas
Socios: Google Cloud, Sincronización de potencia
Resumen de la solución
Los fabricantes de automóviles se enfrentan cada vez a una mayor presión para diferenciar sus vehículos mediante sistemas digitales inteligentes y fáciles de usar. Los asistentes de voz en el automóvil son una forma clave de lograr esto, pero la mayoría están limitados a comandos básicos, como controlar la navegación o la música. La IA generativa te permite ir más allá de estas limitaciones y ofrecer interacciones personalizadas y dinámicas mientras conduces.
Esta solución demuestra cómo compilar un asistente de voz en tiempo real potenciado por Gen IA y MongoDB Atlas. La arquitectura integra la telemetría de los vehículos, las preferencias de los usuarios y los manuales de los automóviles para crear un asistente a bordo que se adapte a las necesidades de cada conductor. Al utilizar el modelo orientado a documentos flexible y la búsqueda vectorial integrada de MongoDB Atlas, los desarrolladores pueden simplificar la complejidad de los datos y ofrecer funciones más rápido para una mejor experiencia a bordo.

Figura 1. Asistente Gen AI en el coche en acción
Con esta solución, puedes:
Unificar datos estructurados y no estructurados para aumentar el contexto de los sistemas de IA.
Habilita interacciones en tiempo real con una arquitectura escalable y nativa de la nube.
Ofrecer experiencias personalizadas con búsqueda semántica potenciadas por Atlas Vector Search.
Si bien esta solución se centra en la industria automotriz, puede aplicarse a industrias como la del transporte, la salud, la hostelería y la electrónica de consumo, para mejorar la interacción con el cliente, reducir las fricciones y agilizar el soporte. Esta arquitectura proporciona una base para experiencias avanzadas con voz y basadas en datos, como asistentes inteligentes para el hogar, mayordomos digitales y sistemas avanzados de triaje médico con IA. Las empresas de todos los sectores están aprovechando el poder de la voz con IA generativa y MongoDB para transformar las experiencias de usuario.
Arquitecturas de Referencia
Esta arquitectura utiliza MongoDB Atlas como capa de datos, junto con las capacidades de inteligencia artificial de Google Cloud, lo que garantiza interacciones rápidas, personalizadas y confiables.
Figura 2. Una arquitectura de referencia de un Asistente Gen AI In-Car
Esta solución utiliza componentes alojados en el vehículo y en la nube.
Componentes a bordo
Funcionan en el vehículo, cerca del driver, y permiten la interacción por voz en tiempo real.
Consola del coche: La interfaz dentro del coche donde las personas hablan con el asistente y reciben respuestas. Esta demo utiliza una aplicación web que representa el sistema embebido en un vehículo real.
Almacenamiento local de datos: Los vehículos almacenan señales clave localmente utilizando PowerSync SDK, una base de datos perimetral ligera desarrollada sobre SQLite. Esto garantiza un acceso rápido a los datos de diagnóstico y mantiene los datos sincronizados con MongoDB Atlas.
Backend del asistente: Este componente gestiona la conversación. Gestiona la transcripción de voz utilizando Google Cloud Speech-to-Text. Dependiendo de la query, puede responder directamente o utilizar herramientas para obtener más datos o realizar alguna acción. Esta demostración incluye cuatro acciones de muestra:
Consultar el manual: Utiliza Atlas búsqueda vectorial para recuperar información relevante del manual del automóvil.
Ejecutar diagnóstico: Obtiene los códigos de diagnóstico actuales de los datos locales del vehículo.
Recalcular ruta: Ajusta el viaje si el conductor agrega una parada.
Cerrar chat: termina la conversación de manera cordial.
Esta solución utiliza el siguiente objeto para definir herramientas para el backend del asistente. La solución transfiere el objeto a Google Cloud al iniciar la función de chat.
const functionDeclarations = [ { functionDeclarations: [ { name: "closeChat", description: "Closes the chat window when the conversation is finished. By default it always returns to the navigation view. Ask the user to confirm this action before executing.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: { view: { type: FunctionDeclarationSchemaType.STRING, enum: ["navigation"], description: "The next view to display after closing the chat.", }, }, required: ["view"], }, }, { name: "recalculateRoute", description: "Recalculates the route when a new stop is added. By default this function will find the nearest service station. Ask the user to confirm this action before executing.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: {}, }, }, { name: "consultManual", description: "Retrieves relevant information from the car manual.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: { query: { type: FunctionDeclarationSchemaType.STRING, description: "A question that represents an enriched version of what the user wants to retrieve from the manual. It must be in the form of a question.", }, }, required: ["query"], }, }, { name: "runDiagnostic", description: "Fetches active Diagnostic Trouble Codes (DTCs) in the format OBD II (SAE-J2012DA_201812) from the vehicle to assist with troubleshooting.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: {}, }, }, ], }, ];
Componentes de la nube
Estos componentes se almacenan en Google Cloud o MongoDB Atlas y proporcionan inteligencia de IA, almacenamiento escalable y capacidades de procesamiento de datos.
Ingesta de datos: Se sube contenido no estructurado, como manuales de autos, a Google Cloud Almacenamiento. Esto desencadena una pipeline que utiliza Pub/Sub, Nube Run y Document IA para dividir los PDF en fragmentos. Vertex AI genera incrustaciones para estos fragmentos, los cuales luego se almacenan en MongoDB Atlas para la búsqueda semántica.
API de voz que sirve: Text-to-Speech y Speech-to-Text de Google Cloud gestionan la interacción natural por voz. Vertex AI proporciona representaciones de texto para consultas de búsqueda y da soporte a Gemini, que es el LLM utilizado por el asistente.
Almacenamiento y recuperación de datos: MongoDB Atlas almacena:
Incrementos manuales de fragmentos para la recuperación mediante Atlas búsqueda vectorial.
Preferencias de usuario y datos de sesión.
Señales del vehículo: tanto los valores más recientes como la telemetría de series de tiempo completas.
Atlas Vector Search se utiliza para comparar las preguntas de los usuarios con las secciones manuales más relevantes, permitiendo un flujo de generación de recuperación aumentada (RAG). El soporte nativo de MongoDB para datos estructurados, semiestructurados y vectoriales en un solo lugar simplifica la lógica del asistente y acelera el desarrollo.
Sincronización de datos: Esta solución utiliza PowerSync para sincronización bidireccional entre el vehículo y la nube:
Vehículo a la nube: El vehículo envía datos de telemetría, como códigos de diagnóstico, velocidad o aceleración. Una función de ejecución en la nube los procesa y almacena en Atlas.
Nube al vehículo: permite actualizaciones o acciones enviadas de forma remota al automóvil, como actualizaciones OTA o bloqueo remoto.
MongoDB en IA Conversacional
MongoDB Atlas mejora esta arquitectura de soluciones de las siguientes maneras:
Unifica los datos operacionales y vectoriales: las señales de los vehículos, los embeddings vectoriales y las sesiones de usuario se almacenan juntos en una única plataforma.
Permite respuestas más relevantes: Atlas Vector Search recupera los fragmentos correctos de documentos grandes al instante, alimentando respuestas precisas y ricas en contexto.
Diseñado para la escala empresarial: Ya sea un solo modelo o una flota global, MongoDB Atlas ofrece escalabilidad horizontal incorporada, alta disponibilidad y seguridad de nivel empresarial.
Simplifica la sincronización edge y cloud: PowerSync y MongoDB trabajan juntos para unir los entornos en el automóvil y en la nube sin fricción.
Esta arquitectura está diseñada para escalar, evolucionar y adaptarse, al igual que los vehículos que soporta. Con MongoDB en el centro, los fabricantes de automóviles pueden centrarse menos en la administración de datos y más en brindar experiencias inteligentes y útiles dentro del automóvil que realmente marcan la diferencia en la carretera.
Enfoque de modelo de datos
La calidad, estructura y accesibilidad de tus datos son extremadamente importantes en una experiencia impulsada por IA. En esta solución, el modelo orientado a documentos de MongoDB permite flexibilidad, velocidad y escalabilidad para los desarrolladores que crean asistentes inteligentes para automóviles.
A diferencia de las bases de datos relacionales tradicionales, que se basan en tablas rígidas y uniones complejas, MongoDB almacena los datos como documentos flexibles. Esto facilita la representación de estructuras de datos reales, como la telemetría de vehículos o fragmentos de conocimiento integrados, exactamente como se usan en el código. También permite iterar más rápido, adaptar el modelo sin tiempos de inactividad y desarrollar nuevas funciones a medida que la aplicación evoluciona.
Diseñado para la innovación y la velocidad
El modelo de documento está diseñado para desarrolladores. El esquema flexible de MongoDB permite modificar y actualizar fácilmente el modelo de datos. A medida que se implementan nuevas funciones del vehículo o cambian las expectativas de los usuarios, los equipos pueden desarrollar el modelo de datos sobre la marcha, sin costosas migraciones ni tiempos de inactividad de la aplicación. Además, como cada documento es independiente, las consultas son más rápidas y sencillas.
La elección natural para las cargas de trabajo de IA
La IA generativa prospera gracias a datos ricos, diversos y no estructurados. Las incrustaciones, los metadatos contextuales y las referencias estructuradas contribuyen todos a mejorar los sistemas de IA. Puedes realizar las siguientes acciones con MongoDB:
Almacene incrustaciones vectoriales, metadatos y contenido de origen en un solo documento.
Combine datos estructurados y vectoriales sin tener que cambiar de sistema.
Query campos vectoriales y no vectoriales conjuntamente para obtener resultados contextuales y precisos.
Ejemplo 1: Integraciones de manual del coche
Cuando se utiliza un enfoque de generación de recuperación aumentada (RAG), la calidad de la fragmentación y de los embeddings impacta directamente en la calidad de las respuestas de la IA. El contenido mal segmentado o el contexto faltante pueden conducir a respuestas vagas o inexactas. Los manuales técnicos a menudo contienen textos densos, diagramas y terminología específica del dominio, lo que dificulta recuperar la información adecuada.
Esta solución representa cada fragmento del manual como un documento. El documento incluye no solo el texto y su incrustación vectorial, sino también metadatos como el tipo de contenido (p. ej., seguridad y diagnóstico), los números de página, la longitud del fragmento y los enlaces a fragmentos relacionados. Este contexto adicional ayuda al sistema a comprender cómo se relacionan los fragmentos de información, lo cual es especialmente importante en temas muy técnicos o interdependientes.
El modelo orientado a documentos flexible de MongoDB permite capturar esta complejidad de manera sencilla. A medida que el manual evolucione o surjan nuevas necesidades, puedes añadir campos de forma incremental o ajustar la estructura sin requerir una migración completa del esquema. Esto permite una recuperación más precisa y respuestas de IA más útiles.
El siguiente documento de ejemplo representa un nombre de fragmento manual:
{ "_id": { "$oid": "67cc4b09c128338a8133b59a" }, "text": "Oil Pressure Warning Lamp. If it illuminates when the engine is running this indicates a malfunction. Stop your vehicle as soon as it is safe to do so and switch the engine off. Check the engine oil level. If the oil level is sufficient, this indicates a system malfunction.", "page_numbers": [ 23 ], "content_type": [ "safety", "diagnostic" ], "metadata": { "page_count": 1, "chunk_length": 1045 }, "id": "chunk_0053", "prev_chunk_id": "chunk_0052", "next_chunk_id": "chunk_0054", "related_chunks": [ { "id": "chunk_0048", "content_type": [ "safety" ], "relation_type": "same_context" }, { "id": "chunk_0049", "content_type": [ "safety" ], "relation_type": "same_context" }, ... ], "embedding": [ -0.002636542310938239, -0.005587903782725334, ... ], "embedding_timestamp": "2025-03-08T13:50:00.887107" }
Ejemplo 2: Datos de señal del vehículo
Para señales de vehículos, esta solución modela datos utilizando la Especificación de Señales de Vehículos COVESA (VSS). VSS proporciona una estructura jerárquica estandarizada para describir señales en tiempo real como velocidad, aceleración o códigos de avería diagnóstica (DTC). Es un formato abierto y extensible que facilita la colaboración, la integración de sistemas y la reutilización de datos en diferentes plataformas de vehículos.
Debido a que el modelo orientado a documentos de MongoDB gestiona de manera nativa estructuras anidadas, representar la jerarquía VSS es sencillo. Las señales pueden agruparse lógicamente, al igual que aparecen en el modelo VSS, lo que está alineado con la estructura basada en árboles de la especificación.
3Figura. El modelo de datos VSS es una estructura jerárquica de árbol construida con módulos que se pueden combinar de forma flexible. Fuente: https://covesa.global/vehicle-signal-specification/
Esta estructura acelera el desarrollo y garantiza que las herramientas y los flujos de trabajo de IA tengan acceso constante a datos limpios, estructurados y significativos.
El siguiente documento es una representación de ejemplo de una señal de vehículo que se ajusta al VSS.
{ "_id": { "$oid": "67e58d5f672b23090e57d478" }, "VehicleIdentification": { "VIN": "1HGCM82633A004352" }, "Speed": 0, "TraveledDistance": 0, "CurrentLocation": { "Timestamp": "2020-01-01T00:00:00Z", "Latitude": 0, "Longitude": 0, "Altitude": 0 }, "Acceleration": { "Lateral": 0, "Longitudinal": 0, "Vertical": 0 }, "Diagnostics": { "DTCCount": 0, "DTCList": [] } }
El modelo orientado a documentos de MongoDB no solo almacena tus datos. Refleja la complejidad del mundo real, lo que facilita la creación de sistemas más inteligentes que respondan en tiempo real, se adapten a las necesidades de los usuarios y crezcan con tu plataforma. Ya sea que estés almacenando diagnósticos de vehículos o manuales codificados con vectores, MongoDB te brinda las herramientas para compilar experiencias inteligentes más rápido.
Compilar la solución
La construcción de esta solución puede desglosarse en los pasos que se describen a continuación. Usas MongoDB Atlas para host tus datos, Google Cloud para servicios de IA, PowerSync para transmitir datos de vehículos y una aplicación de pila completa para unir todo. Puedes encontrar todos los activos y recursos necesarios en el repositorio de GitHub. Para obtener instrucciones más detalladas, consulta el repositorio README.
Replicar la base de datos de demostración
Aprovisiona un clúster dentro de tu cuenta de Atlas y llena la base de datos con los datos requeridos para la demostración. Se puede encontrar un vaciado de datos en el repositorio para replicar rápidamente la base de datos con todos los datos y metadatos necesarios con un rápido comando mongorestore.
Configura tu entorno de Google Cloud
Crea un proyecto de Google Cloud y habilita las API requeridas: Conversión de voz a texto, Conversión de texto a voz, Document AI y Vertex AI. Para el desarrollo local, configura las credenciales predeterminadas de la aplicación para que la aplicación pueda autenticarse de forma fluida con los servicios de Google. Las instrucciones detalladas se proporcionan en la documentación de Google Cloud.
(Opcional) Crea tus propias incrustaciones de documentos
La demo incluye un conjunto precomputado de embeddings para el manual del automóvil. Sin embargo, puedes generar tus propios embeddings analizando archivos PDF usando Document AI e integrándolos con Vertex AI. Esto te da flexibilidad para ampliar el asistente con documentos personalizados o manuales adicionales según sea necesario.
Configura PowerSync para obtener datos en tiempo real de los vehículos
Cree una cuenta de PowerSync y vincule su base de datos MongoDB utilizando su cadena de conexión. PowerSync actúa como un puente de datos, sincronizando datos de MongoDB en las aplicaciones de los clientes en tiempo real. Define las reglas de sincronización para la colección vehicleData.
Ejecutar la aplicación
Clone el repositorio localmente y cree un .env archivo con la plantilla proporcionada. Una vez configurado el entorno, ejecute npm install para instalar las dependencias y luego inicie el servidor de desarrollo npm run
dev con. La aplicación está disponible en http://localhost:.3000
Lecciones clave
La IA conversacional comienza con la base de datos adecuada: datos ricos, contextuales y accesibles son los que impulsan los asistentes de voz inteligentes. MongoDB Atlas unifica la telemetría estructurada, los manuales no estructurados y las integraciones vectoriales en una única plataforma orientada al desarrollador, eliminando los silos de información y facilitando servir respuestas relevantes en tiempo real.
MongoDB acelera la innovación desde la fábrica hasta la línea de meta: Las aplicaciones automotrices modernas exigen flexibilidad y velocidad, desde el mantenimiento y diagnóstico predictivo hasta los sistemas de cabina digital. El esquema flexible de MongoDB, las capacidades de sincronización en tiempo real y la escalabilidad horizontal ayudan a los equipos a avanzar más rápido, colaborar de manera más efectiva y ofrecer funcionalidades que diferencian sus vehículos.
Drivers están listos para la próxima generación de asistentes de voz: Con los vehículos eléctricos, la autonomía y los sistemas inteligentes de seguridad, los clientes tienen grandes expectativas de los sistemas integrados en los autos. La IA generativa permite que los asistentes entreguen conversaciones matizadas e interactivas, y MongoDB proporciona a los desarrolladores las herramientas para construir estas experiencias a escala.
Autores
Dr. Humza Akhtar, MongoDB
Rami Pinto, MongoDB