Aprenda a crear experiencias automotrices en tiempo real, controladas por voz, con MongoDB Atlas y el conjunto de herramientas de Google Cloud. Combine datos del vehículo, contexto del usuario e integraciones del manual del vehículo en un asistente inteligente y escalable que se adapta a las necesidades del conductor.
Casos de uso: Gen AI, personalización
Industrias: Fabricación y movilidad
Productos: MongoDB Atlas, Búsquedavectorialde MongoDB Atlas
Socios: Google Cloud, Sincronización de potencia
Resumen de la solución
Los fabricantes de automóviles se enfrentan a una mayor presión para diferenciar sus vehículos mediante sistemas digitales inteligentes y fáciles de usar. Los asistentes de voz en el coche son clave para lograrlo, pero la mayoría se limitan a comandos básicos como controlar la navegación o la música. La IA generativa permite superar estas limitaciones y ofrecer interacciones personalizadas y dinámicas al volante.
Esta solución demuestra cómo crear un asistente de voz en tiempo real con Gen AI y MongoDB Atlas. La arquitectura integra la telemetría del vehículo, las preferencias del usuario y los manuales del vehículo para crear un asistente que se adapta a las necesidades de cada conductor. Gracias al modelo de documentos flexible de MongoDB Atlas y a la búsqueda vectorial integrada, los desarrolladores pueden optimizar la complejidad de los datos y ofrecer funciones con mayor rapidez para una mejor experiencia en el vehículo.

Figura 1. Asistente de coche Gen AI en acción
Con esta solución podrás:
Unificar datos estructurados y no estructurados para aumentar el contexto de los sistemas de IA.
Habilite interacciones en tiempo real con una arquitectura escalable y nativa de la nube.
Ofrecer experiencias personalizadas con búsqueda semántica potenciadas por Atlas Vector Search.
Si bien esta solución se centra en la industria automotriz, puede aplicarse a sectores como el transporte, la salud, la hostelería y la electrónica de consumo para mejorar la interacción con el cliente, reducir la fricción y optimizar el soporte. Esta arquitectura sienta las bases para experiencias basadas en datos y con voz, como asistentes domésticos inteligentes, conserjes digitales y sistemas de triaje médico basados en IA. Empresas de diversos sectores están aprovechando el poder de la voz con IA generativa y MongoDB para transformar las experiencias de usuario.
Arquitecturas de Referencia
Esta arquitectura utiliza MongoDB Atlas como capa de datos, junto con las capacidades de inteligencia artificial de Google Cloud, lo que garantiza interacciones rápidas, personalizadas y confiables.
Figura 2. Arquitectura de referencia de un asistente de coche de IA de generación
Esta solución utiliza componentes alojados en el vehículo y en la nube.
Componentes de a bordo
Estos funcionan en el vehículo, cerca del conductor, y permiten la interacción de voz en tiempo real.
Consola del vehículo: La interfaz del vehículo donde los usuarios hablan con el asistente y reciben respuestas. Esta demostración utiliza una aplicación web que representa el sistema integrado en un vehículo real.
Almacenamiento local de datos: Los vehículos almacenan señales clave localmente utilizando PowerSync SDK, una base de datos perimetral ligera desarrollada sobre SQLite. Esto garantiza un acceso rápido a los datos de diagnóstico y mantiene los datos sincronizados con MongoDB Atlas.
Asistente backend: Este componente gestiona la conversación. Gestiona la transcripción de voz mediante Google Cloud Speech-to-Text. Según la consulta, responde directamente o invoca herramientas para obtener más datos o tomar medidas. Esta demostración incluye cuatro ejemplos de acciones:
Consultar manual: utiliza Atlas Vector Search para recuperar información relevante del manual del automóvil.
Ejecutar diagnóstico: obtiene los códigos de diagnóstico actuales de los datos locales del vehículo.
Recalcular ruta: ajusta el viaje si el conductor agrega una parada.
Cerrar chat: finaliza la conversación con elegancia.
Esta solución utiliza el siguiente objeto para definir herramientas para el backend del asistente. La solución transfiere el objeto a Google Cloud al iniciar la función de chat.
const functionDeclarations = [ { functionDeclarations: [ { name: "closeChat", description: "Closes the chat window when the conversation is finished. By default it always returns to the navigation view. Ask the user to confirm this action before executing.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: { view: { type: FunctionDeclarationSchemaType.STRING, enum: ["navigation"], description: "The next view to display after closing the chat.", }, }, required: ["view"], }, }, { name: "recalculateRoute", description: "Recalculates the route when a new stop is added. By default this function will find the nearest service station. Ask the user to confirm this action before executing.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: {}, }, }, { name: "consultManual", description: "Retrieves relevant information from the car manual.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: { query: { type: FunctionDeclarationSchemaType.STRING, description: "A question that represents an enriched version of what the user wants to retrieve from the manual. It must be in the form of a question.", }, }, required: ["query"], }, }, { name: "runDiagnostic", description: "Fetches active Diagnostic Trouble Codes (DTCs) in the format OBD II (SAE-J2012DA_201812) from the vehicle to assist with troubleshooting.", parameters: { type: FunctionDeclarationSchemaType.OBJECT, properties: {}, }, }, ], }, ];
Componentes de la nube
Estos componentes se almacenan en Google Cloud o MongoDB Atlas y proporcionan inteligencia de IA, almacenamiento escalable y capacidades de procesamiento de datos.
Ingesta de datos: El contenido no estructurado, como los manuales de automóviles, se sube a Google Cloud Storage. Esto activa una canalización que utiliza Pub/Sub, Cloud Run y Document AI para dividir los PDF en fragmentos. Vertex AI genera incrustaciones para estos fragmentos, que luego se almacenan en MongoDB Atlas para la búsqueda semántica.
API de voz: Las API de texto a voz y de voz a texto de Google Cloud gestionan la interacción de voz natural. Vertex AI proporciona incrustaciones de texto para consultas de búsqueda y potencia Gemini, el LLM que utiliza el asistente.
Almacenamiento y recuperación de datos: MongoDB Atlas almacena:
Incrustaciones manuales de fragmentos para recuperación mediante Atlas Vector Search.
Preferencias del usuario y datos de sesión.
Señales del vehículo: tanto los valores más recientes como la telemetría de series de tiempo completas.
Atlas Vector Search se utiliza para comparar las preguntas de los usuarios con las secciones manuales más relevantes, permitiendo un flujo de generación de recuperación aumentada (RAG). El soporte nativo de MongoDB para datos estructurados, semiestructurados y vectoriales en un solo lugar simplifica la lógica del asistente y acelera el desarrollo.
Sincronización de datos: esta solución utiliza PowerSync para la sincronización bidireccional entre el vehículo y la nube:
Vehículo a la nube: El vehículo envía datos de telemetría, como códigos de diagnóstico, velocidad o aceleración. Una función de ejecución en la nube los procesa y almacena en Atlas.
De la nube al vehículo: permite enviar actualizaciones o acciones de forma remota al automóvil, como actualizaciones OTA o bloqueo remoto.
MongoDB en IA conversacional
MongoDB Atlas mejora la arquitectura de esta solución de las siguientes maneras:
Unifica datos operativos y vectoriales: las señales del vehículo, las incrustaciones vectoriales y las sesiones de usuario se almacenan juntas en una única plataforma.
Permite respuestas más relevantes: Atlas Vector Search recupera instantáneamente los fragmentos correctos de documentos grandes, lo que genera respuestas precisas y ricas en contexto.
Diseñado para la escala empresarial: ya sea un modelo o una flota global, MongoDB Atlas ofrece escalabilidad horizontal integrada, alta disponibilidad y seguridad de nivel empresarial.
Simplifica la sincronización entre el borde y la nube: PowerSync y MongoDB trabajan juntos para unir entornos de automóviles y de nube sin fricciones.
Esta arquitectura está diseñada para escalar, evolucionar y adaptarse, al igual que los vehículos que soporta. Con MongoDB como base, los fabricantes de automóviles pueden centrarse menos en la gestión de datos y más en ofrecer experiencias inteligentes y útiles en el vehículo que realmente marquen la diferencia en la carretera.
Enfoque del modelo de datos
La calidad, la estructura y la accesibilidad de sus datos son fundamentales en una experiencia basada en IA. En esta solución, el modelo de documentos de MongoDB ofrece flexibilidad, velocidad y escalabilidad a los desarrolladores que crean asistentes inteligentes para vehículos.
A diferencia de las bases de datos relacionales tradicionales, que se basan en tablas rígidas y uniones complejas, MongoDB almacena los datos como documentos flexibles. Esto facilita la representación de estructuras de datos reales, como la telemetría de vehículos o fragmentos de conocimiento integrados, exactamente como se usan en el código. También permite iterar más rápido, adaptar el modelo sin tiempos de inactividad y desarrollar nuevas funciones a medida que la aplicación evoluciona.
Creado para la innovación y la velocidad
El modelo de documento está diseñado para desarrolladores. El esquema flexible de MongoDB permite modificar y actualizar fácilmente el modelo de datos. A medida que se implementan nuevas funciones del vehículo o cambian las expectativas de los usuarios, los equipos pueden desarrollar el modelo de datos sobre la marcha, sin costosas migraciones ni tiempos de inactividad de la aplicación. Además, como cada documento es independiente, las consultas son más rápidas y sencillas.
La elección natural para las cargas de trabajo de IA
La IA generativa se nutre de datos ricos, diversos y no estructurados. Las incrustaciones, los metadatos contextuales y las referencias estructuradas contribuyen a mejorar los sistemas de IA. Con MongoDB, puede realizar las siguientes acciones:
Almacene incrustaciones vectoriales, metadatos y contenido de origen en un solo documento.
Combine datos estructurados y vectoriales sin saltar entre sistemas.
Query campos vectoriales y no vectoriales conjuntamente para obtener resultados contextuales y precisos.
Ejemplo 1: Incrustaciones de manuales de automóviles
Al utilizar un enfoque de generación aumentada por recuperación (RAG), la calidad de la fragmentación y las incrustaciones afecta directamente la calidad de las respuestas de la IA. Un contenido mal segmentado o la falta de contexto pueden generar respuestas vagas o imprecisas. Los manuales técnicos suelen contener texto denso, diagramas y terminología específica del dominio, lo que dificulta la recuperación de la información correcta.
Esta solución representa cada fragmento del manual como un documento. El documento incluye no solo el texto y su incrustación vectorial, sino también metadatos como el tipo de contenido (p. ej., seguridad y diagnóstico), los números de página, la longitud del fragmento y los enlaces a fragmentos relacionados. Este contexto adicional ayuda al sistema a comprender cómo se relacionan los fragmentos de información, lo cual es especialmente importante en temas muy técnicos o interdependientes.
El modelo de documento flexible de MongoDB facilita la captura de esta complejidad. A medida que el manual evoluciona o surgen nuevas necesidades, se pueden añadir campos o ajustar la estructura gradualmente sin necesidad de migrar completamente el esquema. Esto permite una recuperación más precisa y respuestas de IA más útiles.
El siguiente documento de ejemplo representa un fragmento manual:
{ "_id": { "$oid": "67cc4b09c128338a8133b59a" }, "text": "Oil Pressure Warning Lamp. If it illuminates when the engine is running this indicates a malfunction. Stop your vehicle as soon as it is safe to do so and switch the engine off. Check the engine oil level. If the oil level is sufficient, this indicates a system malfunction.", "page_numbers": [ 23 ], "content_type": [ "safety", "diagnostic" ], "metadata": { "page_count": 1, "chunk_length": 1045 }, "id": "chunk_0053", "prev_chunk_id": "chunk_0052", "next_chunk_id": "chunk_0054", "related_chunks": [ { "id": "chunk_0048", "content_type": [ "safety" ], "relation_type": "same_context" }, { "id": "chunk_0049", "content_type": [ "safety" ], "relation_type": "same_context" }, ... ], "embedding": [ -0.002636542310938239, -0.005587903782725334, ... ], "embedding_timestamp": "2025-03-08T13:50:00.887107" }
Ejemplo 2: Datos de la señal del vehículo
Para las señales vehiculares, esta solución modela los datos utilizando la Especificación de Señales Vehiculares (VSS) de COVESA. VSS proporciona una estructura jerárquica estandarizada para describir señales en tiempo real como la velocidad, la aceleración o los códigos de diagnóstico de problemas (DTC). Es un formato abierto y extensible que facilita la colaboración, la integración de sistemas y la reutilización de datos en todas las plataformas vehiculares.
Dado que el modelo de documentos de MongoDB gestiona de forma nativa las estructuras anidadas, la representación de la jerarquía VSS es sencilla. Las señales se pueden agrupar lógicamente, tal como aparecen en el modelo VSS, lo cual se alinea con la estructura de árbol de la especificación.
3Figura. El modelo de datos VSS es una estructura jerárquica de árbol construida con módulos que se pueden combinar de forma flexible. Fuente: https://covesa.global/vehicle-signal-specification/
Esta estructura acelera el desarrollo y garantiza que las herramientas y los flujos de trabajo de IA tengan acceso constante a datos limpios, estructurados y significativos.
El siguiente documento es una representación de ejemplo de una señal de vehículo que cumple con VSS.
{ "_id": { "$oid": "67e58d5f672b23090e57d478" }, "VehicleIdentification": { "VIN": "1HGCM82633A004352" }, "Speed": 0, "TraveledDistance": 0, "CurrentLocation": { "Timestamp": "2020-01-01T00:00:00Z", "Latitude": 0, "Longitude": 0, "Altitude": 0 }, "Acceleration": { "Lateral": 0, "Longitudinal": 0, "Vertical": 0 }, "Diagnostics": { "DTCCount": 0, "DTCList": [] } }
El modelo de documentos de MongoDB no solo almacena sus datos. Refleja la complejidad del mundo real, lo que facilita la creación de sistemas más inteligentes que responden en tiempo real, se adaptan a las necesidades de los usuarios y crecen con su plataforma. Ya sea que almacene diagnósticos de vehículos o manuales codificados con vectores, MongoDB le brinda las herramientas para crear experiencias inteligentes más rápidamente.
Construir la solución
El desarrollo de esta solución se puede desglosar en los pasos que se describen a continuación. Se utiliza MongoDB Atlas para alojar los datos, Google Cloud para los servicios de IA, PowerSync para transmitir los datos del vehículo y una aplicación integral para integrar todo. Puede encontrar todos los activos y recursos necesarios en el repositorio de GitHub. Para obtener instrucciones más detalladas, consulte el repositorio. README.
Replicar la base de datos de demostración
Cree un clúster en su cuenta de Atlas y llene su base de datos con los datos necesarios para la demostración. Encontrará un volcado de datos dentro del repositorio para replicar rápidamente la base de datos con todos los datos y metadatos necesarios con un solo mongorestore comando.
Configura tu entorno de Google Cloud
Crea un proyecto de Google Cloud y habilita las API requeridas: Conversión de voz a texto, Conversión de texto a voz, Document AI y Vertex AI. Para el desarrollo local, configura las credenciales predeterminadas de la aplicación para que la aplicación pueda autenticarse de forma fluida con los servicios de Google. Las instrucciones detalladas se proporcionan en la documentación de Google Cloud.
(Opcional) Crea tus propias incrustaciones de documentos
La demo incluye un conjunto precomputado de embeddings para el manual del automóvil. Sin embargo, puedes generar tus propios embeddings analizando archivos PDF usando Document AI e integrándolos con Vertex AI. Esto te da flexibilidad para ampliar el asistente con documentos personalizados o manuales adicionales según sea necesario.
Configurar PowerSync para obtener datos del vehículo en tiempo real
Cree una cuenta de PowerSync y vincule su base de datos MongoDB con su cadena de conexión. PowerSync actúa como un puente de datos, sincronizando los datos de MongoDB con las aplicaciones cliente en tiempo real. Defina reglas de sincronización para la colección vehicleData.
Ejecutar la aplicación
Clone el repositorio localmente y cree un .env archivo con la plantilla proporcionada. Una vez configurado el entorno, ejecute npm install para instalar las dependencias y luego inicie el servidor de desarrollo npm run
dev con. La aplicación está disponible en http://localhost:.3000
Aprendizajes clave
La IA conversacional parte de una base de datos adecuada: datos ricos, contextuales y accesibles impulsan a los asistentes de voz inteligentes. MongoDB Atlas unifica la telemetría estructurada, los manuales no estructurados y las incrustaciones vectoriales en una única plataforma intuitiva para desarrolladores, eliminando los silos de datos y facilitando la entrega de respuestas relevantes en tiempo real.
MongoDB acelera la innovación desde la fábrica hasta la línea de meta: Las aplicaciones automotrices modernas exigen flexibilidad y velocidad, desde el mantenimiento predictivo y el diagnóstico hasta los sistemas de cabina digital. El esquema flexible de MongoDB, las capacidades de sincronización en tiempo real y la escalabilidad horizontal ayudan a los equipos a avanzar más rápido, colaborar de forma más eficaz y ofrecer características que diferencian a sus vehículos.
Los conductores están listos para la próxima generación de asistentes de voz: Con vehículos eléctricos, autonomía y sistemas de seguridad inteligentes, los clientes tienen grandes expectativas en los sistemas a bordo. La IA generativa permite a los asistentes ofrecer conversaciones interactivas y con matices, y MongoDB ofrece a los desarrolladores las herramientas para crear estas experiencias a escala.
Autores
Dr. Humza Akhtar, MongoDB
Rami Pinto, MongoDB