Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/

Búsqueda Semántica con Voyage IA Embeddings

Esta guía describe cómo realizar búsquedas semánticas con los modelos de Voyage AI. Esta página incluye ejemplos de casos de uso básicos y avanzados de búsqueda semántica, incluida la búsqueda con reclasificación, así como la recuperación multilingüe, multimodal, de fragmentos contextualizados y de grandes corpus.

Diagrama del flujo de trabajo de búsqueda semántica
haga clic para ampliar

Esta sección proporciona ejemplos de código para varios casos de uso de búsqueda semántica con diferentes modelos de IA de Voyage. Para cada ejemplo, realiza los mismos pasos básicos:

  1. Incorpora los documentos: convierte tus datos en incrustaciones vectoriales que capturen su significado. Estos datos pueden ser texto, imágenes, fragmentos de documentos o un gran corpus de texto.

  2. Embed the query: transforma tu query de búsqueda en la misma representación vectorial que tus documentos.

  3. Encontrar documentos similares: Compara el vector de query con los vectores de tus documentos para identificar los resultados más semánticamente similares.

Trabaja con una versión ejecutable de este tutorial en un notebook de Python.

1

Antes de comenzar, crea un directorio de proyecto, instala las bibliotecas y configura la clave de API de tu modelo.

  1. Ejecuta los siguientes comandos en tu terminal para crear un directorio nuevo para este tutorial e instalar las bibliotecas requeridas:

    mkdir voyage-semantic-search
    cd voyage-semantic-search
    pip install --upgrade voyageai numpy datasets
  2. Si aún no lo has hecho, sigue los pasos para Crea una clave API de modelo y luego ejecuta el siguiente comando en tu terminal para exportarla como una variable de entorno:

    export VOYAGE_API_KEY="your-model-api-key"
2

Ampliar cada sección para obtener ejemplos de código para cada tipo de búsqueda semántica.

La siguiente tabla resume los ejemplos de esta página:

Ejemplo
Modelo utilizado
Comprender los resultados

Búsqueda semántica básica

voyage-4-large

El documento de llamada de conferencia de Apple ocupa el primer lugar, significativamente más alto que los documentos no relacionados, lo que demuestra una coincidencia semántica precisa.

Búsqueda semántica con reorganizador

voyage-4-large y rerank-2.5

La reclasificación mejora la precisión de la búsqueda al analizar la relación completa entre query y documento. Si bien la similitud de incrustaciones por sí sola sitúa el documento correcto en primer lugar con una puntuación moderada, el reranker refuerza significativamente su puntuación de relevancia, separándolo mejor de resultados irrelevantes.

Búsqueda semántica multilingüe

voyage-4-large

Los modelos Voyage realizan búsquedas semánticas de manera eficaz en diferentes lenguajes. El ejemplo demuestra tres búsquedas separadas en inglés, español y chino, cada una identificando correctamente los documentos más relevantes sobre ganancias de empresas tecnológicas dentro de sus respectivos idiomas.

Búsqueda semántica multimodal

voyage-multimodal-3.5

El modelo permite búsqueda intercalada de texto, imágenes y videos, y también búsqueda exclusiva por imágenes o exclusiva por videos. En ambos casos, las imágenes de mascotas (gato y perro) ocupan una posición significativamente más alta que la imagen no relacionada de un plátano, demostrando una recuperación precisa de contenido visual. Las entradas entrelazadas con texto descriptivo producen puntuaciones de similitud ligeramente superiores a las entradas sólo de imágenes.

Embeddings de fragmentos contextualizados

voyage-context-3

El 15% de crecimiento de ganancia fragmento ocupa el primer lugar porque está vinculado al documento de Leafy Inc. El fragmento de crecimiento similar del 7% de Greenery Corp. obtiene puntuaciones más bajas, mostrando cómo el modelo considera con precisión el contexto del documento para distinguir entre fragmentos que de otro modo serían similares.

Búsqueda semántica con un corpus grande

voyage-4-large

El documento de referencia sobre el contenido de usuario ocupa el primer lugar entre 154 documentos, lo que demuestra una recuperación eficaz a gran escala a pesar de la complejidad semántica.

La búsqueda semántica es un método de búsqueda que devuelve resultados basados en el significado semántico o subyacente de tus datos. A diferencia de la búsqueda clásica de texto completo que encuentra coincidencias exactas de texto, la búsqueda semántica encuentra vectores que están cerca de tu consulta de búsqueda en un espacio multidimensional. Cuanto más cercanos estén los vectores a tu query, más similares serán en significado.

Ejemplo

La búsqueda textual tradicional solo devuelve coincidencias exactas, limitando los resultados cuando los usuarios buscan con términos diferentes a los que hay en tus datos. Por ejemplo, si tus datos contienen documentos sobre ratones de computadora y ratones animales, la búsqueda de "mouse" cuando se pretende encontrar información sobre ratones de computadora da como resultado coincidencias incorrectas.

La búsqueda semántica, sin embargo, capta la relación subyacente entre palabras o frases incluso cuando no hay coincidencia léxica. Buscar "mouse" cuando se indica que se buscan productos informáticos resulta en resultados más relevantes. Esto se debe a que la búsqueda semántica compara el significado semántico de la consulta de búsqueda con los datos para devolver solo los resultados más relevantes, independientemente de los términos de búsqueda exactos.

Diagrama que demuestra la similitud semántica
haga clic para ampliar

Si bien el almacenamiento de tus vectores en memoria y la implementación de tus propios pipelines de búsqueda es adecuado para la creación de prototipos y experimentos, utiliza una base de datos vectorial y una solución de búsqueda empresarial para aplicaciones en producción a fin de realizar una recuperación eficiente a partir de un corpus más grande.

MongoDB cuenta con soporte nativo para almacenamiento y recuperación de vectores, lo que lo convierte en una opción conveniente para almacenar y buscar incrustaciones vectoriales junto con tus otros datos. Para completar un tutorial sobre cómo realizar una búsqueda semántica con MongoDB Vector Search, consulte Cómo realizar una búsqueda semántica de datos en su clúster de Atlas.

Combina búsqueda semántica con un LLM para implementar una aplicación RAG.

Next

RAG

En esta página