Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/

Búsqueda Semántica con Voyage IA Embeddings

Esta guía describe cómo realizar búsquedas semánticas con los modelos de Voyage AI. Esta página incluye ejemplos de casos de uso básicos y avanzados de búsqueda semántica, incluida la búsqueda con reclasificación, así como la recuperación multilingüe, multimodal, de fragmentos contextualizados y de grandes corpus.

Diagrama del flujo de trabajo de búsqueda semántica
haga clic para ampliar

Esta sección proporciona ejemplos de código para varios casos de uso de búsqueda semántica con diferentes modelos de IA de Voyage. Para cada ejemplo, realiza los mismos pasos básicos:

  1. Incorpora los documentos: convierte tus datos en incrustaciones vectoriales que capturen su significado. Estos datos pueden ser texto, imágenes, fragmentos de documentos o un gran corpus de texto.

  2. Embed the query: transforma tu query de búsqueda en la misma representación vectorial que tus documentos.

  3. Encontrar documentos similares: Compara el vector de query con los vectores de tus documentos para identificar los resultados más semánticamente similares.

Trabaja con una versión ejecutable de este tutorial en un notebook de Python.

1

Antes de comenzar, cree un directorio de proyecto, instale bibliotecas y configure su clave API de modelo.

  1. Ejecuta los siguientes comandos en tu terminal para crear un directorio nuevo para este tutorial e instalar las bibliotecas requeridas:

    mkdir voyage-semantic-search
    cd voyage-semantic-search
    pip install --upgrade voyageai numpy datasets
  2. Si aún no lo has hecho, sigue los pasos para Cree una clave API de modelo y luego ejecute el siguiente comando en su terminal para exportarla como una variable de entorno:

    export VOYAGE_API_KEY="your-model-api-key"
2

Ampliar cada sección para obtener ejemplos de código para cada tipo de búsqueda semántica.

La siguiente tabla resume los ejemplos de esta página:

Ejemplo
Modelo utilizado
Comprender los resultados

Búsqueda semántica básica

voyage-4-large

El documento de llamada de conferencia de Apple ocupa el primer lugar, significativamente más alto que los documentos no relacionados, lo que demuestra una coincidencia semántica precisa.

Búsqueda semántica con reorganizador

voyage-4-large y rerank-2.5

La reclasificación mejora la precisión de la búsqueda al analizar la relación completa entre query y documento. Si bien la similitud de incrustaciones por sí sola sitúa el documento correcto en primer lugar con una puntuación moderada, el reranker refuerza significativamente su puntuación de relevancia, separándolo mejor de resultados irrelevantes.

Búsqueda semántica multilingüe

voyage-4-large

Los modelos de viaje realizan búsquedas semánticas de forma eficaz en diferentes idiomas. El ejemplo muestra tres búsquedas independientes en inglés, español y chino, cada una de las cuales identifica correctamente los documentos más relevantes sobre las ganancias de empresas tecnológicas en sus respectivos idiomas.

Búsqueda semántica multimodal

voyage-multimodal-3.5

El modelo permite búsqueda intercalada de texto, imágenes y videos, y también búsqueda exclusiva por imágenes o exclusiva por videos. En ambos casos, las imágenes de mascotas (gato y perro) ocupan una posición significativamente más alta que la imagen no relacionada de un plátano, demostrando una recuperación precisa de contenido visual. Las entradas entrelazadas con texto descriptivo producen puntuaciones de similitud ligeramente superiores a las entradas sólo de imágenes.

Embeddings de fragmentos contextualizados

voyage-context-3

El 15% de crecimiento de ganancia fragmento ocupa el primer lugar porque está vinculado al documento de Leafy Inc. El fragmento de crecimiento similar del 7% de Greenery Corp. obtiene puntuaciones más bajas, mostrando cómo el modelo considera con precisión el contexto del documento para distinguir entre fragmentos que de otro modo serían similares.

Búsqueda semántica con un corpus grande

voyage-4-large

El documento de referencia sobre el contenido de usuario ocupa el primer lugar entre 154 documentos, lo que demuestra una recuperación eficaz a gran escala a pesar de la complejidad semántica.

La búsqueda semántica es un método que devuelve resultados basados ​​en el significado semántico (o subyacente) de los datos. A diferencia de la búsqueda de texto completo tradicional, que encuentra coincidencias, la búsqueda semántica encuentra vectores cercanos a la consulta en un espacio multidimensional. Cuanto más cercanos estén los vectores a la consulta, mayor será su similitud de significado.

Ejemplo

La búsqueda textual tradicional solo devuelve coincidencias exactas, limitando los resultados cuando los usuarios buscan con términos diferentes a los que hay en tus datos. Por ejemplo, si tus datos contienen documentos sobre ratones de computadora y ratones animales, la búsqueda de "mouse" cuando se pretende encontrar información sobre ratones de computadora da como resultado coincidencias incorrectas.

La búsqueda semántica, sin embargo, capta la relación subyacente entre palabras o frases incluso cuando no hay coincidencia léxica. Buscar "mouse" cuando se indica que se buscan productos informáticos resulta en resultados más relevantes. Esto se debe a que la búsqueda semántica compara el significado semántico de la consulta de búsqueda con los datos para devolver solo los resultados más relevantes, independientemente de los términos de búsqueda exactos.

Diagrama que demuestra la similitud semántica
haga clic para ampliar

Si bien almacenar sus vectores en la memoria e implementar sus propios procesos de búsqueda es adecuado para la creación de prototipos y la experimentación, utilice una base de datos de vectores y una solución de búsqueda empresarial para aplicaciones de producción, de modo que pueda realizar una recuperación eficiente de un corpus más grande.

MongoDB ofrece compatibilidad nativa con el almacenamiento y la recuperación de vectores, lo que lo convierte en una opción práctica para almacenar y buscar incrustaciones vectoriales junto con otros datos. Para completar un tutorial sobre cómo realizar búsquedas semánticas con MongoDB Vector Search, consulte "Cómo realizar búsquedas semánticas en los datos de su clúster Atlas".

Combina búsqueda semántica con un LLM para implementar una aplicación RAG.

Next

RAG

En esta página