Docs Menu
Docs Home
/

Búsqueda Semántica con Voyage IA Embeddings

Esta guía describe cómo realizar búsquedas semánticas con los modelos de Voyage AI. Esta página incluye ejemplos de casos de uso de búsqueda semántica básica y avanzada, incluyendo búsqueda con reordenamiento, así como recuperación multilingüe, multimodal, de fragmentos contextualizados y de grandes corpus.

Diagrama del flujo de trabajo de búsqueda semántica
haga clic para ampliar

Esta sección proporciona ejemplos de código para diversos casos de uso de búsqueda semántica con diferentes modelos de Voyage AI. Para cada ejemplo, se realizan los mismos pasos básicos:

  1. Incruste los documentos: Convierta sus datos en incrustaciones vectoriales que capturen su significado. Estos datos pueden ser texto, imágenes, fragmentos de documentos o un gran corpus de texto.

  2. Incrustar la consulta: transforme su consulta de búsqueda en la misma representación vectorial que sus documentos.

  3. Encontrar documentos similares: Compara el vector de query con los vectores de tus documentos para identificar los resultados más semánticamente similares.

Trabaje con una versión ejecutable de este tutorial como un cuaderno de Python.

1

Antes de comenzar, cree un directorio de proyecto, instale bibliotecas y configure su clave API de modelo.

  1. Ejecuta los siguientes comandos en tu terminal para crear un directorio nuevo para este tutorial e instalar las bibliotecas requeridas:

    mkdir voyage-semantic-search
    cd voyage-semantic-search
    pip install --upgrade voyageai numpy datasets
  2. Si aún no lo has hecho, sigue los pasos para Cree una clave API de modelo y luego ejecute el siguiente comando en su terminal para exportarla como una variable de entorno:

    export VOYAGE_API_KEY="your-model-api-key"
2

Expanda cada sección para obtener ejemplos de código para cada tipo de búsqueda semántica.

La siguiente tabla resume los ejemplos de esta página:

Ejemplo
Modelo utilizado
Comprensión de los resultados

Búsqueda semántica básica

voyage-4-large

El documento de llamada de conferencia de Apple ocupa el primer lugar, significativamente más alto que los documentos no relacionados, lo que demuestra una coincidencia semántica precisa.

Búsqueda semántica con Reranker

voyage-4-large y rerank-2.5

El reranking mejora la precisión de la búsqueda al analizar la relación completa entre la consulta y el documento. Mientras que la simple integración de la similitud clasifica el documento correcto primero con una puntuación moderada, el reranking aumenta significativamente su puntuación de relevancia, lo que lo distingue mejor de los resultados irrelevantes.

Búsqueda semántica multilingüe

voyage-4-large

Los modelos de viaje realizan búsquedas semánticas de forma eficaz en diferentes idiomas. El ejemplo muestra tres búsquedas independientes en inglés, español y chino, cada una de las cuales identifica correctamente los documentos más relevantes sobre las ganancias de empresas tecnológicas en sus respectivos idiomas.

Búsqueda semántica multimodal

voyage-multimodal-3.5

El modelo admite texto, imágenes y vídeos intercalados, así como búsquedas de solo imágenes y de solo vídeos. En ambos casos, las imágenes de mascotas (gato y perro) tienen una clasificación significativamente superior a la de la imagen del plátano, lo que demuestra una recuperación precisa del contenido visual. Las entradas intercaladas con texto descriptivo generan puntuaciones de similitud ligeramente superiores a las de solo imágenes.

Incrustaciones de fragmentos contextualizados

voyage-context-3

El segmento con un crecimiento de ingresos del 15% ocupa el primer lugar porque está vinculado al documento de Leafy Inc. El segmento similar con un crecimiento del 7% de Greenery Corp. tiene una puntuación más baja, lo que demuestra cómo el modelo considera con precisión el contexto del documento para distinguir entre segmentos que, de otro modo, serían similares.

Búsqueda semántica con corpus grande

voyage-4-large

El documento de verdad fundamental sobre el contenido del usuario ocupa el primer lugar entre 154 documentos, lo que demuestra una recuperación efectiva a escala a pesar de la complejidad semántica.

La búsqueda semántica es un método que devuelve resultados basados ​​en el significado semántico (o subyacente) de los datos. A diferencia de la búsqueda de texto completo tradicional, que encuentra coincidencias, la búsqueda semántica encuentra vectores cercanos a la consulta en un espacio multidimensional. Cuanto más cercanos estén los vectores a la consulta, mayor será su similitud de significado.

Ejemplo

La búsqueda textual tradicional solo devuelve coincidencias exactas, limitando los resultados cuando los usuarios buscan con términos diferentes a los que hay en tus datos. Por ejemplo, si tus datos contienen documentos sobre ratones de computadora y ratones animales, la búsqueda de "mouse" cuando se pretende encontrar información sobre ratones de computadora da como resultado coincidencias incorrectas.

Sin embargo, la búsqueda semántica captura la relación subyacente entre palabras o frases, incluso cuando no hay solapamiento léxico. Buscar "ratón" al indicar que se buscan productos informáticos genera resultados más relevantes. Esto se debe a que la búsqueda semántica compara el significado semántico de la consulta con los datos para devolver solo los resultados más relevantes, independientemente de los términos de búsqueda exactos.

Diagrama que demuestra la similitud semántica
haga clic para ampliar

Si bien almacenar sus vectores en la memoria e implementar sus propios procesos de búsqueda es adecuado para la creación de prototipos y la experimentación, utilice una base de datos de vectores y una solución de búsqueda empresarial para aplicaciones de producción, de modo que pueda realizar una recuperación eficiente de un corpus más grande.

MongoDB ofrece compatibilidad nativa con el almacenamiento y la recuperación de vectores, lo que lo convierte en una opción práctica para almacenar y buscar incrustaciones vectoriales junto con otros datos. Para completar un tutorial sobre cómo realizar búsquedas semánticas con MongoDB Vector Search, consulte "Cómo realizar búsquedas semánticas en los datos de su clúster Atlas".

Combine la búsqueda semántica con un LLM para implementar una aplicación RAG.

Next

RAG

En esta página