Búsqueda IA para catálogos B2B con RAG en Magento 2

Búsqueda IA para catálogos B2B: RAG, relevancia y conversión

El reto de la búsqueda estándar en B2B

La búsqueda estándar en Magento, aunque sólida, suele quedarse corta en catálogos B2B complejos. Los compradores usan lenguaje técnico y matizado, buscan por conceptos, problemas o SKUs parciales, no solo por nombres. Esperan comprensión de contexto: una consulta como "componentes para brazo robótico de alto desgaste" debe mostrar no solo el brazo, sino también rodamientos, actuadores y lubricantes compatibles, aunque esos términos no aparezcan en las descripciones. La búsqueda basada en keywords –incluso con Elasticsearch– no cierra esta brecha semántica, lo que provoca baja relevancia, alta tasa de cero resultados y pérdida de ingresos.

Arquitectura central: Retrieval‑Augmented Generation (RAG)

RAG combina la comprensión/generación del lenguaje por parte de un LLM con los datos factuales y en tiempo real de tu catálogo Magento. No es solo un algoritmo de búsqueda: es un sistema para entender la intención y responder con conocimiento contextual.

El proceso consta de tres pasos:

Índice vectorial (base de conocimiento): Datos del catálogo – descripciones, especificaciones, manuales, categorías e incluso artículos de soporte – se convierten en vectores mediante un modelo de embeddings. Capturan significado semántico: una búsqueda de "resistencia a la corrosión" queda cerca de productos de acero inoxidable o con recubrimientos adecuados, aunque la palabra "corrosión" no aparezca. Esta biblioteca vectorial es la memoria a largo plazo del LLM.
Retrieval (hallar lo relevante): La consulta del usuario se vectoriza y se ejecuta una búsqueda de similitud (p. ej., Cosine Similarity) en el índice para encontrar datos de producto semánticamente pertinentes. No es un simple match de keywords, sino candidatos alineados con la intención.
Generación (construir la respuesta): Los datos recuperados y la consulta se pasan como contexto al LLM. Un prompt típico: "Contexto: [datos para SKUs 123, 456, 789]. Consulta: 'Necesito conectores duraderos e impermeables para exterior.' Responde SOLO con el contexto." El LLM resume opciones, justifica la idoneidad y sugiere accesorios compatibles, todo basado en datos del catálogo.

Ranking híbrido: la clave de la relevancia en B2B

Solo la semántica no basta. En B2B abundan consultas exactas con SKUs o términos técnicos. Un sistema puramente semántico podría "corregir" erróneamente una SKU precisa. La solución es un ranking híbrido que combine múltiples señales en un score final confiable.

Semantic Score: Relevancia de la búsqueda vectorial: capta el ajuste conceptual.
Keyword Score (TF‑IDF/BM25): Relevancia de texto clásico; crucial para SKUs, números de modelo y jerga técnica (fortaleza de Elasticsearch).
Business Logic Score: Reglas propias: stock (priorizar disponible), precios por cliente, popularidad desde analítica.

El score final es ponderado. Si la consulta contiene un patrón de SKU válido, gana peso el componente de keywords; en consultas conceptuales ("componentes ligeros de montaje") domina el componente semántico. Así, tanto búsquedas exploratorias como precisas devuelven resultados correctos.

Seguridad y gobernanza: no negociable

En B2B, no todos ven el mismo catálogo ni los mismos precios. Una búsqueda RAG debe respetar ACLs, grupos de clientes y permisos de catálogos compartidos de Magento. Ignorarlo implica riesgo de fuga de datos (p. ej., precios negociados o productos restringidos).

La forma más eficaz es aplicar el filtrado en la fase de retrieval: antes de buscar en el índice, limitar el conjunto de documentos según el contexto de sesión (p. ej., customer_group_id). El LLM solo ve datos permitidos. Este enfoque de seguridad por diseño evita divulgaciones accidentales de información sensible en B2B.

Medir lo que importa: más allá de la conversión

Además de la conversión, estas métricas avanzadas indican si la búsqueda IA funciona:

Click‑Through Rate (CTR): ¿Se clican los primeros resultados? Una CTR baja sugiere falta de relevancia; con resúmenes generados, medir interacción con los enlaces propuestos.
Normalized Discounted Cumulative Gain (NDCG): Métrica de referencia del ranking: evalúa si los mejores resultados aparecen arriba de forma consistente.
Tasa de cero resultados: Porcentaje de búsquedas sin resultados. RAG debería reducirla de forma notable al entender intención y no solo palabras.

Consejos de implementación en Magento

Integrar RAG en Magento es abordable: elige base vectorial (Pinecone, Weaviate) y LLM (OpenAI, Llama). Usa observadores (catalog_product_save_after) para reindexación incremental; para el indexado inicial, usa un comando CLI. Expón la búsqueda vía un endpoint API propio que englobe vectorización, ranking híbrido y respuesta del LLM y devuelva JSON estructurado al frontend. Cachea agresivamente consultas frecuentes para controlar coste y latencia.