Robots.txt — Controlar el rastreo de tu tienda PrestaShop

El archivo robots.txt es la primera línea de comunicación entre tu tienda online y los rastreadores de los motores de búsqueda. Bien configurado, protege tu presupuesto de rastreo, evita que se indexe contenido duplicado y dirige a Googlebot hacia tus páginas más estratégicas. Mal configurado, puede bloquear la indexación de tus fichas de producto y hundir tu visibilidad SEO en cuestión de horas.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu dominio (https://tu-tienda.es/robots.txt) que indica a los rastreadores qué partes del sitio pueden o no pueden explorar. Sigue el Robots Exclusion Protocol (REP), respetado por Google, Bing y prácticamente todos los rastreadores legítimos.

Es crucial entender que robots.txt controla el rastreo (crawl), no la indexación. Una página bloqueada en robots.txt puede seguir apareciendo en Google si recibe enlaces entrantes de otros sitios — para evitar la indexación, es necesario usar la etiqueta meta noindex.

Sintaxis de las directivas robots.txt

Un archivo robots.txt está compuesto por bloques llamados records, cada uno dirigido a uno o varios agentes de usuario (robots). Las directivas principales son:

User-agent: Identifica el robot objetivo. User-agent: * se aplica a todos los robots; User-agent: Googlebot apunta exclusivamente a Google.
Disallow: Prohíbe el rastreo de una ruta. Disallow: /admin/ bloquea todo el directorio de administración.
Allow: Autoriza explícitamente una ruta incluso dentro de un directorio bloqueado. Útil para permitir archivos CSS o JS en una carpeta que de otro modo estaría restringida.
Sitemap: Indica la ubicación del sitemap XML. Sitemap: https://tu-tienda.es/sitemap.xml — es un indicador de descubrimiento, no una directiva de rastreo.
Crawl-delay: Sugiere un retraso entre las solicitudes del rastreador. Ignorado por Googlebot pero respetado por Bing y otros.

Robots.txt para PrestaShop: las reglas esenciales

PrestaShop genera muchas URLs técnicas que nunca deberían ser indexadas. Un robots.txt bien configurado para PrestaShop debe cubrir los siguientes casos:

🚫

Directorios a bloquear

Bloquea /admin/, /modules/, /cache/, /install/, /config/ y /tools/. Estos directorios técnicos no tienen valor SEO y consumen innecesariamente tu presupuesto de rastreo.

🔗

Navegación por facetas

Las URLs generadas por los filtros de producto (color, talla, marca) crean miles de duplicados. Bloquea los parámetros de filtrado con reglas Disallow específicas.

🛒

Páginas transaccionales

Bloquea /carrito, /pedido, /iniciar-sesion, /mi-cuenta y sus variantes. Estas páginas requieren una sesión activa y no tienen valor alguno para los motores de búsqueda.

Ejemplo robots.txt para PrestaShop

User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /carrito
Disallow: /pedido
Disallow: /iniciar-sesion
Disallow: /mi-cuenta
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://tu-tienda.es/sitemap.xml

Errores críticos que debes evitar

Ciertos errores en robots.txt pueden tener consecuencias catastróficas para tu posicionamiento en los motores de búsqueda:

Bloquear archivos CSS y JavaScript: Google necesita cargar los recursos de tu sitio para evaluar la experiencia de usuario. Bloquear estos archivos degrada tu puntuación Core Web Vitals medida por Googlebot.
Disallow: / (raíz completa): Un error clásico en modo desarrollo — bloquear toda la tienda impide la indexación completa. Comprueba siempre antes de publicar.
Bloquear imágenes de producto: Si tu directorio /img/ está bloqueado, Google Images no puede indexar tus fotos, privándote de una fuente de tráfico significativa.
Olvidar las variantes de protocolo: Tu robots.txt debe coincidir con el protocolo de tu sitio (HTTPS). Un sitio HTTPS con robots.txt referenciado mediante HTTP puede generar inconsistencias.
Bloqueo y canonical simultáneos: Si una página está bloqueada por robots.txt, Google no puede leer su etiqueta canonical — las dos directivas entran en conflicto.

Robots.txt no garantiza la no indexación

Una página bloqueada en robots.txt puede aparecer igualmente en los resultados de Google si recibe enlaces entrantes. Google mostrará la URL sin título ni descripción. Para excluir definitivamente una página, usa la etiqueta <meta name="robots" content="noindex"> o la cabecera HTTP X-Robots-Tag.

Probar y validar tu robots.txt

Google Search Console incluye una herramienta de prueba de robots.txt integrada que te permite simular el comportamiento de Googlebot ante cualquier URL de tu sitio. Indica si la URL está permitida o bloqueada y qué regla se aplica. Es la herramienta imprescindible tras cualquier modificación en tu robots.txt.

Para acceder a la herramienta: Google Search Console → Probador heredado de robots.txt (en las herramientas antiguas) o utiliza directamente la herramienta de inspección de URL, que indica si una página está bloqueada por robots.txt.

Probar Lexiik en tu tienda PrestaShop