El archivo robots.txt es la primera línea de comunicación entre tu tienda online y los rastreadores de los motores de búsqueda. Bien configurado, protege tu presupuesto de rastreo, evita que se indexe contenido duplicado y dirige a Googlebot hacia tus páginas más estratégicas. Mal configurado, puede bloquear la indexación de tus fichas de producto y hundir tu visibilidad SEO en cuestión de horas.
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu dominio (https://tu-tienda.es/robots.txt) que indica a los rastreadores qué partes del sitio pueden o no pueden explorar. Sigue el Robots Exclusion Protocol (REP), respetado por Google, Bing y prácticamente todos los rastreadores legítimos.
Es crucial entender que robots.txt controla el rastreo (crawl), no la indexación. Una página bloqueada en robots.txt puede seguir apareciendo en Google si recibe enlaces entrantes de otros sitios — para evitar la indexación, es necesario usar la etiqueta meta noindex.
Sintaxis de las directivas robots.txt
Un archivo robots.txt está compuesto por bloques llamados records, cada uno dirigido a uno o varios agentes de usuario (robots). Las directivas principales son:
- User-agent: Identifica el robot objetivo.
User-agent: *se aplica a todos los robots;User-agent: Googlebotapunta exclusivamente a Google. - Disallow: Prohíbe el rastreo de una ruta.
Disallow: /admin/bloquea todo el directorio de administración. - Allow: Autoriza explícitamente una ruta incluso dentro de un directorio bloqueado. Útil para permitir archivos CSS o JS en una carpeta que de otro modo estaría restringida.
- Sitemap: Indica la ubicación del sitemap XML.
Sitemap: https://tu-tienda.es/sitemap.xml— es un indicador de descubrimiento, no una directiva de rastreo. - Crawl-delay: Sugiere un retraso entre las solicitudes del rastreador. Ignorado por Googlebot pero respetado por Bing y otros.
Robots.txt para PrestaShop: las reglas esenciales
PrestaShop genera muchas URLs técnicas que nunca deberían ser indexadas. Un robots.txt bien configurado para PrestaShop debe cubrir los siguientes casos:
Directorios a bloquear
Bloquea /admin/, /modules/, /cache/, /install/, /config/ y /tools/. Estos directorios técnicos no tienen valor SEO y consumen innecesariamente tu presupuesto de rastreo.
Navegación por facetas
Las URLs generadas por los filtros de producto (color, talla, marca) crean miles de duplicados. Bloquea los parámetros de filtrado con reglas Disallow específicas.
Páginas transaccionales
Bloquea /carrito, /pedido, /iniciar-sesion, /mi-cuenta y sus variantes. Estas páginas requieren una sesión activa y no tienen valor alguno para los motores de búsqueda.
Ejemplo robots.txt para PrestaShop
User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /carrito
Disallow: /pedido
Disallow: /iniciar-sesion
Disallow: /mi-cuenta
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://tu-tienda.es/sitemap.xmlErrores críticos que debes evitar
Ciertos errores en robots.txt pueden tener consecuencias catastróficas para tu posicionamiento en los motores de búsqueda:
- Bloquear archivos CSS y JavaScript: Google necesita cargar los recursos de tu sitio para evaluar la experiencia de usuario. Bloquear estos archivos degrada tu puntuación Core Web Vitals medida por Googlebot.
- Disallow: / (raíz completa): Un error clásico en modo desarrollo — bloquear toda la tienda impide la indexación completa. Comprueba siempre antes de publicar.
- Bloquear imágenes de producto: Si tu directorio /img/ está bloqueado, Google Images no puede indexar tus fotos, privándote de una fuente de tráfico significativa.
- Olvidar las variantes de protocolo: Tu robots.txt debe coincidir con el protocolo de tu sitio (HTTPS). Un sitio HTTPS con robots.txt referenciado mediante HTTP puede generar inconsistencias.
- Bloqueo y canonical simultáneos: Si una página está bloqueada por robots.txt, Google no puede leer su etiqueta canonical — las dos directivas entran en conflicto.
Robots.txt no garantiza la no indexación
<meta name="robots" content="noindex"> o la cabecera HTTP X-Robots-Tag.Probar y validar tu robots.txt
Google Search Console incluye una herramienta de prueba de robots.txt integrada que te permite simular el comportamiento de Googlebot ante cualquier URL de tu sitio. Indica si la URL está permitida o bloqueada y qué regla se aplica. Es la herramienta imprescindible tras cualquier modificación en tu robots.txt.
Para acceder a la herramienta: Google Search Console → Probador heredado de robots.txt (en las herramientas antiguas) o utiliza directamente la herramienta de inspección de URL, que indica si una página está bloqueada por robots.txt.